DeepSeek-V3 技术报告
arXiv:2412.19437 (cs) [2024年12月27日提交 (v1), 最近修订于2025年2月18日 (此版本, v2)]
标题: DeepSeek-V3 Technical Report
作者: DeepSeek-AI, Aixin Liu, Bei Feng, Bing Xue, Bingxuan Wang, Bochao Wu, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai Dai, Daya Guo, Dejian Yang, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Han Bao, Hanwei Xu, Haocheng Wang, Haowei Zhang, Honghui Ding, Huajian Xin, Huazuo Gao, Hui Li, Hui Qu, J.L. Cai, Jian Liang, Jianzhong Guo, Jiaqi Ni, Jiashi Li, Jiawei Wang, Jin Chen, Jingchang Chen, Jingyang Yuan, Junjie Qiu, Junlong Li, Junxiao Song, Kai Dong, Kai Hu, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Lei Xu, Leyi Xia, Liang Zhao, Litong Wang, Liyue Zhang, Meng Li, Miaojun Wang, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Mingming Li, Ning Tian, Panpan Huang, Peiyi Wang, Peng Zhang, Qiancheng Wang, Qihao Zhu, Qinyu Chen, Qiushi Du, R.J. Chen, R.L. Jin, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, Runxin Xu, Ruoyu Zhang, Ruyi Chen, S.S. Li, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shaoqing Wu, Shengfeng Ye, Shengfeng Ye, Shirong Ma, Shiyu Wang, Shuang Zhou, Shuiping Yu, Shunfeng Zhou, Shuting Pan, T. Wang, Tao Yun, Tian Pei, Tianyu Sun, W.L. Xiao, Wangding Zeng , Wanjia Zhao, Wei An, Wen Liu, Wenfeng Liang, Wenjun Gao, Wenqin Yu, Wentao Zhang, X.Q. Li, Xiangyue Jin, Xianzu Wang, Xiao Bi, Xiaodong Liu, Xiaohan Wang, Xiaojin Shen, Xiaokang Chen, Xiaokang Zhang, Xiaosha Chen, Xiaotao Nie, Xiaowen Sun, Xiaoxiang Wang, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xingkai Yu, Xinnan Song, Xinxia Shan, Xinyi Zhou, Xinyu Yang, Xinyuan Li, Xuecheng Su, Xuheng Lin, Y.K. Li, Y.Q. Wang, Y.X. Wei, Y.X. Zhu, Yang Zhang, Yanhong Xu, Yanhong Xu, Yanping Huang, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Li, Yaohui Wang, Yi Yu, Yi Zheng, Yichao Zhang, Yifan Shi, Yiliang Xiong, Ying He, Ying Tang, Yishi Piao, Yisong Wang, Yixuan Tan, Yiyang Ma, Yiyuan Liu, Yongqiang Guo, Yu Wu, Yuan Ou, Yuchen Zhu, Yuduan Wang, Yue Gong, Yuheng Zou, Yujia He, Yukun Zha, Yunfan Xiong, Yunxian Ma, Yuting Yan, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Z.F. Wu, Z.Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhen Huang, Zhen Zhang, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhibin Gou, Zhicheng Ma, Zhigang Yan, Zhihong Shao, Zhipeng Xu, Zhiyu Wu, Zhongyu Zhang, Zhuoshu Li, Zihui Gu, Zijia Zhu, Zijun Liu, Zilin Li, Ziwei Xie, Ziyang Song, Ziyi Gao, Zizheng Pan [等. (显示100位未列出的作者)](https://arxiv.org/abs/<javascript:toggleAuthorList('long-author-list','et al. (100 additional authors not shown)');> "显示所有作者") 查看由 DeepSeek-AI 及其他 199 位作者撰写的题为 DeepSeek-V3 Technical Report 的论文的 PDF 版本 查看 PDF HTML (实验性)
摘要: 我们提出了 DeepSeek-V3,一个强大的混合专家 (MoE) 语言模型,总共有 6710 亿参数,每个 token 激活 370 亿个参数。为了实现高效推理和具有成本效益的训练,DeepSeek-V3 采用了 Multi-head Latent Attention (MLA) 和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中经过了充分验证。此外,DeepSeek-V3 开创了一种无辅助损失策略,用于负载平衡,并设置了一个多 token 预测训练目标,以获得更强的性能。我们使用 14.8 万亿个多样化且高质量的 token 对 DeepSeek-V3 进行预训练,然后进行监督微调和强化学习阶段,以充分利用其功能。综合评估表明,DeepSeek-V3 的性能优于其他开源模型,并达到了与领先的闭源模型相当的水平。尽管 DeepSeek-V3 具有出色的性能,但其完整训练仅需 278.8 万 H800 GPU 小时。此外,它的训练过程非常稳定。在整个训练过程中,我们没有遇到任何不可恢复的损失峰值或执行任何回滚。模型检查点位于 this https URL。 主题: | 计算与语言 (cs.CL); 人工智能 (cs.AI) ---|--- 引用为: | arXiv:2412.19437 [cs.CL] (或 arXiv:2412.19437v2 [cs.CL] 对于此版本) https://doi.org/10.48550/arXiv.2412.19437 点击以了解更多关于 DataCite 发布的 arXiv-DOI
提交历史
来自: Wenfeng Liang [查看电子邮件] [v1] 星期五, 27 12月 2024 04:03:16 UTC (1,114 KB) [v2] 星期二, 18 2月 2025 17:26:38 UTC (1,114 KB) 全文链接:
访问论文:
查看由 DeepSeek-AI 及其他 199 位作者撰写的题为 DeepSeek-V3 Technical Report 的论文的 PDF 版本
查看许可 当前浏览上下文: cs.CL < 上一个 | 下一个 > 新的 | 最近的 | [2024-12](https://arxiv.org/abs/</list/cs.CL/2024