每一次 FLOP 都重要:在非高端 GPU 上扩展 300B 参数量 LING LLM
arXiv:2503.05139 (cs) [2025 年 3 月 7 日提交 (v1), 2025 年 3 月 10 日最新修订 (此版本, v2)]
标题: Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs
作者: Ling Team, Binwei Zeng, Chao Huang, Chao Zhang, Changxin Tian, Cong Chen, Dingnan Jin, Feng Yu, Feng Zhu, Feng Yuan, Fakang Wang, Gangshan Wang, Guangyao Zhai, Haitao Zhang, Huizhong Li, Jun Zhou, Jia Liu, Junpeng Fang, Junjie Ou, Jun Hu, Ji Luo, Ji Zhang, Jian Liu, Jian Sha, Jianxue Qian, Jiewei Wu, Junping Zhao, Jianguo Li, Jubao Feng, Jingchao Di, Junming Xu, Jinghua Yao, Kuan Xu, Kewei Du, Longfei Li, Lei Liang, Lu Yu, Li Tang, Lin Ju, Peng Xu, Qing Cui, Song Liu, Shicheng Li, Shun Song, Song Yan, Tengwei Cai, Tianyi Chen, Ting Guo, Ting Huang, Tao Feng, Tao Wu, Wei Wu, Xiaolu Zhang, Xueming Yang, Xin Zhao, Xiaobo Hu, Xin Lin, Yao Zhao, Yilong Wang, Yongzhen Guo, Yuanyuan Wang, Yue Yang, Yang Cao, Yuhao Fu, Yi Xiong, Yanzhe Li, Zhe Li, Zhiqiang Zhang, Ziqi Liu, Zhaoxin Huan, Zujie Wen, Zhenhang Sun, Zhuoxuan Du, Zhengyu He
查看由 Ling Team 和其他 73 位作者撰写的题为 Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs 的论文的 PDF 版本 查看 PDF HTML (实验性)
摘要: 在本技术报告中,我们探讨了训练大规模 Mixture of Experts (MoE) 模型所面临的挑战,重点是克服此类系统中普遍存在的成本低效和资源限制问题。为了解决这些问题,我们提出了两个不同规模的 MoE 大语言模型 (LLM),即 Ling-Lite 和 Ling-Plus (中文称为“百灵”,拼音为 Bǎilíng)。 Ling-Lite 包含 168 亿个参数,其中 27.5 亿个参数处于激活状态,而 Ling-Plus 拥有 2900 亿个参数,其中 288 亿个参数处于激活状态。两种模型都表现出与行业领先基准相当的性能。本报告提供了可操作的见解,以提高资源受限环境中 AI 开发的效率和可访问性,从而促进更具可扩展性和可持续性的技术。具体来说,为了降低大规模 MoE 模型的训练成本,我们提出了以下创新方法:(1) 优化模型架构和训练过程,(2) 改进训练异常处理,以及 (3) 提高模型评估效率。此外,利用从知识图谱生成的高质量数据,我们的模型展示了比其他模型更卓越的工具使用能力。最终,我们的实验结果表明,可以在较低性能的设备上有效地训练 300B MoE LLM,同时实现与类似规模的模型(包括密集模型和 MoE 模型)相当的性能。与高性能设备相比,在预训练阶段使用较低规格的硬件系统可以显著节省成本,将计算成本降低约 20%。这些模型可以在 this https URL 访问。 评论: | 34 页 ---|--- 主题: | 机器学习 (cs.LG); 人工智能 (cs.AI); 计算与语言 (cs.CL) 引用为: | arXiv:2503.05139 [cs.LG] (或 arXiv:2503.05139v2 [cs.LG] 对于此版本) https://doi.org/10.48550/arXiv.2503.05139 Focus to learn more arXiv-issued DOI via DataCite
提交历史
来自: Feng Zhu [查看电子邮件] [v1] 2025 年 3 月 7 日星期五 04:43:39 UTC (1,446 KB) [v2] 2025 年 3 月 10 日星期一 14:21:21 UTC (1,446 KB)
全文链接:
访问论文:
查看由 Ling Team 和其他 73 位作者撰写的题为 Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs 的论文的 PDF 版本