arXiv:2503.01890 (cs) [2025年2月27日提交]

标题: AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs

作者:Zihao Zeng, Chubo Liu, Xin He, Juan Hu, Yong Jiang, Fei Huang, Kenli Li, Wei Yang Bryan Lim

查看由 Zihao Zeng 和其他 7 位作者撰写的题为 AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs 的论文的 PDF 版本 查看 PDF HTML (实验性)

摘要:基于 Transformer 的大型语言模型 (LLMs) 在序列建模和文本生成方面表现出了非凡的能力,其改进与模型大小成正比。然而,GPU 内存的限制限制了许多研究人员对 LLM 训练的可访问性。现有的异构训练方法显著扩展了可训练模型的规模,但也引入了大量的通信开销和 CPU 工作负载。在这项工作中,我们提出了 AutoHete,一个自动高效的异构训练系统,兼容单 GPU 和多 GPU 环境。AutoHete 根据特定的硬件配置和 LLM 训练需求动态调整 activation checkpointing,parameter offloading 和 optimizer offloading。此外,我们设计了一种基于优先级的调度机制,最大限度地提高跨训练迭代的操作之间的重叠,从而提高吞吐量。与最先进的异构训练系统相比,AutoHete 在各种模型尺寸和训练配置下提供了 1.32 倍~1.91 倍的吞吐量提升。

主题:| 机器学习 (cs.LG) ---|--- 引用为:| arXiv:2503.01890 [cs.LG] (或者 arXiv:2503.01890v1 [cs.LG] 对于此版本) https://doi.org/10.48550/arXiv.2503.01890 通过 DataCite 了解更多 arXiv 发布的 DOI