70% 大小,100% 精度:基于动态长度 Float 的 LLM 无损压缩,实现高效 GPU 推理
arXiv:2504.11651 (cs) [提交于 2025 年 4 月 15 日]
作者:Tianyi Zhang, Yang Sui, Shaochen Zhong, Vipin Chaudhary, Xia Hu, Anshumali Shrivastava
摘要:大型语言模型(LLMs)的规模迅速增长,给在资源受限的硬件上进行高效部署带来了重大挑战。在本文中,我们介绍了一种无损压缩框架 Dynamic-Length Float (DFloat11),该框架可以将 LLM 的大小减少 30%,同时保留与原始模型完全相同的输出结果。DFloat11 的动机是 LLM 的 BFloat16 权重表示中存在低熵,这揭示了现有存储格式的显著效率低下。通过应用熵编码,DFloat11 根据频率为权重分配动态长度编码,从而在不损失任何精度的情况下实现接近信息最优的压缩。为了便于使用动态长度编码进行高效推理,我们开发了一个定制的 GPU kernel,用于快速在线解压缩。我们的设计包括以下内容:(i)将内存密集型查找表(LUTs)分解为适合 GPU SRAM 的紧凑型 LUTs,(ii)一个两阶段 kernel,用于使用轻量级辅助变量协调线程的读/写位置,以及(iii)transformer-block-level 解压缩,以最大限度地减少延迟。对包括 Llama-3.1, Qwen-2.5, 和 Gemma-3 在内的最新模型的实验验证了我们的假设,即 DFloat11 实现了约 30% 的模型大小缩减,同时保留了完全相同的输出结果。与将未压缩模型的某些部分卸载到 CPU 以满足内存约束的潜在替代方案相比,DFloat11 在 token 生成方面实现了 1.9-38.8 倍的吞吐量。在固定的 GPU 内存预算下,DFloat11 能够实现比未压缩模型长 5.3-13.17 倍的上下文长度。值得注意的是,我们的方法能够在配备 8x80GB GPU 的单个节点上实现 Llama-3.1-405B (一个 810GB 模型) 的无损推理。我们的代码和模型可在 this https URL 获取。
主题:| 机器学习 (cs.LG); 分布式、并行和集群计算 (cs.DC) ---|--- 引用为:| arXiv:2504.11651 [cs.LG] (或 arXiv:2504.11651v1 [cs.LG] 对于此版本) https://doi.org/10.48550/arXiv.2504.11651 Focus to learn more arXiv-issued DOI via DataCite
提交历史: 来自:Tianyi Zhang [查看邮件] [v1] 2025 年 4 月 15 日星期二 22:38:38 UTC (242 KB)