70% 大小，100% 精度：基于动态长度 Float 的 LLM 无损压缩，实现高效 GPU 推理

Lossless LLM compression for efficient GPU inference via dynamic-length float

Source | HN Comments

文章提出了一种名为 DFloat11 的无损压缩框架，用于压缩大型语言模型（LLMs）。该框架通过利用 LLM 权重表示中的低熵，使用动态长度编码实现约 30% 的模型大小缩减，且保持与原始模型完全相同的输出结果。为了高效推理，作者开发了定制的 GPU kernel，并优化了内存使用。实验表明，DFloat11 在吞吐量和上下文长度方面优于未压缩模型，甚至能够在单个节点上实现 Llama-3.1-405B 的无损推理。

arXiv:2504.11651 (cs) [提交于 2025 年 4 月 15 日]

作者：Tianyi Zhang, Yang Sui, Shaochen Zhong, Vipin Chaudhary, Xia Hu, Anshumali Shrivastava

查看PDF HTML (实验性)

摘要：大型语言模型（LLMs）的规模迅速增长，给在资源受限的硬件上进行高效部署带来了重大挑战。在本文中，我们介绍了一种无损压缩框架 Dynamic-Length Float (DFloat11)，该框架可以将 LLM 的大小减少 30%，同时保留与原始模型完全相同的输出结果。DFloat11 的动机是 LLM 的 BFloat16 权重表示中存在低熵，这揭示了现有存储格式的显著效率低下。通过应用熵编码，DFloat11 根据频率为权重分配动态长度编码，从而在不损失任何精度的情况下实现接近信息最优的压缩。为了便于使用动态长度编码进行高效推理，我们开发了一个定制的 GPU kernel，用于快速在线解压缩。我们的设计包括以下内容：（i）将内存密集型查找表（LUTs）分解为适合 GPU SRAM 的紧凑型 LUTs，（ii）一个两阶段 kernel，用于使用轻量级辅助变量协调线程的读/写位置，以及（iii）transformer-block-level 解压缩，以最大限度地减少延迟。对包括 Llama-3.1, Qwen-2.5, 和 Gemma-3 在内的最新模型的实验验证了我们的假设，即 DFloat11 实现了约 30% 的模型大小缩减，同时保留了完全相同的输出结果。与将未压缩模型的某些部分卸载到 CPU 以满足内存约束的潜在替代方案相比，DFloat11 在 token 生成方面实现了 1.9-38.8 倍的吞吐量。在固定的 GPU 内存预算下，DFloat11 能够实现比未压缩模型长 5.3-13.17 倍的上下文长度。值得注意的是，我们的方法能够在配备 8x80GB GPU 的单个节点上实现 Llama-3.1-405B (一个 810GB 模型) 的无损推理。我们的代码和模型可在 this https URL 获取。

主题：| 机器学习 (cs.LG); 分布式、并行和集群计算 (cs.DC) ---|--- 引用为：| arXiv:2504.11651 [cs.LG] (或 arXiv:2504.11651v1 [cs.LG] 对于此版本) https://doi.org/10.48550/arXiv.2504.11651 Focus to learn more arXiv-issued DOI via DataCite

提交历史：来自：Tianyi Zhang [查看邮件] [v1] 2025 年 4 月 15 日星期二 22:38:38 UTC (242 KB)