SplitQuantV2:无需GPU增强LLM的低比特量化
arXiv:2503.07657 (cs) [提交于2025年3月7日]
标题: SplitQuantV2: Enhancing Low-Bit Quantization of LLMs Without GPUs
作者: Jaewoo Song, Fangzhen Lin 查看由Jaewoo Song和Fangzhen Lin撰写的题为“SplitQuantV2:无需GPU增强LLM的低比特量化”的论文的PDF。 查看PDF HTML (实验性)
摘要:大型语言模型(LLMs)的量化对于将其部署在计算资源有限的设备上至关重要。虽然与基本的线性量化相比,高级量化算法提供了更好的性能,但它们通常需要高端图形处理单元(GPUs),通常仅限于特定的深度神经网络(DNN)框架,并且需要校准数据集。这种限制给在各种神经处理单元(NPUs)和边缘AI设备上使用此类算法带来了挑战,这些设备具有不同的模型格式和框架。在本文中,我们展示了SplitQuantV2,一种旨在增强LLMs的低比特线性量化的创新算法,可以实现与高级算法相当的结果。SplitQuantV2通过将线性和卷积层拆分为功能等效的、量化友好的结构来预处理模型。该算法与平台无关、简洁高效,因此无需GPU即可实现。我们使用AI2的推理挑战赛(ARC)数据集对Llama 3.2 1B Instruct模型进行的评估表明,SplitQuantV2将INT4量化模型的准确性提高了11.76%p,与原始浮点模型的性能相匹配。值得注意的是,SplitQuantV2仅用2分6秒即可使用Apple M4 CPU预处理1B模型并执行线性INT4量化。SplitQuantV2为LLMs上的低比特量化提供了一种实用的解决方案,特别是当由于硬件限制或框架不兼容而无法使用复杂、计算密集型算法时。 主题:| 机器学习 (cs.LG); 人工智能 (cs.AI) ---|--- 引用为:| arXiv:2503.07657 [cs.LG] (或 arXiv:2503.07657v1 [cs.LG] 对于此版本) https://doi.org/10.48550/arXiv.2503.07657 关注以通过DataCite了解更多arXiv发布的DOI
提交历史
来自:Jaewoo Song [查看电子邮件] [v1] 2025年3月7日,星期五14:59:07 UTC (102 KB) 全文链接:
访问论文:
查看由Jaewoo Song和Fangzhen Lin撰写的题为“SplitQuantV2:无需GPU增强LLM的低比特量化”的论文的PDF。