Machine Learning Research Open MenuClose Menu

research area Speech and Natural Language Processing | conference ICLR content type paper | published April 2025

SeedLM:将 LLM 权重压缩为伪随机生成器的种子

作者:Rasoul Shafipour, David Harrison, Maxwell Horton, Jeffrey Marker, Houman Bedayat, Sachin Mehta†, Mohammad Rastegari†, Mahyar Najibi, Saman Naderiparizi 查看出版物 复制 Bibtex

大型语言模型 (LLM) 已经改变了自然语言处理,但由于其高昂的运行时成本,在广泛部署方面面临着重大挑战。在本文中,我们介绍了一种新颖的后训练压缩方法 SeedLM,它使用伪随机生成器的种子来编码和压缩模型权重。具体来说,对于每个权重块,我们找到一个种子,该种子在推理期间被馈送到线性反馈移位寄存器 (LFSR) 中,以有效地生成一个随机矩阵。然后将该矩阵与压缩系数线性组合,以重建权重块。SeedLM 减少了内存访问,并利用了推理期间的空闲计算周期,通过用计算换取更少的内存访问,有效地加速了内存密集型任务。与依赖校准数据的最先进方法不同,我们的方法是无数据的,并且可以很好地推广到各种任务。我们使用特别具有挑战性的 Llama3 70B 进行的实验表明,在 4 位和 3 位压缩下的零样本准确率保持与最先进的方法相当或更好,同时保持与 FP16 基线相当的性能。此外,基于 FPGA 的测试表明,随着模型尺寸的增加,4 位 SeedLM 接近于 FP16 Llama 2/3 基线超过 4 倍的加速。 † Meta

相关阅读和更新。

Compress and Compare: Interactively Evaluating Efficiency and Behavior Across ML Model Compression Experiments

*Equal Contributors 为了在设备上部署机器学习模型,从业者使用压缩算法来缩小和加速模型,同时保持其高质量的输出。实际上,压缩的一个关键方面是模型比较,包括跟踪许多压缩实验,识别模型行为的细微变化,以及协商复杂的准确性-效率权衡。但是,现有的压缩工具对…的支持很差 查看论文详情

Lossless Compression of Efficient Private Local Randomizers

本文已在 ICML 2021 会议以及 ICML 2021 会议上的 Theory and Practice of Differential Privacy 研讨会上被接受。局部差分隐私 (LDP) 报告通常用于联合设置中的统计和机器学习的收集。在许多情况下,最知名的 LDP 算法需要从客户端设备向服务器发送非常大的消息(例如,在构建…时) 查看论文详情 Bottom banner

发现机器学习的机会。

我们在机器学习方面的研究每天都在取得新突破。 Work with us

  1. Machine Learning Research
  2. Research
  3. SeedLM: Compressing LLM Weights into Seeds of Pseudo-Random Generators

Copyright © 2025 Apple Inc. All rights reserved.