用于内存高效长文本 LLM 的免参数 KV Cache 压缩
arXiv:2503.10714 (cs) [2025年3月13日提交]
标题: ZeroMerge:用于内存高效长文本 LLM 的免参数 KV Cache 压缩
作者: Xin Liu, Pei Liu, Guoming Tang
查看由 Xin Liu 和其他两位作者撰写的题为 ZeroMerge: Parameter-Free KV Cache Compression for Memory-Efficient Long-Context LLMs 的论文 PDF 版本。 查看 PDF HTML (实验性)
摘要: key-value (KV) cache 内存的线性增长和二次计算复杂度对大型语言模型 (LLMs) 在长文本处理中构成了重大瓶颈。虽然现有的 KV cache 优化方法通过 token 剪枝或特征合并来解决这些挑战,但它们通常会遭受不可逆转的信息丢失或需要昂贵的参数再训练。我们提出了 ZeroMerge,一种动态的 zero-shot 压缩框架,它通过三个关键创新实现了高效的缓存管理:(1)由 head-level 粒度的多维 token 重要性指标引导的细粒度内存分配,(2)一种通过补偿注意力评分来保留关键上下文的残差合并机制,以及(3)与各种 LLM 架构兼容且无需重新训练的免参数自适应。 在 LLaMA-2 模型上的全面评估表明,ZeroMerge 在 5% 的压缩率下保持了完整的缓存性能,同时在 40K token 长度下使推理吞吐量翻倍。 该方法有效地平衡了内存效率、生成质量和部署灵活性,从而推进了实际的长文本 LLM 应用。 代码可在 this https URL 获取。
主题: | 计算与语言 (cs.CL); 人工智能 (cs.AI) ---|--- 引用为: | arXiv:2503.10714 [cs.CL] (或 arXiv:2503.10714v1 [cs.CL] for this version) https://doi.org/10.48550/arXiv.2503.10714 Focus to learn more arXiv-issued DOI via DataCite
提交历史
来自: Xin Liu [查看电子邮件] [v1] 2025年3月13日 03:36:03 UTC (839 KB)
全文链接:
访问论文:
查看由 Xin Liu 和其他两位作者撰写的题为 ZeroMerge: Parameter-Free KV Cache Compression for Memory-Efficient Long-Context LLMs 的论文 PDF 版本。