M1:面向使用 Mamba 推理模型实现可扩展的测试时计算
arXiv:2504.10449 (cs) [提交于2025年4月14日]
**标题:**M1: Towards Scalable Test-Time Compute with Mamba Reasoning Models
作者:Junxiong Wang, Wen-Ding Li, Daniele Paliotta, Daniel Ritter, Alexander M. Rush, Tri Dao
查看由 Junxiong Wang 和其他 5 位作者撰写的题为 M1: Towards Scalable Test-Time Compute with Mamba Reasoning Models 的论文的 PDF 版本 查看 PDF HTML (实验性)
**摘要:**有效的推理对于解决复杂的数学问题至关重要。最近的大型语言模型 (LLMs) 通过扩展测试时计算(通过长链式思考推理)提高了性能。然而,基于 Transformer 的模型由于其二次计算复杂度和线性内存需求,在扩展上下文长度方面具有固有的局限性。在本文中,我们介绍了一种新颖的混合线性 RNN 推理模型 M1,它建立在 Mamba 架构之上,允许内存高效的推理。我们的方法利用了现有推理模型的提炼过程,并通过 RL 训练进一步增强。在 AIME 和 MATH 基准测试上的实验结果表明,M1 不仅优于以前的线性 RNN 模型,而且在相似的规模上与最先进的 Deepseek R1 提炼推理模型的性能相匹配。我们还将我们的生成速度与高性能的通用推理引擎 vLLM 进行了比较,并观察到比相同大小的 Transformer 提高了 3 倍以上的速度。通过吞吐量加速,我们能够在使用自洽投票的固定生成时间预算下,实现比 DeepSeek R1 提炼 Transformer 推理模型更高的准确性。总的来说,我们介绍了一种混合 Mamba 推理模型,并提供了一种更有效的方法来扩展使用自洽性或长链思考推理的测试时生成。
注释: | 代码位于 this https URL ---|--- 主题: | 机器学习 (cs.LG) 引用方式: | arXiv:2504.10449 [cs.LG] (或 arXiv:2504.10449v1 [cs.LG] 对于此版本) https://doi.org/10.48550/arXiv.2504.10449 通过 DataCite 了解更多由 arXiv 发布的 DOI (注册中)
提交历史 来自: Junxiong Wang [查看电子邮件] [v1] 2025年4月14日 17:38:25 UTC (105 KB) 全文链接:
访问论文: 查看由 Junxiong Wang 和其他 5 位作者撰写的题为 M1: Towards Scalable Test-Time Compute with Mamba Reasoning Models 的论文的 PDF 版本