arXiv:2503.01307 (cs) [2025年3月3日提交]

标题: 助力自我提升的推理器:认知行为研究,或高效STaR模型的四个习惯 (Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs)

作者: Kanishk Gandhi, Ayush Chakravarthy, Anikait Singh, Nathan Lile, Noah D. Goodman

查看由Kanishk Gandhi 和其他四位作者撰写的,标题为助力自我提升的推理器:认知行为研究,或高效STaR模型的四个习惯的论文的PDF版本。 查看PDF HTML (实验性)

摘要:测试时推理已经成为一种强大的范式,它使语言模型能够像熟练的人类专家一样,花更多的时间和精力来“思考”复杂的挑战。 虽然强化学习 (RL) 可以推动语言模型在可验证任务上的自我改进,但有些模型表现出显着的提升,而另一些模型则迅速达到瓶颈。 例如,我们发现,在倒计时游戏中,相同的RL训练下,Qwen-2.5-3B 远远超过 Llama-3.2-3B。 这种差异提出了一个关键问题:哪些内在属性能够实现有效的自我改进? 我们引入了一个框架来研究这个问题,通过分析四个关键的认知行为——验证、回溯、子目标设定和反向链接——这些行为是专家级人类问题解决者和成功的语言模型都采用的。 我们的研究表明,Qwen 自然地表现出这些推理行为,而 Llama 最初缺乏这些行为。 在对受控行为数据集进行的系统实验中,我们发现,用包含这些推理行为的示例来引导 Llama,可以在 RL 期间实现显着改进,达到或超过 Qwen 的性能。 重要的是,推理行为的存在,而不是答案的正确性,被证明是关键因素——用包含适当推理模式的错误解决方案进行引导的模型,可以达到与用正确解决方案训练的模型相当的性能。 最后,利用经过过滤以放大推理行为的 OpenWebMath 数据的持续预训练,使 Llama 模型能够匹配 Qwen 的自我改进轨迹。 我们的研究结果建立了初始推理行为与改进能力之间的基本关系,解释了为什么有些语言模型能有效地利用额外的计算资源,而另一些模型则停滞不前。

主题:| 计算与语言 (cs.CL); 机器学习 (cs.LG) ---|--- 引用为:| arXiv:2503.01307 [cs.CL] (或 arXiv:2503.01307v1 [cs.CL] 对于此版本) https://doi.org/10.48550/arXiv.2503.01307 通过 DataCite 了解更多 arXiv 发布的 DOI 信息

提交历史

来自:Kanishk Gandhi [查看电子邮件] [v1] 2025年3月3日 08:46:22 UTC (2,097 KB) 完整文本链接:

访问论文:

查看由Kanishk Gandhi 和其他四位作者撰写的,标题为助力自我提升的推理器:认知行为研究,或高效STaR模型的四个习惯的论文的PDF版本。