arXiv:2503.00735 (cs) [于2025年3月2日提交 (v1), 最近修订于2025年3月5日 (此版本, v3)]

标题: LADDER: Self-Improving LLMs Through Recursive Problem Decomposition

作者: Toby Simonds, Akira Yoshiyama

查看由 Toby Simonds 和其他 1 位作者撰写的题为 LADDER: Self-Improving LLMs Through Recursive Problem Decomposition 的论文的 PDF 版本 查看 PDF HTML (实验性)

摘要:我们介绍了 LADDER (Learning through Autonomous Difficulty-Driven Example Recursion,通过自主难度驱动的示例递归进行学习),这是一个框架,它使大型语言模型能够通过自我引导学习,递归地生成和解决逐渐简化的复杂问题变体,从而自主提高其解决问题的能力。与需要精选数据集或人工反馈的先前方法不同,LADDER 利用模型自身的能力来生成更容易的问题变体。我们通过数学积分的例子展示了 LADDER 的有效性,将 Llama 3.2 3B 在本科水平问题上的准确率从 1% 提高到 82%,并使 Qwen2.5 7B Deepseek-R1 Distilled 能够在 MIT Integration Bee 资格考试中达到 73%。我们还介绍了 TTRL (Test-Time Reinforcement Learning,测试时强化学习),我们在推理时对测试问题的变体执行强化学习。TTRL 使 Qwen2.5 7B Deepseek-R1 Distilled 能够在 MIT Integration Bee 资格考试中获得 90% 的最先进分数,超过了 OpenAI o1 的性能。这些结果表明,自我指导的战略学习如何在不依赖架构扩展或人工监督的情况下实现显著的能力提升。

主题:| 机器学习 (cs.LG); 人工智能 (cs.AI) ---|--- 引用为:| arXiv:2503.00735 [cs.LG] (或 arXiv:2503.00735v3 [cs.LG] 对于此版本) https://doi.org/10.48550/arXiv.2503.00735 通过 DataCite 了解更多 arXiv 发布的 DOI

提交历史

来自: Akira Yoshiyama [查看电子邮件] [v1] 2025年3月2日 05:16:43 UTC (286 KB) [v2] 2025年3月4日 14:30:32 UTC (203 KB) [v3] 2025年3月5日 11:50:24 UTC (203 KB)

全文链接:

访问论文:

查看由 Toby Simonds 和其他 1 位作者撰写的题为 LADDER: Self-Improving LLMs Through Recursive Problem Decomposition 的论文的 PDF 版本