Absolute Zero:基于零数据的强化自博弈推理
arXiv:2505.03335 (cs) [2025年5月6日提交 (v1), 最新修订于2025年5月7日 (本版本, v2)]
Title:Absolute Zero: Reinforced Self-play Reasoning with Zero Data
Authors:Andrew Zhao, Yiran Wu, Yang Yue, Tong Wu, Quentin Xu, Yang Yue, Matthieu Lin, Shenzhi Wang, Qingyun Wu, Zilong Zheng, Gao Huang
查看由 Andrew Zhao 和其他 10 位作者撰写的题为 Absolute Zero: Reinforced Self-play Reasoning with Zero Data 的论文的 PDF 版本。 View PDF HTML (experimental)
Abstract:具有可验证奖励的强化学习 (RLVR) 通过直接从基于结果的奖励中学习,展现了增强大型语言模型推理能力的潜力。最近在零数据设置下运行的 RLVR 工作避免了在标注推理过程中的监督,但仍然依赖于手动整理的问题和答案集合进行训练。高质量、人工生成示例的稀缺性,引发了人们对依赖人工监督的长期可扩展性的担忧,这种挑战在语言模型预训练领域已经很明显。此外,在人工智能超越人类智能的假设未来中,人类提供的任务可能对超级智能系统提供的学习潜力有限。为了解决这些问题,我们提出了一种新的 RLVR 范式,称为 Absolute Zero,其中单个模型学习提出能够最大化自身学习进度的任务,并通过解决这些任务来提高推理能力,而无需依赖任何外部数据。在这种范式下,我们引入了 Absolute Zero Reasoner (AZR),该系统通过使用代码执行器来验证提出的代码推理任务和答案,从而自我进化其训练课程和推理能力,作为可验证奖励的统一来源来指导开放式但有根据的学习。尽管完全没有外部数据的情况下进行训练,但 AZR 在编码和数学推理任务上实现了总体 SOTA 性能,优于依赖数万个领域内人工策划示例的现有零数据设置模型。此外,我们证明了 AZR 可以有效地应用于不同的模型规模,并且与各种模型类别兼容。
Subjects: | Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Computation and Language (cs.CL) ---|--- Cite as: | arXiv:2505.03335 [cs.LG] (or arXiv:2505.03335v2 [cs.LG] for this version) https://doi.org/10.48550/arXiv.2505.03335 Focus to learn more arXiv-issued DOI via DataCite
Submission history
From: Andrew Zhao [view email] [v1] Tue, 6 May 2025 09:08:00 UTC (3,686 KB) [v2] Wed, 7 May 2025 13:01:17 UTC (4,145 KB)