arXiv:2504.02495 (cs) [2025年4月3日提交]

标题:Generalist Reward Modeling 的 Inference-Time Scaling

作者:Zijun Liu, Peiyi Wang, Runxin Xu, Shirong Ma, Chong Ruan, Peng Li, Yang Liu, Yu Wu

查看由 Zijun Liu 和其他 7 位作者撰写的题为 Generalist Reward Modeling 的 Inference-Time Scaling 的论文 PDF 版本。 查看 PDF

摘要:强化学习 (RL) 已被广泛应用于大规模大语言模型 (LLM) 的后训练中。 最近,来自 RL 的 LLM 推理能力激励表明适当的学习方法可以实现有效的推理时可扩展性。 RL 的一个关键挑战是在各种领域中为 LLM 获取准确的奖励信号,而不仅仅是可验证的问题或人工规则。 在这项工作中,我们研究了如何通过更多的推理计算来改进通用查询的奖励建模 (RM),即通用 RM 的 inference-time scalability,以及如何通过适当的学习方法来提高性能计算扩展的有效性。 对于 RM 方法,我们采用 pointwise generative reward modeling (GRM),以实现不同输入类型的灵活性以及推理时扩展的潜力。 对于学习方法,我们提出了 Self-Principled Critique Tuning (SPCT),通过在线 RL 促进 GRM 中可扩展的奖励生成行为,以自适应地生成原则并准确地进行评论,从而产生 DeepSeek-GRM 模型。 此外,为了实现有效的推理时扩展,我们使用并行采样来扩大计算使用量,并引入 meta RM 来指导投票过程以获得更好的扩展性能。 经验表明,SPCT 显着提高了 GRM 的质量和可扩展性,在各种 RM 基准测试中优于现有方法和模型,而没有严重的偏差,并且与训练时扩展相比,可以实现更好的性能。 DeepSeek-GRM 在某些任务中仍然面临挑战,我们认为可以通过未来在通用奖励系统中的努力来解决。 这些模型将被发布并开源。

评论: | 预印本,正在审查中。 共42页 ---|--- 主题: | 计算与语言 (cs.CL); 人工智能 (cs.AI); 机器学习 (cs.LG) 引用为: | arXiv:2504.02495 [cs.CL] (或 arXiv:2504.02495v1 [cs.CL] 对于此版本) https://doi.org/10.48550/arXiv.2504.02495 通过 DataCite (等待注册) 了解更多由 arXiv 发布的 DOI

提交历史

来自:Zijun Liu [查看电子邮件] [v1] 2025 年 4 月 3 日星期四 11:19:49 UTC (3,815 KB) 全文链接:

访问论文:

查看由 Zijun Liu 和其他 7 位作者撰写的题为 Generalist Reward Modeling 的 Inference-Time Scaling 的论文 PDF 版本。