arXiv:2412.15287 (cs) [2024年12月18日提交]

标题: Inference-Aware Fine-Tuning for Best-of-N Sampling in Large Language Models

作者: Yinlam Chow, Guy Tennenholtz, Izzeddin Gur, Vincent Zhuang, Bo Dai, Sridhar Thiagarajan, Craig Boutilier, Rishabh Agarwal, Aviral Kumar, Aleksandra Faust

查看PDF HTML (experimental)

摘要:最近的研究表明,有效利用推理时的计算资源对于获得大型语言模型 (LLMs) 的更好性能至关重要。在这项工作中,我们提出了一种新颖的面向推理的微调范式,其中模型的微调方式直接优化了推理时策略的性能。我们使用简单而有效的 Best-of-N (BoN) 推理策略来研究这种范式,其中验证器从一组 LLM 生成的响应中选择最佳响应。我们设计了第一个用于 BoN 感知微调的模仿学习和强化学习 (RL) 方法,克服了 BoN 中具有挑战性的、不可微分的 argmax 算子。我们的经验表明,我们的 BoN 感知模型隐式地学习了一种元策略,该策略将最佳响应与可能更适合测试时输入的更多样化的响应交错——这一过程让人想起 RL 中的探索-利用权衡。我们的实验证明了 BoN 感知微调在提高性能和推理时计算方面的有效性。特别是,我们表明我们的方法将 Gemma 2B 在 Hendrycks MATH 上的 Bo32 性能从 26.8% 提高到 30.8%,并将 pass@32 从 60.0% 提高到 67.0%,以及将 HumanEval 上的 pass@16 从 61.6% 提高到 67.1%。

主题:| 计算与语言 (cs.CL); 人工智能 (cs.AI); 机器学习 (cs.LG) ---|--- 引用为:| arXiv:2412.15287 [cs.CL] (或 arXiv:2412.15287v1 [cs.CL] 对于此版本) https://doi.org/10.48550/arXiv.2412.15287 Focus to learn more arXiv-issued DOI via DataCite

提交历史

来自: Yinlam Chow [查看email] [v1] 2024年12月18日星期三 20:43:47 UTC (1,342 KB)

访问论文:

查看 Yinlam Chow 和其他 9 位作者题为 Inference-Aware Fine-Tuning for Best-of-N Sampling in Large Language Models 的论文的 PDF 版本