arXiv:2503.09516 (cs) [提交于 2025 年 3 月 12 日 (v1), 最近修订于 2025 年 3 月 19 日(此版本,v2)]

Title: Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

作者:Bowen Jin, Hansi Zeng, Zhenrui Yue, Dong Wang, Hamed Zamani, Jiawei Han

查看 Bowen Jin 和其他 5 位作者题为 Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning 的论文的 PDF 版本

View PDF HTML (experimental)

摘要:对于大型语言模型 (LLM) 而言,有效获取外部知识和最新信息对于有效的推理和文本生成至关重要。在推理过程中,使用具有推理能力的先进 LLM 来使用搜索引擎并非最佳选择,因为 LLM 并不能学习如何以最佳方式与搜索引擎交互。本文介绍了 Search-R1,它是 DeepSeek-R1 模型的扩展,其中 LLM 仅通过强化学习 (RL) 学习在通过实时检索进行逐步推理期间自主生成(多个)搜索查询。Search-R1 优化了具有多轮搜索交互的 LLM 展开,利用检索到的 token 掩码进行稳定的 RL 训练和一个简单的基于结果的奖励函数。在七个问答数据集上的实验表明,与强大的基线相比,Search-R1 将性能提高了 26% (Qwen2.5-7B)、21% (Qwen2.5-3B) 和 10% (LLaMA3.2-3B)。本文进一步提供了关于 RL 优化方法、LLM 选择以及检索增强推理中响应长度动态的经验见解。代码和模型检查点可在 this https URL 获得。

评论: | 16 页 ---|--- 主题: | 计算与语言 (cs.CL); 人工智能 (cs.AI); 信息检索 (cs.IR) 引用为: | arXiv:2503.09516 [cs.CL] (或 arXiv:2503.09516v2 [cs.CL] 对于此版本) https://doi.org/10.48550/arXiv.2503.09516 Focus to learn more arXiv-issued DOI via DataCite

提交历史

来自:Bowen Jin [view email] [v1] Wed, 12 Mar 2025 16:26:39 UTC (196 KB) [v2] Wed, 19 Mar 2025 21:40:12 UTC (196 KB)

全文链接:

访问论文:

查看 Bowen Jin 和其他 5 位作者题为 Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning 的论文的 PDF 版本