原文链接:https://i68.ltd/notes/posts/20250307-search-r1/
Search-R1
- DeepSeek团队开发的SEARCH-R1模型通过强化学习,让AI学会了自主搜索信息并将其与推理过程无缝结合,性能提升高达26%
- 高效、可扩展的RL训练框架,用于推理和搜索引擎调用,基于veRL的交错LLM
- 论文链接:https://arxiv.org/pdf/2503.09516v1
- 项目仓库:https://github.com/PeterGriffinJin/Search-R1
- Search-R1: 让AI学会搜索引擎互动,推理能力大幅提升26%
核心创新:通过强化学习让模型自主学习如何与搜索引擎交互
- 革命性的交互式搜索推理框架
SEARCH-R1将搜索引擎视为环境的一部分,使AI能够在推理过程中自主发起搜索请求。具体来说:
1)模型使用和标记触发搜索调用
2)检索内容被封装在和标记中
3)模型的思考步骤包含在和标记内
4)最终答案使用和标记呈现
这种结构化设计让模型能够进行多轮交错的推理与搜索,大大提升了解决复杂问题的能力。
- 稳定可靠的训练策略
SEARCH-R1采用了几项关键技术来确保训练稳定:
1)检索令牌掩码:仅对模型生成的内容进行优化,避免对检索内容的不当学习
2)简单有效的奖励函数:基于最终结果的准确性进行奖励,避免了复杂的过程奖励设计
3)兼容多种强化学习算法:支持PPO和GRPO等主流强化学习方法
实验结果:碾压现有方法
研究团队在七个问答数据集上进行了全面测试,结果令人振奋:
1)Qwen2.5-7B:性能提升26%
2)Qwen2.5-3B:性能提升21%
3)LLaMA3.2-3B:性能提升10%
R1-Searcher 通过强化学习激励LLMs中的搜索能力
- R1-Searcher采用两阶段强化学习方法,增强LLMs的搜索能力。
- 通过强化学习激励LLMs在推理过程中主动调用外部搜索系统,从而获取必要的知识来解决复杂问题。
- 与以往的方法不同,R1-Searcher框架完全依赖于RL,不需要过程奖励或通过蒸馏进行冷启动。
- 论文链接:https://arxiv.org/pdf/2503.05592
- 项目仓库:https://github.com/SsmallSong/R1-Searcher
- R1-Searcher告别SFT,强化学习提升LLM推理能力300%
- R1思考+RAG = R1-Searcher
search-o1 增强的大规模推理模型
- 通过代理检索增强生成(RAG)机制和文档中推理模块来增强LRM的框架,用于深入分析检索到的文档并将其集成到推理链中
- 论文链接:[2501.05366] Search-o1: Agentic Search-Enhanced Large Reasoning Models
- 项目仓库:https://github.com/sunnynexus/Search-o1
- HuggingFace:https://huggingface.co/papers/2501.05366
- 大&清华提出Search-o1:赋予推理模型主动搜索的能力
- Search-o1 升级:主动搜索+知识整合,推理能力更强!