每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/
【本周AI新闻: Gemini 2.5 Flash, Open AI 4.1,o3&o4 mini 重磅登场】 https://www.bilibili.com/video/BV1M55WzwETw/
本月发布了多个旗舰模型,包括GPT-4.5与Llama 4,引起了业界广泛关注。但与以往相比,这些新模型的市场反应相对冷淡。其中一个重要原因在于,这两款模型仍采用传统训练方式,未显著加强推理能力,尤其未采用强化学习方法对推理进行专门训练。
与此同时,其他公司如xAI与Anthropic则在其模型中引入了更多推理功能。例如,xAI的Grok与Anthropic的Claude平台已为部分模型加入“思考模式”按钮,用以激活推理能力。
因此,市场对GPT-4.5与Llama 4反应平淡,或许反映出模型规模和数据量的扩大已逐渐接近效果瓶颈。相比之下,OpenAI新发布的o3推理模型则显示出若将计算资源有策略地投入于推理强化训练中,模型性能仍可显著提升。据OpenAI员工在4月16日的直播中透露,o3训练所耗计算资源是o1的10倍。
尽管推理并非万能解法,但目前为止,它确实稳定提升了模型在复杂任务中的准确率与问题解决能力。因此,未来LLM训练流程中很可能将推理导向的后训练机制作为标准。
本文将深入探讨用于发展与改进推理模型的强化学习方法。
目录概览:
-
理解推理模型
-
RLHF基础:强化学习从何而来
-
PPO简介:RL的主力算法
-
RL算法演化:从PPO到GRPO
-
奖励建模方式:从RLHF到RLVR
-
DeepSeek-R1模型训练过程
-
RL推理模型训练相关论文经验总结
-
值得关注的研究论文汇总
(提示:如读者已熟悉RL基础、PPO与GRPO概念,可直接跳转至“RL推理模型训练相关论文经验总结”部分)
理解推理模型
所谓“推理”,指的是大型语言模型在处理复杂任务时,进行逻辑推断与中间步骤生成的能力。具体而言,当前主流方式是“思维链”或“链式思考”(CoT),即模型在给出最终答案前,会先输出多个有逻辑结构的中间步骤,展现其思考路径。
例如,当模型面对一道多步数学题时,不再仅仅凭记忆给出结果,而是通过一系列计算步骤逐步推导至正确答案。这些中间步骤视实际应用场景可能显示给用户,也可能隐藏于系统内部。
此前的研究显示,提升推理能力通常有两种路径:一是增加训练阶段的计算资源,二是在推理阶段(即推断时)增加计算资源。前者强调模型本身的训练方法,后者则偏重运行时优化。本文主要关注前者,即如何通过强化学习改善训练过程,从而提高模型的推理能力。
RLHF基础回顾
LLM在对齐人类偏好方面,最初使用的是强化学习结合人类反馈(RLHF)的方法。RLHF的流程包括三个阶段:
-
监督微调(SFT):使用高质量人工答案对预训练模型进行微调;
-
奖励模型训练:由人工对多个答案进行排序,用以训练一个回归型奖励模型;
-
强化学习阶段:使用PPO算法基于奖励模型进行策略优化。
PPO(Proximal Policy Optimization)是一种主流的策略优化算法,其核心是限制策略每次更新的变化范围,以避免模型不稳定。该方法结合KL散度惩罚项与熵奖励,引导模型平衡“探索”与“保守”。
从PPO到GRPO
DeepSeek团队在开发R1模型时并未继续使用PPO,而是提出了GRPO(Group Relative Policy Optimization)算法,以替代传统的价值评估模型(Critic)。GRPO通过比较来自同一策略模型的多个答案,基于其相对优劣来评估“优势值”,从而省去了价值模型这一资源密集型组件。此方法在提升数学推理能力的同时,还显著优化了计算资源效率。
从RLHF到RLVR:奖励建模演化
在标准RLHF中,奖励模型由人类偏好训练得出。而DeepSeek-R1则采用了RLVR(Reinforcement Learning with Verifiable Rewards)策略,用确定性工具(如计算器、编译器)对模型输出进行正确性验证,取代了人类标注的奖励信号,从而提高训练效率并避免“奖励黑客”(Reward Hacking)问题。
DeepSeek-R1推理模型的训练流程
DeepSeek-R1系列包括三类模型:
-
R1-Zero:完全使用RLVR训练,不经过监督微调;
-
R1:结合监督微调与RLHF、RLVR交替训练;
-
R1-Distill:基于R1输出生成指令数据,对较小模型(如LLaMA 3、Qwen 2.5)进行微调,但未使用RL。
训练过程采用了两种奖励:
-
准确性奖励:输出是否符合格式并计算正确;
-
格式奖励:要求推理过程必须包裹在
<think>
和</think>
标签中,确保推理结构清晰。
近期论文中关于训练推理模型的经验总结
以下为近期15篇论文中提取的关键见解:
-
强化学习显著提升了小模型的推理能力
尤其是将RL用于已经通过知识蒸馏获得初步推理能力的小模型,进一步提升表现。小模型用少量数据与极低计算成本便可超越一些大模型。 -
生成冗长错误答案的问题
多篇论文指出PPO与GRPO都存在偏好长文本的倾向,特别是在错误输出时。为解决此问题,研究者提出了如“Dr.GRPO”与LCPO等改进算法,引入长度惩罚与精细化奖励结构以控制输出长度。 -
强化学习引发的推理行为
如DeepSeek-R1中的“AHA时刻”并非手动设计,而是模型在训练中自发学会了验证与反思行为。 -
推理能力的跨领域泛化
通过逻辑谜题训练获得的模型,在数学与编程任务中也表现出色,表明推理能力可以不依赖具体领域知识泛化。 -
向更广泛领域扩展
如医学、心理学、教育等非结构化任务中,也能通过生成式评分机制引入可验证奖励,从而实现强化学习训练。 -
推理能力并非仅由RL驱动
有研究指出,链式思考能力可能在预训练阶段就已自然涌现。即使不进行强化学习,一些基础模型(如Qwen2.5)也展现出“反思”与“自我修正”的倾向。这说明推理能力的形成可能是多因素共同作用的结果。
总结
当前推理模型的研究与训练正快速向更高效率、更广适应性的方向发展。强化学习,尤其是结合可验证奖励(RLVR)与相对策略优化(GRPO)的方法,正逐步替代传统的PPO与奖励模型。同时,研究者也在积极探索如何控制响应长度、提升泛化能力与引入外部工具,以推动推理能力的实际落地。
值得关注的下一步,将是推理模型与检索增强生成(RAG)与工具使用能力的深度结合。OpenAI最新的o3模型已展现出这种趋势,预示推理型大模型正逐步走向实用阶段。