大语言模型推理能力的强化学习现状理解GRPO与近期推理模型研究的新见解

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

【本周AI新闻: Gemini 2.5 Flash, Open AI 4.1,o3&o4 mini 重磅登场】 https://www.bilibili.com/video/BV1M55WzwETw/

本月发布了多个旗舰模型，包括GPT-4.5与Llama 4，引起了业界广泛关注。但与以往相比，这些新模型的市场反应相对冷淡。其中一个重要原因在于，这两款模型仍采用传统训练方式，未显著加强推理能力，尤其未采用强化学习方法对推理进行专门训练。

与此同时，其他公司如xAI与Anthropic则在其模型中引入了更多推理功能。例如，xAI的Grok与Anthropic的Claude平台已为部分模型加入“思考模式”按钮，用以激活推理能力。

因此，市场对GPT-4.5与Llama 4反应平淡，或许反映出模型规模和数据量的扩大已逐渐接近效果瓶颈。相比之下，OpenAI新发布的o3推理模型则显示出若将计算资源有策略地投入于推理强化训练中，模型性能仍可显著提升。据OpenAI员工在4月16日的直播中透露，o3训练所耗计算资源是o1的10倍。

尽管推理并非万能解法，但目前为止，它确实稳定提升了模型在复杂任务中的准确率与问题解决能力。因此，未来LLM训练流程中很可能将推理导向的后训练机制作为标准。

本文将深入探讨用于发展与改进推理模型的强化学习方法。

目录概览：

理解推理模型
RLHF基础：强化学习从何而来
PPO简介：RL的主力算法
RL算法演化：从PPO到GRPO
奖励建模方式：从RLHF到RLVR
DeepSeek-R1模型训练过程
RL推理模型训练相关论文经验总结
值得关注的研究论文汇总

（提示：如读者已熟悉RL基础、PPO与GRPO概念，可直接跳转至“RL推理模型训练相关论文经验总结”部分）

理解推理模型

所谓“推理”，指的是大型语言模型在处理复杂任务时，进行逻辑推断与中间步骤生成的能力。具体而言，当前主流方式是“思维链”或“链式思考”（CoT），即模型在给出最终答案前，会先输出多个有逻辑结构的中间步骤，展现其思考路径。

例如，当模型面对一道多步数学题时，不再仅仅凭记忆给出结果，而是通过一系列计算步骤逐步推导至正确答案。这些中间步骤视实际应用场景可能显示给用户，也可能隐藏于系统内部。

此前的研究显示，提升推理能力通常有两种路径：一是增加训练阶段的计算资源，二是在推理阶段（即推断时）增加计算资源。前者强调模型本身的训练方法，后者则偏重运行时优化。本文主要关注前者，即如何通过强化学习改善训练过程，从而提高模型的推理能力。

RLHF基础回顾

LLM在对齐人类偏好方面，最初使用的是强化学习结合人类反馈（RLHF）的方法。RLHF的流程包括三个阶段：

监督微调（SFT）：使用高质量人工答案对预训练模型进行微调；
奖励模型训练：由人工对多个答案进行排序，用以训练一个回归型奖励模型；
强化学习阶段：使用PPO算法基于奖励模型进行策略优化。

PPO（Proximal Policy Optimization）是一种主流的策略优化算法，其核心是限制策略每次更新的变化范围，以避免模型不稳定。该方法结合KL散度惩罚项与熵奖励，引导模型平衡“探索”与“保守”。

从PPO到GRPO

DeepSeek团队在开发R1模型时并未继续使用PPO，而是提出了GRPO（Group Relative Policy Optimization）算法，以替代传统的价值评估模型（Critic）。GRPO通过比较来自同一策略模型的多个答案，基于其相对优劣来评估“优势值”，从而省去了价值模型这一资源密集型组件。此方法在提升数学推理能力的同时，还显著优化了计算资源效率。

从RLHF到RLVR：奖励建模演化

在标准RLHF中，奖励模型由人类偏好训练得出。而DeepSeek-R1则采用了RLVR（Reinforcement Learning with Verifiable Rewards）策略，用确定性工具（如计算器、编译器）对模型输出进行正确性验证，取代了人类标注的奖励信号，从而提高训练效率并避免“奖励黑客”（Reward Hacking）问题。

DeepSeek-R1推理模型的训练流程

DeepSeek-R1系列包括三类模型：

R1-Zero：完全使用RLVR训练，不经过监督微调；
R1：结合监督微调与RLHF、RLVR交替训练；
R1-Distill：基于R1输出生成指令数据，对较小模型（如LLaMA 3、Qwen 2.5）进行微调，但未使用RL。

训练过程采用了两种奖励：

准确性奖励：输出是否符合格式并计算正确；
格式奖励：要求推理过程必须包裹在 <think> 和 </think> 标签中，确保推理结构清晰。

近期论文中关于训练推理模型的经验总结

以下为近期15篇论文中提取的关键见解：

强化学习显著提升了小模型的推理能力
尤其是将RL用于已经通过知识蒸馏获得初步推理能力的小模型，进一步提升表现。小模型用少量数据与极低计算成本便可超越一些大模型。
生成冗长错误答案的问题
多篇论文指出PPO与GRPO都存在偏好长文本的倾向，特别是在错误输出时。为解决此问题，研究者提出了如“Dr.GRPO”与LCPO等改进算法，引入长度惩罚与精细化奖励结构以控制输出长度。
强化学习引发的推理行为
如DeepSeek-R1中的“AHA时刻”并非手动设计，而是模型在训练中自发学会了验证与反思行为。
推理能力的跨领域泛化
通过逻辑谜题训练获得的模型，在数学与编程任务中也表现出色，表明推理能力可以不依赖具体领域知识泛化。
向更广泛领域扩展
如医学、心理学、教育等非结构化任务中，也能通过生成式评分机制引入可验证奖励，从而实现强化学习训练。
推理能力并非仅由RL驱动
有研究指出，链式思考能力可能在预训练阶段就已自然涌现。即使不进行强化学习，一些基础模型（如Qwen2.5）也展现出“反思”与“自我修正”的倾向。这说明推理能力的形成可能是多因素共同作用的结果。