大语言模型推理能力的强化学习现状理解GRPO与近期推理模型研究的新见解

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

【本周AI新闻: Gemini 2.5 Flash, Open AI 4.1,o3&o4 mini 重磅登场】 https://www.bilibili.com/video/BV1M55WzwETw/

本月发布了多个旗舰模型,包括GPT-4.5与Llama 4,引起了业界广泛关注。但与以往相比,这些新模型的市场反应相对冷淡。其中一个重要原因在于,这两款模型仍采用传统训练方式,未显著加强推理能力,尤其未采用强化学习方法对推理进行专门训练。

与此同时,其他公司如xAI与Anthropic则在其模型中引入了更多推理功能。例如,xAI的Grok与Anthropic的Claude平台已为部分模型加入“思考模式”按钮,用以激活推理能力。

因此,市场对GPT-4.5与Llama 4反应平淡,或许反映出模型规模和数据量的扩大已逐渐接近效果瓶颈。相比之下,OpenAI新发布的o3推理模型则显示出若将计算资源有策略地投入于推理强化训练中,模型性能仍可显著提升。据OpenAI员工在4月16日的直播中透露,o3训练所耗计算资源是o1的10倍。

尽管推理并非万能解法,但目前为止,它确实稳定提升了模型在复杂任务中的准确率与问题解决能力。因此,未来LLM训练流程中很可能将推理导向的后训练机制作为标准。

本文将深入探讨用于发展与改进推理模型的强化学习方法。


目录概览:

  1. 理解推理模型

  2. RLHF基础:强化学习从何而来

  3. PPO简介:RL的主力算法

  4. RL算法演化:从PPO到GRPO

  5. 奖励建模方式:从RLHF到RLVR

  6. DeepSeek-R1模型训练过程

  7. RL推理模型训练相关论文经验总结

  8. 值得关注的研究论文汇总

(提示:如读者已熟悉RL基础、PPO与GRPO概念,可直接跳转至“RL推理模型训练相关论文经验总结”部分)


理解推理模型

所谓“推理”,指的是大型语言模型在处理复杂任务时,进行逻辑推断与中间步骤生成的能力。具体而言,当前主流方式是“思维链”或“链式思考”(CoT),即模型在给出最终答案前,会先输出多个有逻辑结构的中间步骤,展现其思考路径。

例如,当模型面对一道多步数学题时,不再仅仅凭记忆给出结果,而是通过一系列计算步骤逐步推导至正确答案。这些中间步骤视实际应用场景可能显示给用户,也可能隐藏于系统内部。

此前的研究显示,提升推理能力通常有两种路径:一是增加训练阶段的计算资源,二是在推理阶段(即推断时)增加计算资源。前者强调模型本身的训练方法,后者则偏重运行时优化。本文主要关注前者,即如何通过强化学习改善训练过程,从而提高模型的推理能力。


RLHF基础回顾

LLM在对齐人类偏好方面,最初使用的是强化学习结合人类反馈(RLHF)的方法。RLHF的流程包括三个阶段:

  1. 监督微调(SFT):使用高质量人工答案对预训练模型进行微调;

  2. 奖励模型训练:由人工对多个答案进行排序,用以训练一个回归型奖励模型;

  3. 强化学习阶段:使用PPO算法基于奖励模型进行策略优化。

PPO(Proximal Policy Optimization)是一种主流的策略优化算法,其核心是限制策略每次更新的变化范围,以避免模型不稳定。该方法结合KL散度惩罚项与熵奖励,引导模型平衡“探索”与“保守”。


从PPO到GRPO

DeepSeek团队在开发R1模型时并未继续使用PPO,而是提出了GRPO(Group Relative Policy Optimization)算法,以替代传统的价值评估模型(Critic)。GRPO通过比较来自同一策略模型的多个答案,基于其相对优劣来评估“优势值”,从而省去了价值模型这一资源密集型组件。此方法在提升数学推理能力的同时,还显著优化了计算资源效率。


从RLHF到RLVR:奖励建模演化

在标准RLHF中,奖励模型由人类偏好训练得出。而DeepSeek-R1则采用了RLVR(Reinforcement Learning with Verifiable Rewards)策略,用确定性工具(如计算器、编译器)对模型输出进行正确性验证,取代了人类标注的奖励信号,从而提高训练效率并避免“奖励黑客”(Reward Hacking)问题。


DeepSeek-R1推理模型的训练流程

DeepSeek-R1系列包括三类模型:

  1. R1-Zero:完全使用RLVR训练,不经过监督微调;

  2. R1:结合监督微调与RLHF、RLVR交替训练;

  3. R1-Distill:基于R1输出生成指令数据,对较小模型(如LLaMA 3、Qwen 2.5)进行微调,但未使用RL。

训练过程采用了两种奖励:

  • 准确性奖励:输出是否符合格式并计算正确;

  • 格式奖励:要求推理过程必须包裹在 <think></think> 标签中,确保推理结构清晰。


近期论文中关于训练推理模型的经验总结

以下为近期15篇论文中提取的关键见解:

  1. 强化学习显著提升了小模型的推理能力
    尤其是将RL用于已经通过知识蒸馏获得初步推理能力的小模型,进一步提升表现。小模型用少量数据与极低计算成本便可超越一些大模型。

  2. 生成冗长错误答案的问题
    多篇论文指出PPO与GRPO都存在偏好长文本的倾向,特别是在错误输出时。为解决此问题,研究者提出了如“Dr.GRPO”与LCPO等改进算法,引入长度惩罚与精细化奖励结构以控制输出长度。

  3. 强化学习引发的推理行为
    如DeepSeek-R1中的“AHA时刻”并非手动设计,而是模型在训练中自发学会了验证与反思行为。

  4. 推理能力的跨领域泛化
    通过逻辑谜题训练获得的模型,在数学与编程任务中也表现出色,表明推理能力可以不依赖具体领域知识泛化。

  5. 向更广泛领域扩展
    如医学、心理学、教育等非结构化任务中,也能通过生成式评分机制引入可验证奖励,从而实现强化学习训练。

  6. 推理能力并非仅由RL驱动
    有研究指出,链式思考能力可能在预训练阶段就已自然涌现。即使不进行强化学习,一些基础模型(如Qwen2.5)也展现出“反思”与“自我修正”的倾向。这说明推理能力的形成可能是多因素共同作用的结果。


总结

当前推理模型的研究与训练正快速向更高效率、更广适应性的方向发展。强化学习,尤其是结合可验证奖励(RLVR)与相对策略优化(GRPO)的方法,正逐步替代传统的PPO与奖励模型。同时,研究者也在积极探索如何控制响应长度、提升泛化能力与引入外部工具,以推动推理能力的实际落地。

值得关注的下一步,将是推理模型与检索增强生成(RAG)与工具使用能力的深度结合。OpenAI最新的o3模型已展现出这种趋势,预示推理型大模型正逐步走向实用阶段。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/77693.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Linux系统】Linux基础指令(详解Linux命令行常用指令,每一个指令都有示例演示)

文章目录 一、与文件路径相关的指令0.补充知识&#xff1a;路径的认识1.pwd 指令2.cd 指令&#xff08;含家目录的介绍&#xff09; 二、创建和删除文件的指令0.补充知识&#xff1a;普通文件和目录文件1.touch 指令&#xff08;可以修改文件的时间戳&#xff09;2.mkdir 指令3…

LangChain 单智能体模式示例【纯代码】

# LangChain 单智能体模式示例import os from typing import Anyfrom langchain.agents import AgentType, initialize_agent, Tool from langchain_openai import ChatOpenAI from langchain.tools import BaseTool from langchain_experimental.tools.python.tool import Pyt…

解决:VSCode C++ conan 安装第三方库后 头文件报错

文章目录 1 头文件include路径查找报错参考 1 头文件include路径查找报错 找到conan_toolchain.cmake中 INCLUDE_PATH list(PREPEND CMAKE_INCLUDE_PATH "/Users/hanliqiang/.conan2/p/b/fmte8c4f7a755477/p/include")生成C编译配置 CtrlShiftP 中选择C Edit Confi…

松灵Cobot Magic双臂具身遥操机器人(基于ROS的定位建图与协同导航技术)

摘要 本文以CobotMagic可移动协作机器人为研究对象&#xff0c;从硬件架构设计、软件系统架构、多传感器融合定位建图系统、智能导航系统协同机制四个维度&#xff0c;深入解析机器人系统工作原理。重点研究多传感器融合定位建图系统实现原理&#xff0c;结合实测数据验证系统…

回归,git 分支开发操作命令

核心分支说明 主分支&#xff08;master/production&#xff09;存放随时可部署到生产环境的稳定代码&#xff0c;仅接受通过测试的合并请求。 开发分支&#xff08;develop&#xff09;集成所有功能开发的稳定版本&#xff0c;日常开发的基础分支&#xff0c;从该分支创建特性…

ASP.NET Core 最小 API:极简开发,高效构建(下)

在上篇文章 ASP.NET Core 最小 API&#xff1a;极简开发&#xff0c;高效构建&#xff08;上&#xff09; 中我们添加了 API 代码并且测试&#xff0c;本篇继续补充相关内容。 一、使用 MapGroup API 示例应用代码每次设置终结点时都会重复 todoitems URL 前缀。 API 通常具有…

Spring之我见 - Spring Boot Starter 自动装配原理

欢迎光临小站&#xff1a;致橡树 Spring Boot Starter 的核心设计理念是 约定优于配置&#xff0c;其核心实现基于 自动配置&#xff08;Auto-Configuration&#xff09; 和 条件化注册&#xff08;Conditional Registration&#xff09;。以下是其生效原理&#xff1a; 约定…

精益数据分析(7/126):打破创业幻想,拥抱数据驱动

精益数据分析&#xff08;7/126&#xff09;&#xff1a;打破创业幻想&#xff0c;拥抱数据驱动 在创业的道路上&#xff0c;我们都怀揣着梦想&#xff0c;但往往容易陷入自我编织的幻想中。我希望通过和大家一起学习《精益数据分析》&#xff0c;能帮助我们更清醒地认识创业过…

牛客java练习题

[toc] 1.依赖注入 依赖注入是一种设计模式和编程思想,不依赖 具体的框架实现,可以通过多种方式和框架来实现可以通过Spring , Google Guice , PicoContainer 等都可以实现依赖注入,也可以通过手动编写实现目的: 为了解耦合,将对象之间的依赖关系从代码中解耦出来, 使系统更加…

大模型应用开发自学笔记

理论学习地址&#xff1a; https://zh.d2l.ai/chapter_linear-networks/index.html autodl学术加速&#xff1a; source /etc/network_turboconda常见操作: 删除&#xff1a; conda remove --name myenv --all -y导出&#xff1a; conda env export > environment.yml…

鸿蒙ArkUI实战之TextArea组件、RichEditor组件、RichText组件、Search组件的使用

本文接上篇继续更新ArkUI中组件的使用&#xff0c;本文介绍的组件有TextArea组件、RichEditor组件、RichText组件、Search组件&#xff0c;这几个组件的使用对应特定场景&#xff0c;使用时更加需要注意根据需求去使用 TextArea组件 官方文档&#xff1a; TextArea-文本与输…

除了`String`、`StringBuffer` 和 `StringBuilder`之外,还有什么处理字符串的方法?

一、标准库中的字符串处理类 1. StringJoiner&#xff08;Java 8&#xff09; 用途&#xff1a;用于在拼接字符串时自动添加分隔符、前缀和后缀。示例&#xff1a;StringJoiner sj new StringJoiner(", ", "[", "]"); sj.add("A").…

Qt中读写结构体字节数据

在Qt中读写结构体字节数据通常涉及将结构体转换为字节数组(QByteArray)或直接从内存中读写。以下是几种常见方法&#xff1a; 方法1&#xff1a;使用QDataStream读写结构体 cpp #include <QFile> #include <QDataStream>// 定义结构体 #pragma pack(push, 1) //…

Windows 10 上安装 Spring Boot CLI详细步骤

在 Windows 10 上安装 Spring Boot CLI 可以通过以下几种方式完成。以下是详细的步骤说明&#xff1a; 1. 手动安装&#xff08;推荐&#xff09; 步骤 1&#xff1a;下载 Spring Boot CLI 访问 Spring Boot CLI 官方发布页面。下载最新版本的 .zip 文件&#xff08;例如 sp…

Unity3D仿星露谷物语开发37之浇水动画

1、目标 当点击水壶时&#xff0c;实现浇水的动画。同时有一个水从水壶中流出来的特效。 假如某个grid被浇过了&#xff0c;则不能再浇水了。。 如果某个grid没有被dug过&#xff0c;也不能被浇水。 2、优化Settings.cs脚本 增加如下内容&#xff1a; public static float…

【2】Kubernetes 架构总览

Kubernetes 架构总览 主节点与工作节点 主节点 Kubernetes 的主节点&#xff08;Master&#xff09;是组成集群控制平面的关键部分&#xff0c;负责整个集群的调度、状态管理和决策。控制平面由多个核心组件构成&#xff0c;包括&#xff1a; kube-apiserver&#xff1a;集…

如何对docker镜像存在的gosu安全漏洞进行修复——筑梦之路

这里以mysql的官方镜像为例进行说明&#xff0c;主要流程为&#xff1a; 1. 分析镜像存在的安全漏洞具体是什么 2. 根据分析结果有针对性地进行修复处理 3. 基于当前镜像进行修复安全漏洞并复核验证 # 镜像地址mysql:8.0.42 安全漏洞现状分析 dockerhub网站上获取该镜像的…

【Tauri2】026——Tauri+Webassembly

前言 不多废话 直言的说&#xff0c;笔者看到这篇文章大佬的文章 【04】Tauri 入门篇 - 集成 WebAssembly - 知乎https://zhuanlan.zhihu.com/p/533025312尝试集成一下WebAssembly&#xff0c;直接开始 正文 准备工作 新建一个项目 安装 vite的rsw插件和rsw pnpm instal…

OpenHarmony Camera开发指导(五):相机预览功能(ArkTS)

预览是在相机启动后实时显示场景画面&#xff0c;通常在拍照和录像前执行。 开发步骤 创建预览Surface 如果想在屏幕上显示预览画面&#xff0c;一般由XComponent组件为预览流提供Surface&#xff08;通过XComponent的getXcomponentSurfaceId方法获取surfaceid&#xff09;&…

puzzle(0531)脑力航迹

目录 脑力航迹 规则 解法 简单模式 中等模式 困难模式 专家模式 脑力航迹 规则 2条航迹会产生一个相对航迹&#xff1a; 根据相对航迹和其中一个航迹推导另外一个航迹。 解法 没有任何需要推理的地方&#xff0c;就是纯粹的2个矢量相加。 简单模式 中等模式 困难模…