DeepSeek-R1论文深度解析:纯强化学习如何引爆LLM推理革命?

技术突破:从“无监督”到“自主进化”的跨越

paper :https://arxiv.org/pdf/2501.12948

目录

  • 技术突破:从“无监督”到“自主进化”的跨越
  • 1 DeepSeek-R1-Zero: RL+noSFT
    • 1.1 R1-Zero: GRPO(Group Relative Policy Optimization)
    • 1.2 Prompt
    • 1.3 Reward
    • 1.4 Self-evolution “自我进化”
    • 1.5 Aha Moment “顿悟时刻”
  • 2 DeepSeek-R1 :Reinforcement Learning with Cold Start
  • 3 DeepSeek-Distill
  • 4 Unsuccessful Attempts
  • 5 总结
    • 5.1 纯强化学习(RL)革命:首次跳过SFT实现推理能力跃升
    • 5.2 性能吊打GPT-4 O1:数学与代码任务双冠王
    • 5.3 开源生态引爆硅谷:从学术圈到大众的破圈效应
    • 5.4 架构创新降本增效:打破算力封锁的性价比之王
    • 5.5 AGI新范式曙光:从“人工引导”到“自主进化”​


DeepSeek-R1-Zero: RL+noSFT
DeepSeek-R1: RL+CoT
DeepSeek-Distill: 蒸馏出小模型

1 DeepSeek-R1-Zero: RL+noSFT

      

1.1 R1-Zero: GRPO(Group Relative Policy Optimization)

  • 采样动作组:对于每个输入状态s,GRPO从当前策略θ中采样一组动作a1, a2, …, aG。这些动作基于策略模型的概率分布进行采样,确保了多样性。

  • 奖励评估:每个采样动作都会通过一个奖励函数进行评估,得到对应的奖励值r(a)。奖励函数可以根据具体任务设计,例如在数学推理任务中,奖励函数可以基于答案的正确性

  • 计算相对优势:将每个动作的奖励值进行归一化处理,得到相对优势A^i,j。这一步骤可以通过以下公式完成:
    在这里插入图片描述

  • 策略更新:根据计算得到的相对优势,更新策略模型的参数θ。更新的目标是增加具有正相对优势的动作的概率,同时减少具有负相对优势的动作的概率。GRPO目标函数如下
    在这里插入图片描述
          目标函数是数学期望
          min确保更新项不会太大和clip限制了概率比在1−ϵ 和1+ϵ 之间
          Ai控制了相对优势函数
          KL 散度约束控制新旧策略的差异,确保更新稳定(注意此处的Π_ref是参考模型指的是一个不可训练的模型,而Π_old是旧策略)

  • KL散度约束:为了防止策略更新过于剧烈,GRPO在更新过程中引入了KL散度约束。通过限制新旧策略之间的KL散度,确保策略分布的变化在可控范围内(用于控制新旧策略之间的差异,确保策略更新的稳定性。)
    在这里插入图片描述

1.2 Prompt

在这里插入图片描述

用户与助手之间的对话。用户提出一个问题,然后助手解决它。助手首先在心里考虑推理过程,然后给用户提供答案。
推理过程和答案分别被<think> </think><answer> </answer>标签包围,
即<think> 这里的推理过程 </think> 
<answer> 这里的答案 </answer>。
用户:Prompt。助手:

具体示例如
在这里插入图片描述

1.3 Reward

Reward策略:R1-Zero的具体训练reward为纯粹的规则:

  • 准确性奖励:准确性奖励模型评估响应是否正确。例如,在数学问题中,如果结果是确定性的,模型需要以指定格式(例如,在一个框内)提供最终答案,以便进行可靠的基于规则的正确性验证。同样地,在LeetCode问题中,可以使用编译器根据预定义的测试用例生成反馈。
  • 格式奖励:除了准确性奖励模型外,使用一种格式奖励模型,该模型强制模型将其思考过程放在和标签之间。

总结R1-Zero 能够在不需要任何监督微调数据的情况下获得强大的推理能力。此外,DeepSeek-R1-Zero 的性能可以通过多数投票的方法进一步增强。例如,在使用多数投票应用于 AIME 基准测试时,DeepSeek-R1-Zero 的表现从 71.0% 提升到了 86.7%,从而超过了 OpenAI-o1-0912 的性能。

1.4 Self-evolution “自我进化”

在这里插入图片描述
Self-evolution “自我进化”:且在R1-Zero在训练过程中的思考时间和生成长度显示出持续的改进。这种改进不是外部调整的结果,而是模型内部发展的结果。通过扩展测试时间计算自然获得了解决越来越复杂的推理任务的能力。

1.5 Aha Moment “顿悟时刻”

在这里插入图片描述
Aha Moment “顿悟时刻”: 在模型的中间版本中,R1-Zero学会了通过重新评估其初始方法来分配更多的思考时间来解决问题

2 DeepSeek-R1 :Reinforcement Learning with Cold Start

在R1-Zero的成功下激发了两个自然的问题:
(1) 通过在冷启动阶段加入少量高质量数据能否进一步提高推理性能或加速收敛?
(2) 如何训练一个不仅能够生成清晰连贯的思维链(CoT),而且具备强大通用能力的用户友好型模型?

阶段1:Cold Start

  • 方法:收集并使用少量高质量的长思维链数据对模型进行微调作为初始的RL执行者。
  • 数据收集方式:包括少样本提示、直接要求模型生成详细的答案(含反思和验证)、收集DeepSeek-R1-Zero输出并进行后处理等。

阶段2:Reasoning-oriented RL 面向推理的强化学习

  • 在冷启动数据上微调DeepSeek-V3-Base之后,应用大规模强化学习训练过程。
  • 强调提升模型在编码、数学、科学和逻辑推理等任务中的推理能力。
  • 引入语言一致性奖励以减少多语言混合问题,并将准确性奖励和语言一致性奖励结合形成最终奖励。

阶段3:拒绝采样和监督微调

  • 使用来自前一阶段RL训练检查点的数据进行SFT数据收集。
  • 扩展数据集,包括那些可以通过生成奖励模型评估的数据。
  • 对于非推理任务(如写作、事实问答等),重用DeepSeek-V3的部分SFT数据集。
  • 最终,使用大约80万样本的数据集对DeepSeek-V3-Base进行两轮微调。

阶段4:所有场景下的强化学习

  • 实施第二次强化学习阶段,旨在提高模型的帮助性和无害性同时细化其推理能力。
  • 对于推理数据,继续使用基于规则的奖励指导学习;对于一般数据,则依赖奖励模型捕捉人类偏好。
  • 强调总结部分的帮助性评估以及整个响应(包括思维过程和总结)的危害性评估。

3 DeepSeek-Distill

目标:让较小的开源模型(如Qwen和Llama系列)也能拥有类似DeepSeek-R1的强大推理能力。
方法:

  • 使用在DeepSeek-R1训练过程中整理出的80万样本对这些小型模型进行直接监督微调(SFT)。这里没有包含强化学习(RL)阶段,尽管引入RL可以显著提高模型性能。
  • 选择的基础模型包括不同规模的Qwen和Llama模型,例如Qwen2.5-Math-1.5B, Qwen2.5-Math-7B等,以及Llama-3.3-70B-Instruct,因为其推理能力略优于Llama-3.1版本。

4 Unsuccessful Attempts

在DeepSeek-R1的早期开发阶段,使用过 过程奖励模型(PRM)蒙特卡洛树搜索(MCTS)

  • PRM: 缺少细粒度数据和评判
    引导模型找到解决推理任务的更好策略。这种方法依赖于对中间步骤的细粒度奖励来指导模型进行优化。
    局限性:
    • 定义细粒度步骤的困难:在一般的推理过程中,明确界定一个细粒度步骤是具有挑战性的。
    • 中间步骤正确性的验证难题:判断当前的中间步骤是否正确是一个复杂的问题。自动标注可能无法得到满意的结果,而手动标注又不利于大规模应用。
    • 奖励黑客问题:一旦引入基于模型的PRM,不可避免地会导致奖励黑客现象,即模型可能会找到绕过奖励机制的方法。重新训练奖励模型需要额外的资源,并且会使整个训练流程变得复杂。
  • MCTS: 因文本复杂性无法训练出一个不断进度的Value Network
    局限性:
    • 受AlphaGo和AlphaZero启发,研究团队探索使用MCTS来增强测试时的计算可扩展性。该方法通过将答案分解为更小的部分,使模型能够系统地探索解决方案空间。
    • 搜索空间的巨大差异:与象棋等游戏相比,文本生成任务的搜索空间呈指数级增长。为了应对这一问题,团队设定了每个节点的最大扩展限制,但这可能导致模型陷入局部最优解。
    • 价值模型的重要性与难度:价值模型的质量直接影响到生成的质量,因为它指导着搜索过程的每一步。然而,训练一个细致的价值模型本身就是一个难点,这使得模型难以逐步改进。虽然AlphaGo的成功在于训练了一个不断进步的价值模型,但在DeepSeek-R1的设置中复制这一点非常困难,因为文本生成的复杂性更高。

5 总结

🔥 ​DeepSeek-R1凭什么引爆全球AI圈?五大核心突破解析 🔥

5.1 纯强化学习(RL)革命:首次跳过SFT实现推理能力跃升

DeepSeek-R1系列通过纯强化学习训练​(无需监督微调SFT),直接激发模型自主推理能力。其核心算法GRPO(组相对策略优化)​结合规则奖励(答案准确性+格式规范),让模型在数学竞赛AIME 2024中从15.6%准确率飙升至86.7%。更惊艳的是,R1-Zero(零样本RL训练)通过自我迭代涌现出“反思”能力,主动修复推理错误,验证了RL驱动的自主进化潜力。

5.2 性能吊打GPT-4 O1:数学与代码任务双冠王

在多项权威测试中,DeepSeek-R1以**97.3%**的Math-500准确率超越OpenAI-O1(96.6%),Codeforces编程任务表现与人类顶尖选手持平。其开源版本(如7B参数模型)在AIME 2024上达55.5%,碾压同规模竞品Qwen-Preview(32B参数仅42.0%)。这种“小模型大智慧”特性,为边缘计算场景提供低成本解决方案。

5.3 开源生态引爆硅谷:从学术圈到大众的破圈效应

​技术普惠:开源R1-Zero、R1及6个蒸馏模型(基于Qwen/Llama架构),推动推理技术从实验室走向工业界。
​社区狂潮:春节期间,连重庆二线城市的老百姓都在讨论R1原理,APP内置的“DeepThink”模式虽初期冷门,却成为后续爆款的伏笔。
​国际认可:Nature杂志称其为“中国廉价、开放的推理模型标杆”,Meta、英伟达等巨头争相接入。

5.4 架构创新降本增效:打破算力封锁的性价比之王

通过DeepSeek-MoE(混合专家架构)​、MLA(多头潜在注意力)​等技术,将训练成本压缩至OpenAI的1/5(R1训练成本5.58MvsO1的30M+)。结合FP8混合精度训练和DualPipe通信优化,在国产GPU上实现671B参数模型的稳定训练,突破西方技术封锁。

5.5 AGI新范式曙光:从“人工引导”到“自主进化”​

DeepSeek-R1证明:​强化学习可替代人工标注数据,推动推理能力从“人工设计”转向“自主涌现”。其多阶段训练框架(冷启动数据+SFT+RL)为AGI训练提供新思路,被硅谷视为“OpenAI神秘感失效后”的关键竞争点。

​结语
DeepSeek-R1的出名,不仅是技术突破的胜利,更是开源精神与工程化创新的胜利。正如“它重新定义了强推理模型的边界,让AGI触手可及。”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/74037.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

表格标题竖直

使用文本方式使表格怎么竖列 思路&#xff1a;表格竖直书写&#xff0c;里面的内容水平书写 使用到的是css中的文本效果&#xff1a; writing-mode&#xff1a;书写方式horizontal-tb&#xff1a;水平vertical-rl&#xff1a;竖直<style>table {writing-mode: vertical…

AI+视频赋能智慧农业:EasyCVR打造全域可视化农场监管平台

随着科技的飞速发展&#xff0c;传统农业正加速向智慧农业转型&#xff0c;农场管理也迎来了前所未有的变革机遇。在这一进程中&#xff0c;如何有效整合先进的信息技术&#xff0c;实现农场的精准化、智能化管理&#xff0c;成为了摆在农场主和农业管理者面前的关键课题。 基于…

HarmonyOS鸿蒙开发 BuilderParam在父组件的Builder的点击事件报错:Error message:is not callable

HarmonyOS鸿蒙开发 BuilderParam在父组件的Builder的点击事件报错&#xff1a;Error message:is not callable 最近在鸿蒙开发过程中&#xff0c;UI做好了&#xff0c;根据列表item进行点击跳转&#xff0c;报错了 报错信息如下 Error message:is not callable Stacktrace:at…

简化神经元模型6 -- Hindmarsh-Rose Model

Hindmarsh-Rose 模型 目录 0. 写在前面 1. Hindmarsh-Rose 模型的定义 2. Hindmarsh-Rose 模型簇发放的动力学机制 3. Hindmarsh-Rose 模型的其他发放模式 4. 分析过程所用到的一系列 BrainPy 代码 0. 写在前面 前面介绍了: Hodgkin-Huxley Model 简化神经元模型1 – LIF M…

第六届电气、电子信息与通信工程国际学术会议 (EEICE 2025)

重要信息 官网&#xff1a;www.eeice.net&#xff08;点击了解参会投稿等&#xff09; 时间&#xff1a;2025年4月18-20日 地点&#xff1a;中国-深圳技术大学 简介 第六届电气、电子信息与通信工程 (EEICE 2025&#xff09;将于2025年4月18-20日在中国深圳召开。 EEICE 20…

计算机操作系统(三) 操作系统的特性、运行环境与核心功能(附带图谱更好对比理解))

计算机操作系统&#xff08;三&#xff09; 操作系统的特性、运行环境与核心功能 前言一、操作系统的基本特性1.1 并发1.2 共享1.3 虚拟1.4 异步 二、操作系统的运行环境2.1 硬件支持2.2 操作系统内核2.3 处理机的双重工作模式2.4 中断与异常 三、操作系统的主要功能3.1 处理机…

Linux(Ubuntu)系统安装Docker与Docker Compose完整指南

本文是为需要在Ubuntu系统部署容器服务的开发者准备的详细教程。我们将分两个主要部分讲解&#xff1a;Docker引擎的标准安装流程和Docker Compose的配置方法。所有操作均在终端执行&#xff0c;建议使用Ubuntu 18.04及以上版本。 一、Docker引擎安装全流程 &#xff08;总耗时…

批量将 PPT 转换为PDF/XPS/JPG图片等其它格式

PPT 文档经常有转换为其它格式的需求&#xff0c;比如将 PPT 转换为 PDF、将 PPT 转换为图片、生成 PPT 预览图等&#xff0c;这在某些场景下非常的有用&#xff0c;今天给大家介绍的就是如何批量将 PDF 转换为 PDF、JPG、Tiff 等多种格式的操作。 在工作中我们经常需要接触 PP…

c库、POSIX库、C++库、boost库之间的区别和联系

文章目录 一、区别1. 定义和来源2. 功能范围3. 可移植性4. 语言支持5. 维护和更新 二、联系1. 相互补充2. 部分功能重叠3. 共同促进编程发展4. 代码兼容性 三、总结 一、区别 1. 定义和来源 C 库函数&#xff1a;由 ANSI C 和 ISO C 标准定义&#xff0c;是 C 语言编程的基础…

响应压缩导致的接口请求response没有响应体问题排查

目录 一、背景二、排查过程三、解决方法四、学习与思考-响应压缩&#xff08;一&#xff09;可能原因&#xff08;二&#xff09;深入排查&#xff08;三&#xff09;注意 一、背景 接口发布到测试环境&#xff0c;测试同学说没有数据 二、排查过程 1、本地用相同的参数、相…

JVM中的运行时常量池详解

运行时常量池&#xff08;Runtime Constant Pool&#xff09;是每一个类或接口的常量池&#xff08;Constant_Pool&#xff09;的运行时表示形式&#xff0c;它包括了若干种不同的常量&#xff1a;从编译期可知的数值字面量到必须运行期解析后才能获得的方法或字段引用。运行时…

C# MethodBase 类使用详解

总目录 前言 在C#编程中&#xff0c;反射&#xff08;Reflection&#xff09;是一种强大的机制&#xff0c;允许我们在运行时检查和操作类型的成员。MethodBase 类是.NET框架中 System.Reflection 命名空间下的一个抽象类&#xff0c;它是所有方法( MethodInfo 和 Constructor…

【css酷炫效果】纯CSS实现3D翻转卡片动画

【css酷炫效果】纯CSS实现3D翻转卡片动画 缘创作背景html结构css样式完整代码效果图 想直接拿走的老板&#xff0c;链接放在这里&#xff1a;https://download.csdn.net/download/u011561335/90490472 缘 创作随缘&#xff0c;不定时更新。 创作背景 刚看到csdn出活动了&am…

Flask多参数模版使用

需要建立目录templates&#xff1b; 把建好的html文件放到templates目录里面&#xff1b; 约定好参数名字&#xff0c;单个名字可以直接使用&#xff1b;多参数使用字典传递&#xff1b; 样例&#xff1a; from flask import render_template # 模板 (Templates) #Flask 使用…

SVN简明教程——下载安装使用

SVN教程目录 一、开发中的实际问题二、简介2.1 版本控制2.2 Subversion2.3 Subversion的优良特性2.4 工作原理2.5 SVN基本操作 三、Subversion的安装与配置1. 服务器端程序版本2. 下载源码包3. 下载二进制安装包4. 安装5. 配置版本库① 为什么要配置版本库&#xff1f;② 创建目…

OpenCV图像拼接(1)概述

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 此图说明了在Stitcher类中实现的拼接模块流程。使用该类&#xff0c;可以配置/移除某些步骤&#xff0c;即根据特定需求调整拼接流程。流程中的所…

Ubuntu20.04安装Nvidia显卡驱动

Ubuntu20.04安装Nvidia显卡驱动 安装环境为Dell R540服务器 官网下载Nvidia显卡驱动 https://www.nvidia.cn/geforce/drivers/ 安装显卡驱动 chmod x NVIDIA-Linux-x86_64-470.63.01.run sudo ./NVIDIA-Linux-x86_64-470.63.01.run 遇到nouveau报错 lsmod查看nouveau驱动…

互联网it常用抓包工具说明

一、引言 在互联网 IT 领域&#xff0c;无论是网络故障排查、安全检测&#xff0c;还是开发调试&#xff0c;抓包工具都发挥着举足轻重的作用。 当网络出现故障&#xff0c;比如网页加载缓慢、应用无法连接服务器时&#xff0c;抓包工具可以帮助我们捕获网络数据包&#xff0…

Linux 音频驱动 WM8960 音频 DAC IC 音乐播放与录音

这些先引出一个内容&#xff0c;是 Linux 内核的音频系统&#xff0c;ALSA&#xff0c;提供了对声卡的低级访问&#xff0c;支持 PCM&#xff0c;播放/录音、混音、MIDI 处理等功能。它取代了旧的 OSS&#xff0c;并提供更强大的功能和更好的硬件支持。 ALSA 主要特点&#xf…

k8s中的组件

1.namespace Namespace 用于将集群资源划分为不同的逻辑组&#xff0c;方便管理和隔离 kubectl get namespace 查看所有逻辑组 kubectl describe namespace <namespace-name> 查看某个逻辑组信息详情 kubectl create namespace ... 创建逻辑组 kubectl delete names…