DeepSeek-R1:将强化学习用于激励大型语言模型的推理能力

目录

引言

 一、DeepSeek-R1的贡献

二、DeepSeek-R1的方法

2.1、DeepSeek-R1-Zero:基础模型上的强化学习

2.2、DeepSeek-R1:冷启动强化学习

2.3、蒸馏:赋予小模型推理能力

三、DeepSeek-R1实验结果

3.1、模型优点

3.2、模型缺点

四、讨论与未来工作

五、结论


引言

大型语言模型(LLMs)在近年来取得了长足的进步,在各种应用中展示出令人印象深刻的性能。然而,LLMs在复杂推理任务上仍面临挑战。为了进一步提升LLMs的推理能力,DeepSeek团队提出了DeepSeek-R1,这是一个通过强化学习(RL)来增强LLMs推理能力的模型。

关于强化学习的作用博主在之前的早期博文中已经有所提及。

 一、DeepSeek-R1的贡献

1. DeepSeek-R1-Zero:直接在基础模型上应用强化学习,不依赖任何监督微调(SFT)数据,证明了LLMs可以通过纯强化学习发展出强大的推理能力

2. DeepSeek-R1:结合少量高质量冷启动数据和迭代RL训练,进一步提升了模型的推理性能,并产生更加清晰、连贯的思维链。

3. 蒸馏:将DeepSeek-R1的推理能力成功蒸馏到更小、更高效的密集模型中,如Qwen和Llama系列,极大地提升了这些小模型在推理任务上的表现。

二、DeepSeek-R1的方法

2.1、DeepSeek-R1-Zero:基础模型上的强化学习

DeepSeek-R1-Zero直接在DeepSeek-V3-Base上应用大规模强化学习,不使用任何SFT数据。训练过程采用群体相对策略优化(GRPO)算法,并设计了基于规则的奖励系统,主要包括准确性奖励和格式化奖励。

奖励格式

奖励是训练信号的来源,它决定了强化学习的优化方向。为了训练 DeepSeek-R1-Zero ,采用
了一种基于规则的奖励系统,主要包括两种类型的奖励:
  1. 准确性奖励:准确性奖励模型评估响应是否正确。例如,在具有确定性结果的数学问题中 模型需要以指定格式(例如,在方框内)提供最终答案,从而实现基于规则的可靠正确 性验证。同样,对于LeetCode问题,可以使用编译器根据预定义的测试用例生成反馈。
  2. 格式化奖励:除了准确性奖励模型外,我们还采用了一种格式化奖励模型,该模型强制模型将其思考过程放在‘<思考>’和‘</思考>’标签之间。
通过结构化输出约束,确保模型生成可解析、逻辑清晰的思维链,同时提升训练稳定性和任务适配性。

顿悟时刻

我们是怎么看出模型在这种非常“原始”的方法下,是真的学会了“思考”的呢?

论文记录了一个引人注目的案例:在处理一个涉及复杂数学表达式 √a - √(a + x) = x 的问题时,模型突然停下来说"Wait, wait. Wait. That's an aha moment I can flag here"(等等、等等、这是个值得标记的啊哈时刻),随后重新审视了整个解题过程。这种类似人类顿悟的行为完全是自发产生的,而不是预先设定的。

“顿悟时刻”有力地提醒了强化学习在解锁人工智能系统新智能水平方面的潜力,为未来更加自主和自适应的模型铺平了道路。

2.2、DeepSeek-R1:冷启动强化学习

在机器学习与模型训练中,冷启动(Cold Start) 指系统或模型在缺乏足够历史数据或预训练知识的情况下,通过引入少量高质量标注数据来初始化模型的过程。在DeepSeek-R1的上下文中,冷启动阶段是模型训练的起点,旨在为后续强化学习(RL)提供可靠的初始策略。

  1. 冷启动:收集数千条长链思维(CoT)数据来微调DeepSeek-V3-Base,作为初始强化学习演员。
  2. 面向推理的强化学习:采用与DeepSeek-R1-Zero相同的大规模RL训练过程,重点提升模型在推理密集型任务中的表现。
  3. 拒绝采样与监督微调:利用强化学习收敛后(就是再训练模型的效率很难提升)的检查点收集新的SFT数据,并重新训练DeepSeek-V3-Base模型,以增强模型在写作、角色扮演等通用任务中的能力。
  4. 全场景强化学习:进行次级强化学习阶段,结合奖励信号和多样化提示分布,进一步提高模型的有用性和无害性,同时精炼其推理能力。

2.3、蒸馏:赋予小模型推理能力

为了让更高效的小型模型具备类似DeepSeek-R1的推理能力,研究团队直接使用DeepSeek-R1整理的80万样本对Qwen和Llama系列模型进行了蒸馏。实验结果表明,将更强大的模型蒸馏为较小的模型能产生出色的结果,而依赖大规模RL的较小模型可能无法达到蒸馏的性能。

三、DeepSeek-R1实验结果

3.1、模型优点

DeepSeek-R1在各种推理相关的基准测试中取得了优异的成绩,包括:

- AIME 2024:79.8% 的 Pass@1 分数,略微超过了 OpenAI-o1-1217
- MATH-500:97.3% 的分数,与 OpenAI-o1-1217 表现相当
- Codeforces:2,029 的 Elo 评分,超过了 96.3% 的人类参赛者(这个是全球顶级算法比赛含金量非常高)
- MMLU:90.8% 的得分
- MMLU-Pro:84.0% 的得分
- GPQA Diamond:71.5% 的得分

-中国国家高中数学奥林匹克(CNMO 2024):78.8%的得分

-美国数学邀请赛2024(AIME 2024):79.8%的得分 

此外,DeepSeek-R1在知识、创意写作、通用问答、编辑、摘要等任务中也表现出色。

蒸馏后的小型模型同样展现了优异的性能:

- DeepSeek-R1-7B全面超越非推理模型如GPT-4o-0513
- DeepSeek-R1-14B在所有评估指标上均超过了QwQ-32B-Preview
- DeepSeek-R1-32B和DeepSeek-R1-70B在大多数基准测试中显著超越了OpenAI-o1-mini

3.2、模型缺点

只擅长数学,代码,逻辑类的问题。对文学,长文本总结方面的能不足。

DeepSeek-R1目前并不擅长长文本规律总结

尽管R1-Zero展现出了惊人的推理能力,但研究者们很快发现了一个严重的问题:它的思维过程往往难以被人类理解。

论文坦诚地指出,这个纯强化学习训练出来的模型存在"poor readability"(可读性差)和"language mixing"(语言混杂)的问题。

这个现象其实很好理解:R1-Zero完全通过奖惩信号来优化其行为,没有任何人类示范的"标准答案"作为参考。就像一个天才儿童自创了一套解题方法,虽然屡试不爽,但向别人解释时却语无伦次。它在解题过程中可能同时使用多种语言,或者发展出了某种特殊的表达方式,这些都让其推理过程难以被追踪和理解。

四、讨论与未来工作

AlphaGo(Silver等,2017b)和AlphaZero的蒙特卡洛树搜索(MCTS)算法是一种通过模拟与回溯动态构建搜索树的算法,其核心在于平衡探索与利用,逐步逼近最优决策路径。它在游戏 AI、复杂问题求解等领域展现了强大的能力,但需要大量模拟次数才能收敛到高质量策略,实时性受限。奖励函数的设计直接影响搜索方向,不合理的奖励可能导致次优解。

未来,DeepSeek团队计划在以下方向为DeepSeek-R1进行投资研究:

  1. 提升通用能力,如函数调用、多轮对话、复杂角色扮演和json输出等任务
  2. 解决语言混合问题,优化非英文、非中文查询的处理
  3. 改进提示工程,提高模型在少样本或零样本设置下的性能
  4. 提升在软件工程任务中的表现

五、结论

DeepSeek-R1通过大规模强化学习提升语言模型推理能力,无需监督数据。结合少量高质量冷启动数据后性能与OpenAI o1模型匹敌。将推理能力成功蒸馏至小模型,大幅跑赢同尺寸开源模型。擅长STEM推理任务,局限于可读性、语言混合等。未来将提升通用能力,改进提示工程和软件工程任务表现。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/68044.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据库管理-第287期 Oracle DB 23.7新特性一览(20250124)

数据库管理287期 20245-01-24 数据库管理-第287期 Oracle DB 23.7新特性一览&#xff08;20250124&#xff09;1 AI向量搜索&#xff1a;算术和聚合运算2 更改Compatible至23.6.0&#xff0c;以使用23.6或更高版本中的新AI向量搜索功能3 Cloud Developer包4 DBMS_DEVELOPER.GET…

Android BitmapShader简洁实现马赛克,Kotlin(二)

Android BitmapShader简洁实现马赛克&#xff0c;Kotlin&#xff08;二&#xff09; 这一篇 Android BitmapShader简洁实现马赛克&#xff0c;Kotlin&#xff08;一&#xff09;-CSDN博客 遗留一个问题&#xff0c;xml定义的MyView为wrap_content的宽高&#xff0c;如果改成其…

智能化加速标准和协议的更新并推动验证IP(VIP)在芯片设计中的更广泛应用

作者&#xff1a;Karthik Gopal, SmartDV Technologies亚洲区总经理 智权半导体科技&#xff08;厦门&#xff09;有限公司总经理 随着AI技术向边缘和端侧设备广泛渗透&#xff0c;芯片设计师不仅需要考虑在其设计中引入加速器&#xff0c;也在考虑采用速度更快和带宽更高的总…

【问题】Chrome安装不受支持的扩展 解决方案

此扩展程序已停用&#xff0c;因为它已不再受支持 Chromium 建议您移除它。详细了解受支持的扩展程序 此扩展程序已停用&#xff0c;因为它已不再受支持 详情移除 解决 1. 解压扩展 2.打开manifest.json 3.修改版本 将 manifest_version 改为3及以上 {"manifest_ver…

Vue入门(Vue基本语法、axios、组件、事件分发)

Vue入门 Vue概述 Vue (读音/vju/&#xff0c;类似于view)是一套用于构建用户界面的渐进式框架&#xff0c;发布于2014年2月。与其它大型框架不同的是&#xff0c;Vue被设计为可以自底向上逐层应用。Vue的核心库只关注视图层&#xff0c;不仅易于上手&#xff0c;还便于与第三…

[云讷科技]Kerloud Falcon四旋翼飞车虚拟仿真空间发布

虚拟仿真环境作为一个独立的专有软件包提供给我们的客户&#xff0c;用于帮助用户在实际测试之前验证自身的代码&#xff0c;并通过在仿真引擎中添加新的场景来探索新的飞行驾驶功能。 环境要求 由于环境依赖关系&#xff0c;虚拟仿真只能运行在装有Ubuntu 18.04的Intel-64位…

postgresql15的启动

PostgreSQL是一个功能非常强大的、源代码开放的客户/服务器关系型数据库管理系统&#xff0c;且因为许可证的灵活&#xff0c;任何人都可以以任何目的免费使用、修改和分发PostgreSQL。现在国产数据库大力发展阶段&#xff0c;学习和熟悉postgresql的功能是非常有必要的&#x…

Python NumPy(1):介绍、Ndarray对象、NumPy数据类型

1 介绍 NumPy(Numerical Python) 是 Python 语言的一个扩展程序库&#xff0c;支持大量的维度数组与矩阵运算&#xff0c;此外也针对数组运算提供大量的数学函数库。NumPy 是一个运行速度非常快的数学库&#xff0c;主要用于数组计算&#xff0c;包含&#xff1a; 一个强大的N…

sql语句--新手入门增删改查保姆级教学

一丶在数据库管理系统中&#xff0c;SQL&#xff08;Structured Query Language&#xff0c;结构化查询语言&#xff09;是用于访问和操作数据库的标准编程语言。以下将通过一个假设的“articles”表&#xff08;代表文章或博客条目&#xff09;来展示SQL中的增&#xff08;Ins…

INCOSE需求编写指南-第1部分:介绍

第1部分&#xff1a;介绍Section 1: Introduction 1.1 目的和范围 Purpose and Scope 本指南专门介绍如何在系统工程背景下以文本形式表达需求和要求陈述。其目的是将现有标准&#xff08;如 ISO/IEC/IEEE 29148&#xff09;中的建议以及作者、主要贡献者和审稿员的最佳实践结…

Windows上通过Git Bash激活Anaconda

在Windows上配置完Anaconda后&#xff0c;普遍通过Anaconda Prompt激活虚拟环境并执行Python&#xff0c;如下图所示&#xff1a; 有时需要连续执行多个python脚本时&#xff0c;直接在Anaconda Prompt下可以通过在以下方式&#xff0c;即命令间通过&&连接&#xff0c;…

GIS 中的 SQLAlchemy:空间数据与数据库之间的桥梁

利用 SQLAlchemy 在现代应用程序中无缝集成地理空间数据导言 地理信息系统&#xff08;GIS&#xff09;在管理城市规划、环境监测和导航系统等各种应用的空间数据方面发挥着至关重要的作用。虽然 PostGIS 或 SpatiaLite 等专业地理空间数据库在处理空间数据方面非常出色&#…

MySQL中的读锁与写锁:概念与作用深度剖析

MySQL中的读锁与写锁&#xff1a;概念与作用深度剖析 在MySQL数据库的并发控制机制中&#xff0c;读锁和写锁起着至关重要的作用。它们是确保数据在多用户环境下能够正确、安全地被访问和修改的关键工具。 一、读锁&#xff08;共享锁&#xff09;概念 读锁&#xff0c;也称为…

SpringBoot 实现动态管理定时任务 Job的动态操作(添加、修改、启停、执行、删除)以及界面展示和具体Job的创建与执行示例

SpringBoot 实现动态管理定时任务 Job的动态操作&#xff08;添加、修改、启停、执行、删除&#xff09;以及界面展示和具体Job的创建与执行示例 关键接口类&#xff1a; CronTaskRegistrar SchedulingRunnable . 添加定时任务注册类&#xff0c;用来增加、删除定时任务 impo…

LabVIEW太赫兹二维扫描成像系统

使用LabVIEW设计太赫兹二维扫描成像系统。通过LabVIEW平台开发&#xff0c;结合硬件如太赫兹源、平移台、锁相放大器等&#xff0c;实现了高效、精准的成像功能。系统采用蛇形扫描方式&#xff0c;通过动态调整扫描参数&#xff0c;达到优化成像质量的目的。 ​ 项目背景 在非…

Spring 核心技术解析【纯干货版】- V:Spring 基础模块 Spring-Context 模块精讲

Spring 框架作为 Java 开发领域最流行的框架之一&#xff0c;其核心模块承载了大量企业级应用开发的基础功能。在 Spring 的核心模块中&#xff0c;Spring-Context 模块尤为重要&#xff0c;它不仅提供了应用上下文的管理功能&#xff0c;还扩展了事件驱动、国际化支持、资源加…

2025年国产化推进.NET跨平台应用框架推荐

2025年国产化推进.NET跨平台应用框架推荐 1. .NET MAUI NET MAUI是一个开源、免费&#xff08;MIT License&#xff09;的跨平台框架&#xff08;支持Android、iOS、macOS 和 Windows多平台运行&#xff09;&#xff0c;是 Xamarin.Forms 的进化版&#xff0c;从移动场景扩展到…

SQL注入漏洞之基础数据类型注入 字符 数字 搜索 XX 以及靶场实例哟

目录 基础数据类型SQL注入 字符类型注入 单引号双引号解释 案例练习: 数字类型注入 案例 搜索性注入: 案例 XX性注入: 语句 案例 基础SQL注入类型分类 基础数据类型SQL注入 字符类型注入 xxx or 11 # select id,email from member where usernamexx or 11 # --…

【ESP32】ESP32连接JY61P并通过WIFI发送给电脑

前言 手头上有个ESP32&#xff0c;发现有wifi功能&#xff0c;希望连接JY61P并通过WIFI把姿态数据发送给电脑 1.采用Arduino IDE编译器&#xff1b;需要安装ESP32的开发板管理器&#xff1b; 2.电脑接受数据是基于python的&#xff1b; 1. ESP32 连接手机WIFI #include <…

如何在data.table中处理缺失值

&#x1f4ca;&#x1f4bb;【R语言进阶】轻松搞定缺失值&#xff0c;让数据清洗更高效&#xff01; &#x1f44b; 大家好呀&#xff01;今天我要和大家分享一个超实用的R语言技巧——如何在data.table中处理缺失值&#xff0c;并且提供了一个自定义函数calculate_missing_va…