【论文笔记】DeepSeek-R1 技术报告

在这里插入图片描述

最强开源LLM,性能和效果都很棒;在数学、代码这种有标准正确答案的场景,表现尤为突出;一些其他场景的效果,可能不如DeepSeek-V3和Qwen。

在这里插入图片描述

Deepseek-R1没有使用传统的有监督微调sft方法来优化模型,而使用了大规模强化学习RL来实现推理能力的提升。更进一步,通过引入冷启动解决仅RL遇到的缺陷。

以往的研究工作大多依赖于大量的监督数据来提升模型性能。在本研究中展示了即使不依赖监督微调(SFT)作为预训练步骤,通过大规模强化学习(RL)也能显著提升推理能力。此外,我们还展示了通过引入少量冷启动数据可以进一步提升性能。在接下来的章节中,将按顺序介绍:
(1)DeepSeek-R1-Zero,它直接在基础模型上应用 RL,不依赖任何监督微调数据;介绍了如何直接在基础模型上进行大规模强化学习,无需监督微调数据。
(2)DeepSeek-R1,它从经过长推理链(Chain-of-Thought, CoT)数据微调的检查点开始应用 RL;介绍了多阶段训练流程如何打造出性能卓越的推理模型。
(3)将 DeepSeek-R1 的推理能力蒸馏到小型dense模型中,介绍了如何将大模型的推理能力有效转移到小模型中。
在这里插入图片描述

DeepSeek-R1-Zero

在这里插入图片描述

RL算子

为了节省 RL 的训练成本,我们采用了 Group Relative Policy Optimization(GRPO)。GRPO 放弃了通常与策略模型大小相同的批判模型(critic model),而是通过组分数来估计Baseline。
在这里插入图片描述
在这里插入图片描述

奖励模型

在这一步,只使用了基于规则的奖励模型。
奖励是训练信号的来源,决定了 RL 的优化方向。为了训练 DeepSeek-R1-Zero,我们采用基于规则的奖励系统,主要包括以下两种奖励:
● 准确性奖励:准确性奖励模型用于评估回答是否正确。例如,在数学问题中,模型需要以指定格式(例如在方框内)提供最终答案,以便可靠地通过基于规则的验证来确认正确性。同样,在 LeetCode 问题中,可以使用编译器根据预定义的测试用例生成反馈。
● 格式奖励:除了准确性奖励模型外,我们还采用格式奖励模型,强制模型将推理过程放在 和 标签之间。
没有在开发 DeepSeek-R1-Zero 时应用结果或过程神经奖励模型,因为我们发现神经奖励模型可能在大规模强化学习过程中出现奖励劫持(reward hacking)的问题,而重新训练奖励模型需要额外的训练资源,并且会使整个训练流程复杂化。
为了训练 DeepSeek-R1-Zero,设计了一个简单的模板,指导基础模型按照我们的指定指令进行操作。如上表所示,该模板要求 DeepSeek-R1-Zero 首先生成推理过程,然后提供最终答案。我们故意将约束限制在这一结构化格式上,避免任何内容相关的偏见——例如强制要求反思性推理或推广特定的解决问题策略——以确保我们能够准确观察模型在强化学习(RL)过程中的自然发展。

相关发现&总结

  • “顿悟时刻”
    在这个阶段,DeepSeek-R1-Zero 学会为问题分配更多的思考时间,通过重新评估其初始方法来实现。这种行为不仅是模型推理能力增长的证明,也是研究人员观察其行为的一个“顿悟时刻”。
    它突显了强化学习的力量和美丽:我们不是明确地教模型如何解决问题,而是仅仅提供正确的激励,模型就会自主发展出高级的问题解决策略。“顿悟时刻” 有力地提醒我们,RL 解锁人工系统中智力新水平的潜力,为未来更自主、更适应性强的模型铺平了道路。
  • DeepSeek-R1-Zero 的缺点
    尽管 DeepSeek-R1-Zero 展示了强大的推理能力,并且能够自主发展出意外且强大的推理行为,但它面临着一些问题。例如,DeepSeek-R1-Zero 在可读性方面表现不佳,存在语言混用的问题。

DeepSeek-R1

受到 DeepSeek-R1-Zero 令人鼓舞的结果的启发,自然会提出两个问题:
1)通过引入少量高质量数据作为冷启动,是否可以进一步提升推理性能或加速收敛?
2)如何训练一个用户友好的模型,使其不仅能够产生清晰连贯的推理链(CoT),还具备强大的通用能力?
为了解决这些问题,我们重新设计了 DeepSeek-R1 的训练流程。该流程包括以下四个阶段:
● 冷启动:增加上千条CoT数据,引入人类先验知识,在DeepSeek-V3的基础上进行迭代优化,增加整体模型的可读性。在DeepSeek-V3-Base的基础上,让模型具备更好的可读性、回答模版以及潜力。
● 面向推理的强化学习,引入语言一致性奖励:计算方法是 CoT 中目标语言单词的比例。训练到在归因任务上收敛。该步骤类似DeepSeek-R1-Zero,但是额外增加了语言一致性奖励函数。
● 拒绝采样与监督微调:对于每个提示,采样多个回答,并仅保留正确的回答,提高数据质量。将标准答案和模型输出一起输入给DeepSeek-V3,令其判断是否采样该样本。总共收集了大约 600k 条与推理相关的训练样本。
● 面向所有场景的强化学习:旨在提升模型的有用性(泛化性)和无害性,同时优化其推理能力。具体来说,使用组合的奖励信号和多样化的提示分布来训练模型。

在这里插入图片描述

知识蒸馏

为了使更高效的小模型具备像 DeepSeek-R1 这样的推理能力,我们直接使用 DeepSeek-R1 生成的 800k 样本对开源模型(如 Qwen 和 Llama)进行微调,详细过程如上节所述。我们的研究结果表明,这种简单的蒸馏方法显著提升了小型模型的推理能力。
我们使用的基底模型包括 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B 和 Llama-3.3-70B-Instruct。我们选择 Llama-3.3 是因为其推理能力略优于 Llama-3.1。
需要注意的是:对于蒸馏模型,我们仅应用了 SFT,并没有 RL 阶段,尽管加入 RL 可能会显著提升模型性能。我们的主要目标是展示蒸馏技术的有效性,将 RL 阶段的探索留给更广泛的学术界。

结合后文的实验结果,知识蒸馏主要有两个结论:
● 将更强大的模型的能力蒸馏到小型模型中可以取得出色的结果,而小型模型仅依靠本文提到的大规模 RL 训练需要巨大的计算资源,且可能无法达到蒸馏的效果。
● 虽然蒸馏策略既经济又有效,但要突破智能的边界,可能仍然需要更强大的基础模型和更大规模的强化学习。

参考资料:

● Github:https://github.com/deepseek-ai/DeepSeek-R1
● CSDN:https://blog.csdn.net/qq_38961840/article/details/145384852
● 论文:
http://arxiv.org/abs/2401.02954
http://arxiv.org/abs/2501.12948

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/75666.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

YOLO学习笔记 | 基于YOLOv5的车辆行人重识别算法研究(附matlab代码)

基于YOLOv5的车辆行人重识别算法研究 🥥🥥🥥🥥🥥🥥🥥🥥🥥🥥🥥🥥🥥🥥 摘要 本文提出了一种基于YOLOv5的车辆行人重识别(ReID)算法,结合目标检测与特征匹配技术,实现高效的多目标跟踪与识别。通过引入注意力机制、优化损失函数和轻量化网络结构…

Buildroot与Yocto介绍比对

Buildroot 和 Yocto 是嵌入式 Linux 领域最常用的两大系统构建工具,它们在功能定位、使用方法和适用场景上有显著差异。以下从专业角度对两者进行对比分析: 一、Buildroot 核心功能与特点 1. 功能定位 轻量级系统构建工具:专注于快速生成精…

VUE3初始化项目安装

本次就是作为实验使用,包括安装过程中遇到的问题,供大家提供参考,话不多说,看过程: 第1步:首先分别安装node.js和npm,这步网上有很多资料,很简单,过程省略了&#xff0c…

GO语言学习(17)Gorm的数据库操作

目录 🏆前言 1.Gorm的简介 2.GORM连接数据库 2.1 配置DSN Mysql,TiDB,MariaDB PostgreSQL SQL Server SQLite 2.2 gorm.Open连接数据库 3.数据库连接池的配置 4.使用GORM对数据库进行操作(重点) 4.1 创…

【JavaEE】网络原理详解

1.❤️❤️前言~🥳🎉🎉🎉 Hello, Hello~ 亲爱的朋友们👋👋,这里是E绵绵呀✍️✍️。 如果你喜欢这篇文章,请别吝啬你的点赞❤️❤️和收藏📖📖。如果你对我的…

第十五届蓝桥杯单片机省赛程序设计试题

同时也是积分赛——测量NE555输出脉冲频率 第十五届 蓝桥杯 单片机设计与开发项目 省赛1 第二部分 程序设计试题(85 分) (大学组) 一 基本要求 1、使用大赛组委会统一提供的四梯单片机竞赛实训平台,完成本试题程序…

JavaScript智能对话机器人——企业知识库自动化

引言 内部知识管理常面临信息分散、查找困难的问题。本文将使用Node.js和虎跃办公的智能对话API,构建企业级知识问答机器人,支持自然语言查询和自动学习。 核心技术 自然语言处理(NLP)意图识别机器学习模型微调REST API集成 代…

元宇宙浪潮下,前端开发如何“乘风破浪”?

一、元宇宙对前端开发的新要求 元宇宙的兴起,为前端开发领域带来了全新的挑战与机遇。元宇宙作为一个高度集成、多维互动的虚拟世界,要求前端开发不仅具备传统网页开发的能力,还需要掌握虚拟现实(VR)、增强现实&#…

Spring Boot 3.4.3 基于 Caffeine 实现本地缓存

在现代企业级应用中,缓存是提升系统性能和响应速度的关键技术。通过减少数据库查询或复杂计算的频率,缓存可以显著优化用户体验。Spring Boot 3.4.3 提供了强大的缓存抽象支持,而 Caffeine 作为一款高性能的本地缓存库,因其优异的吞吐量和灵活的配置,成为许多开发者的首选…

QT Quick(C++)跨平台应用程序项目实战教程 6 — 弹出框

目录 1. Popup组件介绍 2. 使用 上一章内容完成了音乐播放器程序的基本界面框架设计。本小节完成一个简单的功能。单击该播放器顶部菜单栏的“关于”按钮,弹出该程序的相关版本信息。我们将使用Qt Quick的Popup组件来实现。 1. Popup组件介绍 Qt 中的 Popup 组件…

DuckDB系列教程:如何分析Parquet文件

Parquet 是一种强大的、基于列的存储格式,适用于实现更快捷和更高效的数据分析。您可以使用 DuckDB 这种内存型分析数据库来处理 Parquet 文件并运行查询以对其进行分析。 在这篇文章中,我们将逐步介绍如何使用 DuckDB 对存储在 Parquet 文件中的餐厅订单…

异步框架使用loguru和contextvars实现日志按Id输出

需求阐述 工作中使用fastStream模块消费kafka事件的时候,遇到以下问题。1. 由于main.py模块要用到许多其他模块 ,main模块,和其他模块都有日志输出。2. 要实现异步消费事件,但是又不希望日志打印的很乱。3. 想着在每次消费事件的…

【HTTPS协议】

文章目录 一、HTTPS二、HTTPS协议五种加密方案1.只使用对称加密2.只使用非对称加密3.双方都使用非对称加密4.对称加密非对称加密中间人攻击理解数字签名CA机构和证书 5. 对称加密非对称加密证书认证中间人篡改证书?中间人调包整个证书? 常见问题总结 一、…

算法设计学习8

实验目的及要求: 通过深入学习树(Tree)和二叉树(Binary Tree)这两种重要的数据结构,掌握它们的基本概念、性质和操作,提高对树形结构的理解和应用能力。通过本实验,学生将深化对树和…

P17_ResNeXt-50

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 一、模型结构 ResNeXt-50由多个残差块(Residual Block)组成,每个残差块包含三个卷积层。以下是模型的主要结构&#xff1…

【YOLO系列(V5-V12)通用数据集-剪刀石头布手势检测数据集】

YOLO格式的剪刀石头布手势检测数据集,适用于YOLOv5-v11所有版本,可以用于本科毕设、发paper、做课设等等,有需要的在这里获取: 【YOLO系列(V5-V12)通用数据集-剪刀石头布手势检测数据集】 数据集专栏地址&a…

基于连接池与重试机制的高效TDengine写入方案

摘要 在时序数据库应用场景中,如何构建稳定高效的写入机制是核心挑战。本文基于提供的Python代码实现,解析一种结合连接池管理、智能重试策略和事务控制的TDengine写入方案,并分析其技术优势与优化方向。 一、代码 from dbutils.pooled_db import PooledDB import timede…

抖音热点视频识别与分片处理机制解析

抖音作为日活数亿的短视频平台,其热点视频识别和分片处理机制是支撑高并发访问的核心技术。以下是抖音热点视频识别与分片的实现方案: 热点视频识别机制 1. 实时行为监控系统 用户行为聚合:监控点赞、评论、分享、完播率等指标的异常增长曲线内容特征分析:通过AI识别视频…

基于RDK X3的“校史通“机器人:SLAM导航+智能交互,让校史馆活起来!

视频标题: 【校史馆の新晋顶流】RDK X3机器人:导览员看了直呼内卷 视频文案: 跑得贼稳团队用RDK X3整了个大活——给校史馆造了个"社牛"机器人! 基于RDK X3开发板实现智能导航与语音交互SLAM技术让机器人自主避障不…

Metal学习笔记十三:阴影

在本章中,您将了解阴影。阴影表示表面上没有光。当另一个表面或对象使对象与光线相遮挡时,您会看到对象上的阴影。在项目中添加阴影可使您的场景看起来更逼真,并提供深度感。 阴影贴图 阴影贴图是包含场景阴影信息的纹理。当光线照射到物体…