目录
引言
一、DeepSeek-R1的贡献
二、DeepSeek-R1的方法
2.1、DeepSeek-R1-Zero:基础模型上的强化学习
2.2、DeepSeek-R1:冷启动强化学习
2.3、蒸馏:赋予小模型推理能力
三、DeepSeek-R1实验结果
3.1、模型优点
3.2、模型缺点
四、讨论与未来工作
五、结论
引言
大型语言模型(LLMs)在近年来取得了长足的进步,在各种应用中展示出令人印象深刻的性能。然而,LLMs在复杂推理任务上仍面临挑战。为了进一步提升LLMs的推理能力,DeepSeek团队提出了DeepSeek-R1,这是一个通过强化学习(RL)来增强LLMs推理能力的模型。
关于强化学习的作用博主在之前的早期博文中已经有所提及。
一、DeepSeek-R1的贡献
1. DeepSeek-R1-Zero:直接在基础模型上应用强化学习,不依赖任何监督微调(SFT)数据,证明了LLMs可以通过纯强化学习发展出强大的推理能力。
2. DeepSeek-R1:结合少量高质量冷启动数据和迭代RL训练,进一步提升了模型的推理性能,并产生更加清晰、连贯的思维链。
3. 蒸馏:将DeepSeek-R1的推理能力成功蒸馏到更小、更高效的密集模型中,如Qwen和Llama系列,极大地提升了这些小模型在推理任务上的表现。
二、DeepSeek-R1的方法
2.1、DeepSeek-R1-Zero:基础模型上的强化学习
DeepSeek-R1-Zero直接在DeepSeek-V3-Base上应用大规模强化学习,不使用任何SFT数据。训练过程采用群体相对策略优化(GRPO)算法,并设计了基于规则的奖励系统,主要包括准确性奖励和格式化奖励。
奖励格式
- 准确性奖励:准确性奖励模型评估响应是否正确。例如,在具有确定性结果的数学问题中 模型需要以指定格式(例如,在方框内)提供最终答案,从而实现基于规则的可靠正确 性验证。同样,对于LeetCode问题,可以使用编译器根据预定义的测试用例生成反馈。
- 格式化奖励:除了准确性奖励模型外,我们还采用了一种格式化奖励模型,该模型强制模型将其思考过程放在‘<思考>’和‘</思考>’标签之间。
顿悟时刻
我们是怎么看出模型在这种非常“原始”的方法下,是真的学会了“思考”的呢?
论文记录了一个引人注目的案例:在处理一个涉及复杂数学表达式 √a - √(a + x) = x 的问题时,模型突然停下来说"Wait, wait. Wait. That's an aha moment I can flag here"(等等、等等、这是个值得标记的啊哈时刻),随后重新审视了整个解题过程。这种类似人类顿悟的行为完全是自发产生的,而不是预先设定的。
2.2、DeepSeek-R1:冷启动强化学习
在机器学习与模型训练中,冷启动(Cold Start) 指系统或模型在缺乏足够历史数据或预训练知识的情况下,通过引入少量高质量标注数据来初始化模型的过程。在DeepSeek-R1的上下文中,冷启动阶段是模型训练的起点,旨在为后续强化学习(RL)提供可靠的初始策略。
- 冷启动:收集数千条长链思维(CoT)数据来微调DeepSeek-V3-Base,作为初始强化学习演员。
- 面向推理的强化学习:采用与DeepSeek-R1-Zero相同的大规模RL训练过程,重点提升模型在推理密集型任务中的表现。
- 拒绝采样与监督微调:利用强化学习收敛后(就是再训练模型的效率很难提升)的检查点收集新的SFT数据,并重新训练DeepSeek-V3-Base模型,以增强模型在写作、角色扮演等通用任务中的能力。
- 全场景强化学习:进行次级强化学习阶段,结合奖励信号和多样化提示分布,进一步提高模型的有用性和无害性,同时精炼其推理能力。
2.3、蒸馏:赋予小模型推理能力
为了让更高效的小型模型具备类似DeepSeek-R1的推理能力,研究团队直接使用DeepSeek-R1整理的80万样本对Qwen和Llama系列模型进行了蒸馏。实验结果表明,将更强大的模型蒸馏为较小的模型能产生出色的结果,而依赖大规模RL的较小模型可能无法达到蒸馏的性能。
三、DeepSeek-R1实验结果
3.1、模型优点
DeepSeek-R1在各种推理相关的基准测试中取得了优异的成绩,包括:
- AIME 2024:79.8% 的 Pass@1 分数,略微超过了 OpenAI-o1-1217
- MATH-500:97.3% 的分数,与 OpenAI-o1-1217 表现相当
- Codeforces:2,029 的 Elo 评分,超过了 96.3% 的人类参赛者(这个是全球顶级算法比赛含金量非常高)
- MMLU:90.8% 的得分
- MMLU-Pro:84.0% 的得分
- GPQA Diamond:71.5% 的得分-中国国家高中数学奥林匹克(CNMO 2024):78.8%的得分
-美国数学邀请赛2024(AIME 2024):79.8%的得分
此外,DeepSeek-R1在知识、创意写作、通用问答、编辑、摘要等任务中也表现出色。
蒸馏后的小型模型同样展现了优异的性能:
- DeepSeek-R1-7B全面超越非推理模型如GPT-4o-0513
- DeepSeek-R1-14B在所有评估指标上均超过了QwQ-32B-Preview
- DeepSeek-R1-32B和DeepSeek-R1-70B在大多数基准测试中显著超越了OpenAI-o1-mini
3.2、模型缺点
只擅长数学,代码,逻辑类的问题。对文学,长文本总结方面的能不足。
尽管R1-Zero展现出了惊人的推理能力,但研究者们很快发现了一个严重的问题:它的思维过程往往难以被人类理解。
论文坦诚地指出,这个纯强化学习训练出来的模型存在"poor readability"(可读性差)和"language mixing"(语言混杂)的问题。
这个现象其实很好理解:R1-Zero完全通过奖惩信号来优化其行为,没有任何人类示范的"标准答案"作为参考。就像一个天才儿童自创了一套解题方法,虽然屡试不爽,但向别人解释时却语无伦次。它在解题过程中可能同时使用多种语言,或者发展出了某种特殊的表达方式,这些都让其推理过程难以被追踪和理解。
四、讨论与未来工作
未来,DeepSeek团队计划在以下方向为DeepSeek-R1进行投资研究:
- 提升通用能力,如函数调用、多轮对话、复杂角色扮演和json输出等任务
- 解决语言混合问题,优化非英文、非中文查询的处理
- 改进提示工程,提高模型在少样本或零样本设置下的性能
- 提升在软件工程任务中的表现
五、结论
DeepSeek-R1通过大规模强化学习提升语言模型推理能力,无需监督数据。结合少量高质量冷启动数据后性能与OpenAI o1模型匹敌。将推理能力成功蒸馏至小模型,大幅跑赢同尺寸开源模型。擅长STEM推理任务,局限于可读性、语言混合等。未来将提升通用能力,改进提示工程和软件工程任务表现。