当AI学会“顿悟”：DeepSeek-R1如何用强化学习突破推理边界？

开篇：一场AI的“青春期叛逆”

你有没有想过，AI模型在学会“推理”之前，可能也经历过一段“中二时期”？比如，解题时乱写一通、语言混搭、答案藏在火星文里……最近，一支名为DeepSeek-AI的团队，就用强化学习（RL）训练出了一个“叛逆少年”模型——DeepSeek-R1-Zero。它不用人类手把手教（没有监督微调），全靠自己“瞎琢磨”，结果数学题正确率从15.6%狂飙到71%！

但这位少年很快暴露了缺点：答案像天书，中文英文随机切换，甚至把代码和散文混在一起写（像极了熬夜赶作业的你）。于是，团队又给它加了点“家教”——冷启动数据和多阶段训练，最终调教出了DeepSeek-R1，直接叫板OpenAI的顶级模型！

今天，我们就来聊聊这场AI的“自我进化”大戏，顺便揭秘：小模型如何靠“偷师”大模型逆袭？

第一幕：纯RL训练——AI的“荒野求生”

DeepSeek-R1-Zero的诞生，像极了把AI丢进“推理荒野”里自生自灭。它没有人类提供的参考答案（SFT数据），全靠强化学习自己摸索解题方法。团队用了一个叫GRPO的算法，让模型通过“试错-奖励”循环进化。

神奇的是，它竟自发学会了“反思”：

解方程时突然停下：“等等，刚才那步是不是错了？”
生成几百甚至上千个推理token，像极了学霸草稿纸写满的演算过程。
甚至出现了“顿悟时刻”（Aha Moment）——突然找到更优解法，让研究人员直呼“这RL真玄学”！

但问题也来了：答案可读性差，语言混搭成常态。就像你让ChatGPT写诗，它突然蹦出一句“春风又绿江南岸，hello world！”（AI的迷惑行为大赏）。

第二幕：冷启动+多阶段训练——给AI请“家教”

为了解决“叛逆问题”，团队给DeepSeek-R1-Zero找了个“家教”——冷启动数据。他们收集了数千条高质量推理示例，调整输出格式，比如要求模型用<think>...</think>写思考过程，用<answer>...</answer>框定答案。

多阶段训练更是关键：

冷启动微调：先让模型学会“说人话”。
推理专用RL：继续用强化学习提升解题能力，但新增“语言一致性奖励”——强行让中英文别乱炖。
拒绝采样+SFT：用RL模型的输出来生成新训练数据，再混合写作、事实问答等任务，让模型全面发展。

最终，DeepSeek-R1在MATH-500上达到97.3%正确率，Codeforces竞赛击败96.3%的人类选手，甚至能写诗、做长文档分析。它不再是“偏科怪”，而是真正的六边形战士！

第三幕：蒸馏魔法——小模型的“开挂捷径”

大模型虽强，但计算成本高。于是团队玩了一手“知识蒸馏”：用DeepSeek-R1生成80万条训练数据，直接教给小模型。结果令人震惊：

1.5B的小模型在数学题上吊打GPT-4o和Claude-3.5！（这个有点吹牛了！）
32B的蒸馏模型AIME正确率72.6%，碾压同体量的开源模型。

deepseek-r1:1.5bDeepSeek's first-generation of reasoning models with comparable performance to OpenAI-o1, including six dense models distilled from DeepSeek-R1 based on Llama and Qwen.https://ollama.com/library/deepseek-r1:1.5b