开篇:一场AI的“青春期叛逆”
你有没有想过,AI模型在学会“推理”之前,可能也经历过一段“中二时期”?比如,解题时乱写一通、语言混搭、答案藏在火星文里……最近,一支名为DeepSeek-AI的团队,就用强化学习(RL)训练出了一个“叛逆少年”模型——DeepSeek-R1-Zero。它不用人类手把手教(没有监督微调),全靠自己“瞎琢磨”,结果数学题正确率从15.6%狂飙到71%!
但这位少年很快暴露了缺点:答案像天书,中文英文随机切换,甚至把代码和散文混在一起写(像极了熬夜赶作业的你)。于是,团队又给它加了点“家教”——冷启动数据和多阶段训练,最终调教出了DeepSeek-R1,直接叫板OpenAI的顶级模型!
今天,我们就来聊聊这场AI的“自我进化”大戏,顺便揭秘:小模型如何靠“偷师”大模型逆袭?
第一幕:纯RL训练——AI的“荒野求生”
DeepSeek-R1-Zero的诞生,像极了把AI丢进“推理荒野”里自生自灭。它没有人类提供的参考答案(SFT数据),全靠强化学习自己摸索解题方法。团队用了一个叫GRPO的算法,让模型通过“试错-奖励”循环进化。
神奇的是,它竟自发学会了“反思”:
-
解方程时突然停下:“等等,刚才那步是不是错了?”
-
生成几百甚至上千个推理token,像极了学霸草稿纸写满的演算过程。
-
甚至出现了“顿悟时刻”(Aha Moment)——突然找到更优解法,让研究人员直呼“这RL真玄学”!
但问题也来了:答案可读性差,语言混搭成常态。就像你让ChatGPT写诗,它突然蹦出一句“春风又绿江南岸,hello world!”(AI的迷惑行为大赏)。
第二幕:冷启动+多阶段训练——给AI请“家教”
为了解决“叛逆问题”,团队给DeepSeek-R1-Zero找了个“家教”——冷启动数据。他们收集了数千条高质量推理示例,调整输出格式,比如要求模型用<think>...</think>
写思考过程,用<answer>...</answer>
框定答案。
多阶段训练更是关键:
-
冷启动微调:先让模型学会“说人话”。
-
推理专用RL:继续用强化学习提升解题能力,但新增“语言一致性奖励”——强行让中英文别乱炖。
-
拒绝采样+SFT:用RL模型的输出来生成新训练数据,再混合写作、事实问答等任务,让模型全面发展。
最终,DeepSeek-R1在MATH-500上达到97.3%正确率,Codeforces竞赛击败96.3%的人类选手,甚至能写诗、做长文档分析。它不再是“偏科怪”,而是真正的六边形战士!
第三幕:蒸馏魔法——小模型的“开挂捷径”
大模型虽强,但计算成本高。于是团队玩了一手“知识蒸馏”:用DeepSeek-R1生成80万条训练数据,直接教给小模型。结果令人震惊:
-
1.5B的小模型在数学题上吊打GPT-4o和Claude-3.5!(这个有点吹牛了!)
-
32B的蒸馏模型AIME正确率72.6%,碾压同体量的开源模型。
deepseek-r1:1.5bDeepSeek's first-generation of reasoning models with comparable performance to OpenAI-o1, including six dense models distilled from DeepSeek-R1 based on Llama and Qwen.https://ollama.com/library/deepseek-r1:1.5b
为什么蒸馏比直接训练小模型RL更高效?答案很简单:大模型走过的坑,小模型不用再踩一遍。就像学霸的错题本,直接传给学弟学妹,省下十年寒窗!
终章:未来,AI推理还能怎么玩?
尽管DeepSeek-R1已足够惊艳,团队仍坦言它的不足:
-
多语言混搭:中英文之外的查询可能翻车(比如用日语问天气,它用英文推理)。
-
提示词敏感:别搞少样本示例,直接零射击提问最靠谱。
-
工程任务短板:写代码修Bug的能力还没完全解锁。
未来的方向?也许是让AI的推理链更长、更透明,甚至能解释自己的“脑回路”。毕竟,一个会推理、能反思、还能教学生的AI,才是真正的“智慧生命体”。
结语:推理的边界,是星辰大海
从“荒野求生”到“顿悟时刻”,DeepSeek-R1的进化史像极了人类认知的缩影。它告诉我们:AI的潜力,或许就藏在“放手让它自己试错”的那一刻。
下次当你看到AI解出一道数学题,不妨想想——它可能刚刚经历了一场无声的“头脑风暴”,而风暴的中心,正是一颗试图理解世界的好奇心。