1、DeepSeek简介
2024年底,DeepSeek 相继推出了其第一代推理大模型:DeepSeek-R1-Zero 和 DeepSeek-R1。
DeepSeek-R1-Zero 是一个通过大规模强化学习(RL)训练的模型,训练过程中没有使用监督微调(SFT)作为初步步骤。该模型在推理任务上表现出色,通过强化学习,自然涌现出许多强大且有趣的推理行为。然而,DeepSeek-R1-Zero 也面临一些挑战,例如无休止的重复、可读性差以及语言混杂等问题。
为了解决这些问题并进一步提升推理性能,进一步推出了 DeepSeek-R1,该模型在强化学习之前引入了冷启动数据。DeepSeek-R1 在数学、代码和推理任务上的表现与 OpenAI-o1 相当。为了支持研究社区,开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Llama 和 Qwen 蒸馏出的六个密集模型。其中,DeepSeek-R1-Distill-Qwen-32B 在多个基准测试中超越了 OpenAI-o1-mini,为密集模型创造了新的最佳性能记录。
2、核心思想
Post-Training:在基础模型上进行大规模强化学习
DeepSeek - R1 - Zero 直接将强化学习(RL)应用于基础模型,而无需依赖监督微调(SFT)作为前期步骤。这种方法使模型能够探索思维链(CoT)以解决复杂问题。DeepSeek - R1 - Zero 展现出诸如自我验证、自我反思以及生成较长思维链等能力,这对研究界而言是一个重要的里程碑。值得注意的是,这是首个通过公开研究证实大语言模型(LLMs)的推理能力可纯粹通过强化学习激励实现,而无需监督微调的案例。这一突破为该领域未来的发展铺平了道路。
强化学习 | 监督微调 | |
性能方面 | 通过与环境交互学习,可以探索出更具创造性和灵活性的策略来解决问题,有可能使模型在一些复杂任务如游戏、机器人控制等领域表现出超越人类的水平。但强化学习的训练过程往往不稳定,收敛速度较慢,可能需要大量的样本和计算资源才能取得较好的效果。 | 基于有标注的数据进行训练,能使模型快速在特定任务上达到较高的准确性,在文本分类、情感分析等有明确标注数据的任务中表现出色。然而,如果标注数据存在偏差或不完整,模型可能会过度拟合这些数据,导致在实际应用中的泛化能力受限。 |
数据方面 | 更侧重于从环境反馈中学习,对大规模有标注数据的依赖较小。 | 高度依赖高质量的标注数据,数据的质量和数量直接影响模型的性能。 |
训练成本 | 训练过程通常需要大量的计算资源和时间,因为它需要不断地与环境进行交互和更新策略。同时,由于训练的不稳定性,可能需要多次调整超参数和重新训练,进一步增加了训练成本。 | 训练过程相对稳定,计算成本相对较低,尤其是在有预训练模型的基础上进行微调时,可以大大减少训练时间和资源消耗。 |
DeepSeek - R1模型是DeepSeek-R1-Zero的升级版,其包含两个强化学习阶段,具体如下:
(1)面向推理的强化学习阶段
- 目的:提升模型在编码、数学、科学和逻辑推理等推理密集型任务上的能力。
- 过程:在利用冷启动数据微调 DeepSeek-V3-Base 后,采用与 DeepSeek-R1 - Zero 相同的强化学习训练。训练过程中,针对思维链存在的语言混合现象,引入语言一致性奖励,根据目标语言单词比例计算,最后将推理任务准确性和语言一致性奖励相加,形成最终奖励,直至模型在推理任务上收敛。
(2)全场景强化学习阶段
- 目的:通过整合多源奖励信号和多样化数据分布,训练出能在各种场景下提供有用、无害且具备强大推理能力的模型,使模型进一步符合人类偏好,提升模型的帮助性、无害性及推理能力。
- 过程:采用组合奖励信号和多样提示分布进行训练。对于推理数据,遵循 DeepSeek-R1 - Zero 的方法论,利用基于规则的奖励指导学习;对于通用数据,依靠奖励模型捕捉人类偏好。基于 DeepSeek - V3 管道,采用类似偏好对分布和训练提示。在帮助性方面,专注于最终摘要的实用性和相关性;在无害性方面,评估整个响应以识别和缓解潜在风险,最终整合奖励信号和多样数据分布来训练模型。
知识蒸馏:小模型也能有强大威力
DeepSeek证明了较大模型的推理模式可以提炼到较小模型中,相较于通过强化学习在小模型上发现的推理模式,这能带来更好的性能表现。开源的 DeepSeek - R1 及其应用程序编程接口(API)将有助于研究界未来提炼出更优的小模型。
作者利用 DeepSeek - R1 生成的推理数据,对研究界广泛使用的多个稠密模型进行了微调。评估结果表明,经过提炼的较小稠密模型在各项基准测试中表现极为出色。作者向社区开源了基于 Qwen2.5 和 Llama3 系列提炼得到的 15 亿、70 亿、80 亿、140 亿、320 亿和 700 亿参数的模型文件。
3、模型下载
DeepSeek-R1 Models
Model | #Total Params | #Activated Params | Context Length | Download |
---|---|---|---|---|
DeepSeek-R1-Zero | 671B | 37B | 128K | 🤗 HuggingFace |
DeepSeek-R1 | 671B | 37B | 128K | 🤗 HuggingFace |
DeepSeek-R1-Distill Models
DeepSeek - R1 - Distill 模型是基于开源模型进行微调得到的,微调时使用了 DeepSeek - R1 生成的样本。作者对这些模型的配置和分词器进行了轻微调整。注意在使用时需使用作者提供的设置来运行这些模型。
Model | Base Model | Download |
---|---|---|
DeepSeek-R1-Distill-Qwen-1.5B | Qwen2.5-Math-1.5B | 🤗 HuggingFace |
DeepSeek-R1-Distill-Qwen-7B | Qwen2.5-Math-7B | 🤗 HuggingFace |
DeepSeek-R1-Distill-Llama-8B | Llama-3.1-8B | 🤗 HuggingFace |
DeepSeek-R1-Distill-Qwen-14B | Qwen2.5-14B | 🤗 HuggingFace |
DeepSeek-R1-Distill-Qwen-32B | Qwen2.5-32B | 🤗 HuggingFace |
DeepSeek-R1-Distill-Llama-70B | Llama-3.3-70B-Instruct | 🤗 HuggingFace |
4、模型效果
DeepSeek-R1评估
对于所有的模型,最大生成长度设定为 32768 个词元。对于需要采样的基准测试,我们使用的温度参数为 0.6,核采样概率(top - p)值为 0.95,并且针对每个查询生成 64 个回复以估算单样本通过率(pass@1)。
Category | Benchmark (Metric) | Claude-3.5-Sonnet-1022 | GPT-4o 0513 | DeepSeek V3 | OpenAI o1-mini | OpenAI o1-1217 | DeepSeek R1 |
---|---|---|---|---|---|---|---|
Architecture | - | - | MoE | - | - | MoE | |
# Activated Params | - | - | 37B | - | - | 37B | |
# Total Params | - | - | 671B | - | - | 671B | |
English | MMLU (Pass@1) | 88.3 | 87.2 | 88.5 | 85.2 | 91.8 | 90.8 |
MMLU-Redux (EM) | 88.9 | 88.0 | 89.1 | 86.7 | - | 92.9 | |
MMLU-Pro (EM) | 78.0 | 72.6 | 75.9 | 80.3 | - | 84.0 | |
DROP (3-shot F1) | 88.3 | 83.7 | 91.6 | 83.9 | 90.2 | 92.2 | |
IF-Eval (Prompt Strict) | 86.5 | 84.3 | 86.1 | 84.8 | - | 83.3 | |
GPQA-Diamond (Pass@1) | 65.0 | 49.9 | 59.1 | 60.0 | 75.7 | 71.5 | |
SimpleQA (Correct) | 28.4 | 38.2 | 24.9 | 7.0 | 47.0 | 30.1 | |
FRAMES (Acc.) | 72.5 | 80.5 | 73.3 | 76.9 | - | 82.5 | |
AlpacaEval2.0 (LC-winrate) | 52.0 | 51.1 | 70.0 | 57.8 | - | 87.6 | |
ArenaHard (GPT-4-1106) | 85.2 | 80.4 | 85.5 | 92.0 | - | 92.3 | |
Code | LiveCodeBench (Pass@1-COT) | 33.8 | 34.2 | - | 53.8 | 63.4 | 65.9 |
Codeforces (Percentile) | 20.3 | 23.6 | 58.7 | 93.4 | 96.6 | 96.3 | |
Codeforces (Rating) | 717 | 759 | 1134 | 1820 | 2061 | 2029 | |
SWE Verified (Resolved) | 50.8 | 38.8 | 42.0 | 41.6 | 48.9 | 49.2 | |
Aider-Polyglot (Acc.) | 45.3 | 16.0 | 49.6 | 32.9 | 61.7 | 53.3 | |
Math | AIME 2024 (Pass@1) | 16.0 | 9.3 | 39.2 | 63.6 | 79.2 | 79.8 |
MATH-500 (Pass@1) | 78.3 | 74.6 | 90.2 | 90.0 | 96.4 | 97.3 | |
CNMO 2024 (Pass@1) | 13.1 | 10.8 | 43.2 | 67.6 | - | 78.8 | |
Chinese | CLUEWSC (EM) | 85.4 | 87.9 | 90.9 | 89.9 | - | 92.8 |
C-Eval (EM) | 76.7 | 76.0 | 86.5 | 68.9 | - | 91.8 | |
C-SimpleQA (Correct) | 55.4 | 58.7 | 68.0 | 40.3 | - | 63.7 |
DeepSeek-R1-Distill 评估
Model | AIME 2024 pass@1 | AIME 2024 cons@64 | MATH-500 pass@1 | GPQA Diamond pass@1 | LiveCodeBench pass@1 | CodeForces rating |
---|---|---|---|---|---|---|
GPT-4o-0513 | 9.3 | 13.4 | 74.6 | 49.9 | 32.9 | 759 |
Claude-3.5-Sonnet-1022 | 16.0 | 26.7 | 78.3 | 65.0 | 38.9 | 717 |
o1-mini | 63.6 | 80.0 | 90.0 | 60.0 | 53.8 | 1820 |
QwQ-32B-Preview | 44.0 | 60.0 | 90.6 | 54.5 | 41.9 | 1316 |
DeepSeek-R1-Distill-Qwen-1.5B | 28.9 | 52.7 | 83.9 | 33.8 | 16.9 | 954 |
DeepSeek-R1-Distill-Qwen-7B | 55.5 | 83.3 | 92.8 | 49.1 | 37.6 | 1189 |
DeepSeek-R1-Distill-Qwen-14B | 69.7 | 80.0 | 93.9 | 59.1 | 53.1 | 1481 |
DeepSeek-R1-Distill-Qwen-32B | 72.6 | 83.3 | 94.3 | 62.1 | 57.2 | 1691 |
DeepSeek-R1-Distill-Llama-8B | 50.4 | 80.0 | 89.1 | 49.0 | 39.6 | 1205 |
DeepSeek-R1-Distill-Llama-70B | 70.0 | 86.7 | 94.5 | 65.2 | 57.5 | 1633 |
5、本地运行
DeepSeek-R1-Distill Models
例如,你可以使用 vLLM 轻松启动一个服务:
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager
你可以使用 SGLang 轻松启动一个服务:
python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2
6、实用推荐
建议在使用 DeepSeek - R1 系列模型(包括进行基准测试)时遵循以下配置,以实现预期性能:
- 将温度参数设置在 0.5 - 0.7 的范围内(建议设置为 0.6),以防止出现无休止的重复或输出内容前后不连贯的情况。
- 不要添加系统提示;所有指令都应包含在用户提示中。
- 对于数学问题,建议在提示中加入类似这样的说明:“请逐步推理,并将最终答案放在 \boxed {} 内。”
- 在评估模型性能时,建议进行多次测试并取结果的平均值。
- 此外,我们注意到 DeepSeek - R1 系列模型在回答某些查询时往往会跳过思维模式(即不输出 “<think>\n\n</think>”),这可能会对模型性能产生不利影响。为确保模型进行全面的推理,我们建议强制模型在每次输出的开头以 “<think>\n” 起始。
7、引用说明
@misc{deepseekai2025deepseekr1incentivizingreasoningcapability,title={DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning}, author={DeepSeek-AI and Daya Guo and Dejian Yang and Haowei Zhang and Junxiao Song and Ruoyu Zhang and Runxin Xu and Qihao Zhu and Shirong Ma and Peiyi Wang and Xiao Bi and Xiaokang Zhang and Xingkai Yu and Yu Wu and Z. F. Wu and Zhibin Gou and Zhihong Shao and Zhuoshu Li and Ziyi Gao and Aixin Liu and Bing Xue and Bingxuan Wang and Bochao Wu and Bei Feng and Chengda Lu and Chenggang Zhao and Chengqi Deng and Chenyu Zhang and Chong Ruan and Damai Dai and Deli Chen and Dongjie Ji and Erhang Li and Fangyun Lin and Fucong Dai and Fuli Luo and Guangbo Hao and Guanting Chen and Guowei Li and H. Zhang and Han Bao and Hanwei Xu and Haocheng Wang and Honghui Ding and Huajian Xin and Huazuo Gao and Hui Qu and Hui Li and Jianzhong Guo and Jiashi Li and Jiawei Wang and Jingchang Chen and Jingyang Yuan and Junjie Qiu and Junlong Li and J. L. Cai and Jiaqi Ni and Jian Liang and Jin Chen and Kai Dong and Kai Hu and Kaige Gao and Kang Guan and Kexin Huang and Kuai Yu and Lean Wang and Lecong Zhang and Liang Zhao and Litong Wang and Liyue Zhang and Lei Xu and Leyi Xia and Mingchuan Zhang and Minghua Zhang and Minghui Tang and Meng Li and Miaojun Wang and Mingming Li and Ning Tian and Panpan Huang and Peng Zhang and Qiancheng Wang and Qinyu Chen and Qiushi Du and Ruiqi Ge and Ruisong Zhang and Ruizhe Pan and Runji Wang and R. J. Chen and R. L. Jin and Ruyi Chen and Shanghao Lu and Shangyan Zhou and Shanhuang Chen and Shengfeng Ye and Shiyu Wang and Shuiping Yu and Shunfeng Zhou and Shuting Pan and S. S. Li and Shuang Zhou and Shaoqing Wu and Shengfeng Ye and Tao Yun and Tian Pei and Tianyu Sun and T. Wang and Wangding Zeng and Wanjia Zhao and Wen Liu and Wenfeng Liang and Wenjun Gao and Wenqin Yu and Wentao Zhang and W. L. Xiao and Wei An and Xiaodong Liu and Xiaohan Wang and Xiaokang Chen and Xiaotao Nie and Xin Cheng and Xin Liu and Xin Xie and Xingchao Liu and Xinyu Yang and Xinyuan Li and Xuecheng Su and Xuheng Lin and X. Q. Li and Xiangyue Jin and Xiaojin Shen and Xiaosha Chen and Xiaowen Sun and Xiaoxiang Wang and Xinnan Song and Xinyi Zhou and Xianzu Wang and Xinxia Shan and Y. K. Li and Y. Q. Wang and Y. X. Wei and Yang Zhang and Yanhong Xu and Yao Li and Yao Zhao and Yaofeng Sun and Yaohui Wang and Yi Yu and Yichao Zhang and Yifan Shi and Yiliang Xiong and Ying He and Yishi Piao and Yisong Wang and Yixuan Tan and Yiyang Ma and Yiyuan Liu and Yongqiang Guo and Yuan Ou and Yuduan Wang and Yue Gong and Yuheng Zou and Yujia He and Yunfan Xiong and Yuxiang Luo and Yuxiang You and Yuxuan Liu and Yuyang Zhou and Y. X. Zhu and Yanhong Xu and Yanping Huang and Yaohui Li and Yi Zheng and Yuchen Zhu and Yunxian Ma and Ying Tang and Yukun Zha and Yuting Yan and Z. Z. Ren and Zehui Ren and Zhangli Sha and Zhe Fu and Zhean Xu and Zhenda Xie and Zhengyan Zhang and Zhewen Hao and Zhicheng Ma and Zhigang Yan and Zhiyu Wu and Zihui Gu and Zijia Zhu and Zijun Liu and Zilin Li and Ziwei Xie and Ziyang Song and Zizheng Pan and Zhen Huang and Zhipeng Xu and Zhongyu Zhang and Zhen Zhang},year={2025},eprint={2501.12948},archivePrefix={arXiv},primaryClass={cs.CL},url={https://arxiv.org/abs/2501.12948},
}