【大模型理论篇】最近大火的DeepSeek-R1初探系列1

1. 背景介绍

这一整个春节，被DeepSeek-R1刷屏。各种铺天盖地的新闻以及老板发的相关信息，着实感受到DeepSeek-R1在国外出圈的震撼。

DeepSeek推出了新的推理模型：DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一个在没有经过监督微调（SFT）作为预处理步骤的情况下，通过大规模强化学习（RL）训练的模型，在推理任务上展现出了卓越的性能。借助强化学习，DeepSeek-R1-Zero 涌现出许多强大的推理行为。不过，DeepSeek-R1-Zero 也存在一些挑战，比如无尽的重复、可读性差以及语言混杂等问题。为了解决这些问题并进一步提升推理能力，引入了 DeepSeek-R1，在强化学习之前融入了冷启动数据。DeepSeek-R1 在数学、编程和推理任务上的表现可与 OpenAI-o1 相媲美。

这一次DeepSeek的最大轰动，其实是把一种接近O1的实现方案给开源了，并且采用纯RL训练实现接近O1的能力，成本大幅降低。如果没有开源，其实可能不太会有这么大的冲击。据我所知，12月份智谱也上线了GLM-ZERO-Preview的强化推理版本，但没有开源，效果也很不错。强化学习我们之前也给出了相关文章进行讨论，可以参考《大模型中的强化学习RLHF(PPO)、DPO(Direct Preference Optimization)等概念的理解与解析》。

DeepSeek一口气开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Llama 和 Qwen 从 DeepSeek-R1 蒸馏出的六个密集模型。其中，DeepSeek-R1-Distill-Qwen-32B 在多个基准测试中超越了 OpenAI-o1-mini，刷新了密集模型的最新技术水平。

2. DeepSeek-R1的训练方案

2.1 后训练

DeepSeek为了降低训练成本，并没有选择在预训练阶段进行相应的动作，而是在基模型上进行大规模强化学习，这是否也意味着目前的基模型其实已经具备足够的能力，只需要进行多步推导就可以达到相当有效的推理结果？值得我们思考。关于这个问题其实DeepSeek也给出了一定程度的回答，通过强化学习可以激发出大模型的能力。

DeepSeek直接在基模型上应用强化学习（RL），而不依赖于监督微调（SFT）作为前置步骤。这种方法使模型能够探索思维链（CoT），从而解决复杂问题，并最终发展出 DeepSeek-R1-Zero。DeepSeek-R1-Zero 展现出了自我验证、反思以及生成长思维链等能力，验证了大语言模型（LLM）的推理能力可以完全通过强化学习激发，而无需依赖监督微调。关于思维链可以参考《思维链(Chain Of Thought)、思维树(Tree Of Thought)等概念解析》。

此外开发 DeepSeek-R1 的流程，我们将会在系列文章2中进行介绍，该流程包括两个强化学习阶段，用于发现更优的推理模式并对齐人类偏好，同时包含两个监督微调阶段，为模型的推理和非推理能力提供基础。

2.2 蒸馏：小模型也可以很强大

DeepSeek证明大模型的推理模式可以被蒸馏到小模型中，从而使其性能优于通过强化学习（RL）在小模型上发现的推理模式。利用 DeepSeek-R1 生成的推理数据，对广泛使用的多个稠密模型进行了微调。评估结果表明，经过蒸馏的小型稠密模型在基准测试中表现非常出色。开源的基于 Qwen2.5 和 Llama3 系列的蒸馏模型检查点，包括 1.5B、7B、8B、14B、32B 和 70B 版本。我们曾在《模型蒸馏、大模型变小、移动端小规模大模型SLM、小模型趋势讨论》中讨论了大模型蒸馏的发展趋势，DeepSeek证明了这一个猜想的合理性和正确性。并且在《深度学习模型知识蒸馏Torch实践》中给出了相应的模型蒸馏实践。

2.3 基模型DeepSeek-V3

DeepSeek-R1-Zero 和 DeepSeek-R1 是基于 DeepSeek-V3-Base 训练的。 有关DeepSeek-V3模型架构如下，本质上还是和主流的大模型架构一致，都利用了transformer的基础单元，可以参考《通用大模型架构分类及技术统一化》。另外DeepSeek给出了其MoE的结构，新增了Shared Expert，这个其实也容易理解，除了专门的专家，还需要有一些通用的专家，来捕捉一些跨任务的共享知识，学习到一些通用特征，增强模型的通用能力，同时还可以起到一定的负载均衡、专家数量控制以及兜底策略等功能。关于MoE的探讨可以参考《Mixture of Experts(混合专家模型, MOE)》。其实这种结构的引入，也是一种实验性的结果，实验证明有效。另外DeepSeek-V3还引入了Multi-Head Latent Attention， MLA是用于高效推理的注意力机制。MLA 通过低秩联合压缩技术，减少了推理时的键值（KV）缓存，从而在保持性能的同时显著降低内存占用。

3. 评估结果

DeepSeek-R1 评估，对于所有模型，最大生成长度设置为 32,768 个 token。对于需要采样的基准测试，使用温度为 0.6，top-p 值为 0.95，并为每个查询生成 64 个响应以估计 pass@1。可以看到R1相对于o1-mini是有优势，但与o1-1217还是存在差距。现在DeepSeek-R1被吹到天上，也需要看到差距，继续进步。而且openai在一月底二月初推出了o3，各方面表现都优于R1。

4. DeepSeek-R1使用

4.1 聊天网站与 API 平台

可以在 DeepSeek 官方网站 chat.deepseek.com 上与 DeepSeek-R1 进行聊天，并开启“DeepThink”按钮。

另外也提供了与 OpenAI 兼容的 API 平台：platform.deepseek.com，不过发现目前API平台在维护中，暂时无法使用，应该是最近太火可能资源啥的跟不上，或者有别的因素考虑暂时做了关闭（2月3日）。

4.2 如何本地运行

DeepSeek-R1 模型
有关在本地运行 DeepSeek-R1 ，可以直接参考DeepSeek-V3 仓库。

DeepSeek-V3 可以通过以下硬件和开源社区软件进行本地部署：

DeepSeek-Infer Demo：我们提供了一个简单轻量级的 FP8 和 BF16 推理演示。

SGLang：全面支持 DeepSeek-V3 模型的 BF16 和 FP8 推理模式，多 token 预测功能即将推出。

LMDeploy：支持高效的 FP8 和 BF16 推理，适用于本地和云端部署。

TensorRT-LLM：目前支持 BF16 推理和 INT4/8 量化，FP8 支持即将推出。

vLLM：支持 DeepSeek-V3 模型的 FP8 和 BF16 模式，支持张量并行和流水线并行。

AMD GPU：通过 SGLang 在 AMD GPU 上以 BF16 和 FP8 模式运行 DeepSeek-V3 模型。

华为昇腾 NPU：支持在华为昇腾设备上运行 DeepSeek-V3。

DeepSeek-R1-Distill 模型
DeepSeek-R1-Distill 模型可以像 Qwen 或 Llama 模型一样使用。
例如，可以使用 vLLM 启动服务：

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

使用建议
建议在使用 DeepSeek-R1 系列模型（包括基准测试）时遵循以下配置，以达到预期性能：

将温度设置在 0.5-0.7 之间（推荐 0.6），以避免无限重复或不连贯的输出。

避免添加系统提示（system prompt）；所有指令应包含在用户提示中。

对于数学问题，建议在提示中加入如下指令：“请逐步推理，并将最终答案放在 \boxed{} 中。”

在评估模型性能时，建议进行多次测试并取平均值。

此外，观察到 DeepSeek-R1 系列模型在响应某些查询时可能会跳过思考模式（即输出 <think>\n\n</think>），这可能会影响模型的性能。为了确保模型进行充分推理，建议强制模型在每次输出时以 <think>\n 开头。因为输出的think同样会作为后续的输入，这样才能更好地推理结果。