【DeepSeek系列】01 DeepSeek-V1 快速入门

1、DeepSeek简介

2024年底,DeepSeek 相继推出了其第一代推理大模型:DeepSeek-R1-Zero 和 DeepSeek-R1。

DeepSeek-R1-Zero 是一个通过大规模强化学习(RL)训练的模型,训练过程中没有使用监督微调(SFT)作为初步步骤。该模型在推理任务上表现出色,通过强化学习,自然涌现出许多强大且有趣的推理行为。然而,DeepSeek-R1-Zero 也面临一些挑战,例如无休止的重复、可读性差以及语言混杂等问题。

为了解决这些问题并进一步提升推理性能,进一步推出了 DeepSeek-R1,该模型在强化学习之前引入了冷启动数据。DeepSeek-R1 在数学、代码和推理任务上的表现与 OpenAI-o1 相当。为了支持研究社区,开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Llama 和 Qwen 蒸馏出的六个密集模型。其中,DeepSeek-R1-Distill-Qwen-32B 在多个基准测试中超越了 OpenAI-o1-mini,为密集模型创造了新的最佳性能记录。

2、核心思想

Post-Training:在基础模型上进行大规模强化学习

DeepSeek - R1 - Zero 直接将强化学习(RL)应用于基础模型,而无需依赖监督微调(SFT)作为前期步骤。这种方法使模型能够探索思维链(CoT)以解决复杂问题。DeepSeek - R1 - Zero 展现出诸如自我验证、自我反思以及生成较长思维链等能力,这对研究界而言是一个重要的里程碑。值得注意的是,这是首个通过公开研究证实大语言模型(LLMs)的推理能力可纯粹通过强化学习激励实现,而无需监督微调的案例。这一突破为该领域未来的发展铺平了道路。

强化学习监督微调
性能方面通过与环境交互学习,可以探索出更具创造性和灵活性的策略来解决问题,有可能使模型在一些复杂任务如游戏、机器人控制等领域表现出超越人类的水平。但强化学习的训练过程往往不稳定,收敛速度较慢,可能需要大量的样本和计算资源才能取得较好的效果。基于有标注的数据进行训练,能使模型快速在特定任务上达到较高的准确性,在文本分类、情感分析等有明确标注数据的任务中表现出色。然而,如果标注数据存在偏差或不完整,模型可能会过度拟合这些数据,导致在实际应用中的泛化能力受限。
数据方面更侧重于从环境反馈中学习,对大规模有标注数据的依赖较小。高度依赖高质量的标注数据,数据的质量和数量直接影响模型的性能。
训练成本

训练过程通常需要大量的计算资源和时间,因为它需要不断地与环境进行交互和更新策略。同时,由于训练的不稳定性,可能需要多次调整超参数和重新训练,进一步增加了训练成本。

训练过程相对稳定,计算成本相对较低,尤其是在有预训练模型的基础上进行微调时,可以大大减少训练时间和资源消耗。

 DeepSeek - R1模型是DeepSeek-R1-Zero的升级版,其包含两个强化学习阶段,具体如下:

(1)面向推理的强化学习阶段

  • 目的:提升模型在编码、数学、科学和逻辑推理等推理密集型任务上的能力。
  • 过程:在利用冷启动数据微调 DeepSeek-V3-Base 后,采用与 DeepSeek-R1 - Zero 相同的强化学习训练。训练过程中,针对思维链存在的语言混合现象,引入语言一致性奖励,根据目标语言单词比例计算,最后将推理任务准确性和语言一致性奖励相加,形成最终奖励,直至模型在推理任务上收敛。

(2)全场景强化学习阶段

  • 目的:通过整合多源奖励信号和多样化数据分布,训练出能在各种场景下提供有用、无害且具备强大推理能力的模型,使模型进一步符合人类偏好,提升模型的帮助性、无害性及推理能力。
  • 过程:采用组合奖励信号和多样提示分布进行训练。对于推理数据,遵循 DeepSeek-R1 - Zero 的方法论,利用基于规则的奖励指导学习;对于通用数据,依靠奖励模型捕捉人类偏好。基于 DeepSeek - V3 管道,采用类似偏好对分布和训练提示。在帮助性方面,专注于最终摘要的实用性和相关性;在无害性方面,评估整个响应以识别和缓解潜在风险,最终整合奖励信号和多样数据分布来训练模型。

知识蒸馏:小模型也能有强大威力

DeepSeek证明了较大模型的推理模式可以提炼到较小模型中,相较于通过强化学习在小模型上发现的推理模式,这能带来更好的性能表现。开源的 DeepSeek - R1 及其应用程序编程接口(API)将有助于研究界未来提炼出更优的小模型。

作者利用 DeepSeek - R1 生成的推理数据,对研究界广泛使用的多个稠密模型进行了微调。评估结果表明,经过提炼的较小稠密模型在各项基准测试中表现极为出色。作者向社区开源了基于 Qwen2.5 和 Llama3 系列提炼得到的 15 亿、70 亿、80 亿、140 亿、320 亿和 700 亿参数的模型文件。

3、模型下载

DeepSeek-R1 Models

Model#Total Params#Activated ParamsContext LengthDownload
DeepSeek-R1-Zero671B37B128K🤗 HuggingFace
DeepSeek-R1671B37B128K🤗 HuggingFace

DeepSeek-R1-Distill Models

DeepSeek - R1 - Distill 模型是基于开源模型进行微调得到的,微调时使用了 DeepSeek - R1 生成的样本。作者对这些模型的配置和分词器进行了轻微调整。注意在使用时需使用作者提供的设置来运行这些模型。

ModelBase ModelDownload
DeepSeek-R1-Distill-Qwen-1.5BQwen2.5-Math-1.5B🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-7BQwen2.5-Math-7B🤗 HuggingFace
DeepSeek-R1-Distill-Llama-8BLlama-3.1-8B🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-14BQwen2.5-14B🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-32BQwen2.5-32B🤗 HuggingFace
DeepSeek-R1-Distill-Llama-70BLlama-3.3-70B-Instruct🤗 HuggingFace

4、模型效果

DeepSeek-R1评估

对于所有的模型,最大生成长度设定为 32768 个词元。对于需要采样的基准测试,我们使用的温度参数为 0.6,核采样概率(top - p)值为 0.95,并且针对每个查询生成 64 个回复以估算单样本通过率(pass@1)。

CategoryBenchmark (Metric)Claude-3.5-Sonnet-1022GPT-4o 0513DeepSeek V3OpenAI o1-miniOpenAI o1-1217DeepSeek R1
Architecture--MoE--MoE
# Activated Params--37B--37B
# Total Params--671B--671B
EnglishMMLU (Pass@1)88.387.288.585.291.890.8
MMLU-Redux (EM)88.988.089.186.7-92.9
MMLU-Pro (EM)78.072.675.980.3-84.0
DROP (3-shot F1)88.383.791.683.990.292.2
IF-Eval (Prompt Strict)86.584.386.184.8-83.3
GPQA-Diamond (Pass@1)65.049.959.160.075.771.5
SimpleQA (Correct)28.438.224.97.047.030.1
FRAMES (Acc.)72.580.573.376.9-82.5
AlpacaEval2.0 (LC-winrate)52.051.170.057.8-87.6
ArenaHard (GPT-4-1106)85.280.485.592.0-92.3
CodeLiveCodeBench (Pass@1-COT)33.834.2-53.863.465.9
Codeforces (Percentile)20.323.658.793.496.696.3
Codeforces (Rating)7177591134182020612029
SWE Verified (Resolved)50.838.842.041.648.949.2
Aider-Polyglot (Acc.)45.316.049.632.961.753.3
MathAIME 2024 (Pass@1)16.09.339.263.679.279.8
MATH-500 (Pass@1)78.374.690.290.096.497.3
CNMO 2024 (Pass@1)13.110.843.267.6-78.8
ChineseCLUEWSC (EM)85.487.990.989.9-92.8
C-Eval (EM)76.776.086.568.9-91.8
C-SimpleQA (Correct)55.458.768.040.3-63.7

DeepSeek-R1-Distill 评估

ModelAIME 2024 pass@1AIME 2024 cons@64MATH-500 pass@1GPQA Diamond pass@1LiveCodeBench pass@1CodeForces rating
GPT-4o-05139.313.474.649.932.9759
Claude-3.5-Sonnet-102216.026.778.365.038.9717
o1-mini63.680.090.060.053.81820
QwQ-32B-Preview44.060.090.654.541.91316
DeepSeek-R1-Distill-Qwen-1.5B28.952.783.933.816.9954
DeepSeek-R1-Distill-Qwen-7B55.583.392.849.137.61189
DeepSeek-R1-Distill-Qwen-14B69.780.093.959.153.11481
DeepSeek-R1-Distill-Qwen-32B72.683.394.362.157.21691
DeepSeek-R1-Distill-Llama-8B50.480.089.149.039.61205
DeepSeek-R1-Distill-Llama-70B70.086.794.565.257.51633

5、本地运行

DeepSeek-R1-Distill Models

例如,你可以使用 vLLM 轻松启动一个服务:

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

 你可以使用 SGLang 轻松启动一个服务:

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2

6、实用推荐

建议在使用 DeepSeek - R1 系列模型(包括进行基准测试)时遵循以下配置,以实现预期性能:

  • 将温度参数设置在 0.5 - 0.7 的范围内(建议设置为 0.6),以防止出现无休止的重复或输出内容前后不连贯的情况。
  • 不要添加系统提示;所有指令都应包含在用户提示中。
  • 对于数学问题,建议在提示中加入类似这样的说明:“请逐步推理,并将最终答案放在 \boxed {} 内。”
  • 在评估模型性能时,建议进行多次测试并取结果的平均值。
  • 此外,我们注意到 DeepSeek - R1 系列模型在回答某些查询时往往会跳过思维模式(即不输出 “<think>\n\n</think>”),这可能会对模型性能产生不利影响。为确保模型进行全面的推理,我们建议强制模型在每次输出的开头以 “<think>\n” 起始。

7、引用说明

@misc{deepseekai2025deepseekr1incentivizingreasoningcapability,title={DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning}, author={DeepSeek-AI and Daya Guo and Dejian Yang and Haowei Zhang and Junxiao Song and Ruoyu Zhang and Runxin Xu and Qihao Zhu and Shirong Ma and Peiyi Wang and Xiao Bi and Xiaokang Zhang and Xingkai Yu and Yu Wu and Z. F. Wu and Zhibin Gou and Zhihong Shao and Zhuoshu Li and Ziyi Gao and Aixin Liu and Bing Xue and Bingxuan Wang and Bochao Wu and Bei Feng and Chengda Lu and Chenggang Zhao and Chengqi Deng and Chenyu Zhang and Chong Ruan and Damai Dai and Deli Chen and Dongjie Ji and Erhang Li and Fangyun Lin and Fucong Dai and Fuli Luo and Guangbo Hao and Guanting Chen and Guowei Li and H. Zhang and Han Bao and Hanwei Xu and Haocheng Wang and Honghui Ding and Huajian Xin and Huazuo Gao and Hui Qu and Hui Li and Jianzhong Guo and Jiashi Li and Jiawei Wang and Jingchang Chen and Jingyang Yuan and Junjie Qiu and Junlong Li and J. L. Cai and Jiaqi Ni and Jian Liang and Jin Chen and Kai Dong and Kai Hu and Kaige Gao and Kang Guan and Kexin Huang and Kuai Yu and Lean Wang and Lecong Zhang and Liang Zhao and Litong Wang and Liyue Zhang and Lei Xu and Leyi Xia and Mingchuan Zhang and Minghua Zhang and Minghui Tang and Meng Li and Miaojun Wang and Mingming Li and Ning Tian and Panpan Huang and Peng Zhang and Qiancheng Wang and Qinyu Chen and Qiushi Du and Ruiqi Ge and Ruisong Zhang and Ruizhe Pan and Runji Wang and R. J. Chen and R. L. Jin and Ruyi Chen and Shanghao Lu and Shangyan Zhou and Shanhuang Chen and Shengfeng Ye and Shiyu Wang and Shuiping Yu and Shunfeng Zhou and Shuting Pan and S. S. Li and Shuang Zhou and Shaoqing Wu and Shengfeng Ye and Tao Yun and Tian Pei and Tianyu Sun and T. Wang and Wangding Zeng and Wanjia Zhao and Wen Liu and Wenfeng Liang and Wenjun Gao and Wenqin Yu and Wentao Zhang and W. L. Xiao and Wei An and Xiaodong Liu and Xiaohan Wang and Xiaokang Chen and Xiaotao Nie and Xin Cheng and Xin Liu and Xin Xie and Xingchao Liu and Xinyu Yang and Xinyuan Li and Xuecheng Su and Xuheng Lin and X. Q. Li and Xiangyue Jin and Xiaojin Shen and Xiaosha Chen and Xiaowen Sun and Xiaoxiang Wang and Xinnan Song and Xinyi Zhou and Xianzu Wang and Xinxia Shan and Y. K. Li and Y. Q. Wang and Y. X. Wei and Yang Zhang and Yanhong Xu and Yao Li and Yao Zhao and Yaofeng Sun and Yaohui Wang and Yi Yu and Yichao Zhang and Yifan Shi and Yiliang Xiong and Ying He and Yishi Piao and Yisong Wang and Yixuan Tan and Yiyang Ma and Yiyuan Liu and Yongqiang Guo and Yuan Ou and Yuduan Wang and Yue Gong and Yuheng Zou and Yujia He and Yunfan Xiong and Yuxiang Luo and Yuxiang You and Yuxuan Liu and Yuyang Zhou and Y. X. Zhu and Yanhong Xu and Yanping Huang and Yaohui Li and Yi Zheng and Yuchen Zhu and Yunxian Ma and Ying Tang and Yukun Zha and Yuting Yan and Z. Z. Ren and Zehui Ren and Zhangli Sha and Zhe Fu and Zhean Xu and Zhenda Xie and Zhengyan Zhang and Zhewen Hao and Zhicheng Ma and Zhigang Yan and Zhiyu Wu and Zihui Gu and Zijia Zhu and Zijun Liu and Zilin Li and Ziwei Xie and Ziyang Song and Zizheng Pan and Zhen Huang and Zhipeng Xu and Zhongyu Zhang and Zhen Zhang},year={2025},eprint={2501.12948},archivePrefix={arXiv},primaryClass={cs.CL},url={https://arxiv.org/abs/2501.12948}, 
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/68015.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于LabVIEW的Modbus-RTU设备通信失败问题分析与解决

在使用 LabVIEW 通过 Modbus-RTU 协议与工业设备进行通信时&#xff0c;可能遇到无法正常发送或接收指令的问题。常见原因包括协议参数配置错误、硬件连接问题、数据帧格式不正确等。本文以某 RGBW 控制器调光失败为例&#xff0c;提出了一种通用的排查思路&#xff0c;帮助开发…

密云生活的初体验

【】在《岁末随笔之碎碎念》里&#xff0c;我通告了自己搬新家的事情。乙巳年开始&#xff0c;我慢慢与大家分享自己买房装修以及在新家的居住体验等情况。 跳过买房装修的内容&#xff0c;今天先说说这三个月的生活体验。 【白河】 潮白河是海河水系五大河之一&#xff0c;贯穿…

Python爬虫:1药城店铺爬虫(完整代码)

⭐️⭐️⭐️⭐️⭐️欢迎来到我的博客⭐️⭐️⭐️⭐️⭐️ &#x1f434;作者&#xff1a;秋无之地 &#x1f434;简介&#xff1a;CSDN爬虫、后端、大数据领域创作者。目前从事python爬虫、后端和大数据等相关工作&#xff0c;主要擅长领域有&#xff1a;爬虫、后端、大数据…

openwebui入门

1 简介 ‌Open WebUI‌&#xff08;网址是openwebui.com&#xff09;是一个高度可扩展、功能强大且用户友好的自托管Web用户界面&#xff0c;专为完全离线操作设计&#xff0c;编程语言是python。它支持对接Ollama和OpenAI兼容的API的大模型。‌ Open WebUI‌在架构上是一种中…

Day36-【13003】短文,数组的行主序方式,矩阵的压缩存储,对称、三角、稀疏矩阵和三元组线性表,广义表求长度、深度、表头、表尾等

文章目录 本次课程内容第四章 数组、广义表和串第一节 数组及广义表数组的基本操作数组的顺序存储方式-借用矩阵行列式概念二维数组C语言对应的函数-通常行主序方式 矩阵的压缩存储对称矩阵和三角矩阵压缩存储后&#xff0c;采用不同的映射函数稀疏矩阵-可以构成三元组线性表三…

3-Not_only_base/2018网鼎杯

3-Not_only_base 打开code MCJIJSGKPZZYXZXRMUW3YZG3ZZG3HQHCUS 分析&#xff1a; 首先看题知道解密过程中肯定有base解密。 知识点1&#xff1a; Base64字符集&#xff1a; 包含大小写字母&#xff08;A-Z、a-z&#xff09;、数字&#xff08;0-9&#xff09;以及两个特殊字…

deepseek、qwen等多种模型本地化部署

想要在本地部署deepseek、qwen等模型其实很简单,快跟着小编一起部署吧 1 环境搭建 1.1下载安装环境 首先我们需要搭建一个环境ollama,下载地址如下 :Ollama 点击Download 根据自己电脑的系统选择对应版本下载即可 1.2 安装环境(window为例) 可以直接点击安装包进行安…

02/06 软件设计模式

目录 一.创建型模式 抽象工厂 Abstract Factory 构建器 Builder 工厂方法 Factory Method 原型 Prototype 单例模式 Singleton 二.结构型模式 适配器模式 Adapter 桥接模式 Bridge 组合模式 Composite 装饰者模式 Decorator 外观模式 Facade 享元模式 Flyw…

Idea ⽆ Maven 选项

Idea ⽆ Maven 选项 1. 在 Idea 项⽬上右键2. 选中 Maven 选项 如果在创建 Spring/Spring Boot 项⽬时&#xff0c;Idea 右侧没有 Maven 选项&#xff0c;如下图所示&#xff1a; 此时可以使⽤以下⽅式解决。 1. 在 Idea 项⽬上右键 2. 选中 Maven 选项 选中 Maven 之后&#…

用Deepseek做EXCLE文件对比

背景是我想对比两个PO系统里的一个消息映射&#xff0c;EDI接口的mapping有多复杂懂的都懂&#xff0c;它还不支持跨系统版本对比&#xff0c;所以我费半天劲装NWDS&#xff0c;导出MM到excle&#xff0c;然后问题来了&#xff0c;我需要对比两个excel文件里的内容&#xff0c;…

OpenCV:图像轮廓

目录 简述 1. 什么是图像轮廓&#xff1f; 2. 查找图像轮廓 2.1 接口定义 2.2 参数说明 2.3 代码示例 2.4 运行结果 3. 绘制图像轮廓 3.1 接口定义 3.2 参数说明 3.3 代码示例 3.4 运行结果 4. 计算轮廓周长 5. 计算轮廓面积 6. 示例&#xff1a;计算图像轮廓的面…

在Mac mini M4上部署DeepSeek R1本地大模型

在Mac mini M4上部署DeepSeek R1本地大模型 安装ollama 本地部署&#xff0c;我们可以通过Ollama来进行安装 Ollama 官方版&#xff1a;【点击前往】 Web UI 控制端【点击安装】 如何在MacOS上更换Ollama的模型位置 默认安装时&#xff0c;OLLAMA_MODELS 位置在"~/.o…

CVPR | CNN融合注意力机制,芜湖起飞!

**标题&#xff1a;**On the Integration of Self-Attention and Convolution **论文链接&#xff1a;**https://arxiv.org/pdf/2111.14556 **代码链接&#xff1a;**https://github.com/LeapLabTHU/ACmix 创新点 1. 揭示卷积和自注意力的内在联系 文章通过重新分解卷积和自…

LOCAL_PREBUILT_JNI_LIBS使用说明

LOCAL_PREBUILT_JNI_LIBS使用说明 使用LOCAL_PREBUILT_JNI_LIBS&#xff0c;可用于控制APK集成时&#xff0c;其相关so的集成方式。 比如&#xff0c;用于将APK中的so&#xff0c;抽取出来。 LOCAL_PREBUILT_JNI_LIBS : \lib/arm64-v8a/libNativeCore.so \lib/arm64-v8a/liba…

Java中的object类

1.Object类是什么&#xff1f; &#x1f7ea;Object 是 Java 类库中的一个特殊类&#xff0c;也是所有类的父类(超类),位于类继承层次结构的顶端。也就是说&#xff0c;Java 允许把任何类型的对象赋给 Object 类型的变量。 &#x1f7e6;Java里面除了Object类&#xff0c;所有的…

uniapp小程序自定义中间凸起样式底部tabbar

我自己写的自定义的tabbar效果图 废话少说咱们直接上代码&#xff0c;一步一步来 第一步&#xff1a; 找到根目录下的 pages.json 文件&#xff0c;在 tabBar 中把 custom 设置为 true&#xff0c;默认值是 false。list 中设置自定义的相关信息&#xff0c; pagePath&#x…

四、GPIO中断实现按键功能

4.1 GPIO简介 输入输出&#xff08;I/O&#xff09;是一个非常重要的概念。I/O泛指所有类型的输入输出端口&#xff0c;包括单向的端口如逻辑门电路的输入输出管脚和双向的GPIO端口。而GPIO&#xff08;General-Purpose Input/Output&#xff09;则是一个常见的术语&#xff0c…

【Elasticsearch】post_filter

post_filter是 Elasticsearch 中的一种后置过滤机制&#xff0c;用于在查询执行完成后对结果进行过滤。以下是关于post_filter的详细介绍&#xff1a; 工作原理 • 查询后过滤&#xff1a;post_filter在查询执行完毕后对返回的文档集进行过滤。这意味着所有与查询匹配的文档都…

从零开始:用Qt开发一个功能强大的文本编辑器——WPS项目全解析

文章目录 引言项目功能介绍1. **文件操作**2. **文本编辑功能**3. **撤销与重做**4. **剪切、复制与粘贴**5. **文本查找与替换**6. **打印功能**7. **打印预览**8. **设置字体颜色**9. **设置字号**10. **设置字体**11. **左对齐**12. **右对齐**13. **居中对齐**14. **两侧对…

【IoCDI】_Spring的基本扫描机制

目录 1. 创建测试项目 2. 改变启动类所属包 3. 使用ComponentScan 4. Spring基本扫描机制 程序通过注解告诉Spring希望哪些bean被管理&#xff0c;但在仅使用Bean时已经发现&#xff0c;Spring需要根据五大类注解才能进一步扫描方法注解。 由此可见&#xff0c;Spring对注…