【AI学习】DeepSeek-V3 技术报告学习:总体架构

翻了一下DeepSeek-V3 技术报告学习,太长,只是大概翻了一下,其中Multi-Token Prediction的技术就很亮眼。

摘要

本文介绍了DeepSeek-V3,这是一个拥有671B总参数的强大混合专家(MoE)语言模型,每个标记激活37B参数。为了实现高效的推理和成本效益的训练,DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构,这些架构在DeepSeek-V2中已经得到了充分的验证。此外,DeepSeek-V3率先采用了一种无辅助损失的策略来进行负载平衡,并设置了多标记预测训练目标以增强性能。我们在14.8万亿多样化和高质量的标记上预训练DeepSeek-V3,随后进行监督式微调和强化学习阶段,以充分发挥其能力。全面的评估表明,DeepSeek-V3超越了其他开源模型,并达到了与领先的闭源模型相当的性能。尽管性能出色,DeepSeek-V3的完整训练仅需要2.788M H800 GPU小时。此外,其训练过程非常稳定。在整个训练过程中,我们没有遇到任何不可恢复的损失峰值或执行任何回滚操作。模型检查点可在GitHub上找到: https://github.com/deepseek-ai/DeepSeek-V3

在这里插入图片描述

1. Introduction

当然,以下是文章《DeepSeek-V3 Technical Report》中第1部分“Introduction”的忠实翻译:

  1. 引言

近年来,大型语言模型(LLMs)经历了快速的迭代和演化(Anthropic, 2024; Google, 2024; OpenAI, 2024a),逐步缩小了与人工通用智能(AGI)之间的差距。除了闭源模型外,包括DeepSeek系列(DeepSeek-AI, 2024a,b,c; Guo et al., 2024)、LLaMA系列(AI@Meta, 2024a,b; Touvron et al., 2023a,b)、Qwen系列(Qwen, 2023, 2024a,b)和Mistral系列(Jiang et al., 2023; Mistral, 2024)在内的开源模型也在取得重大进展,努力缩小与闭源对手之间的差距。为了进一步推动开源模型能力的发展,我们扩展了我们的模型,并引入了DeepSeek-V3,这是一个拥有671B参数的大型MoE模型,其中每个标记激活了37B参数。

具有前瞻性的视角,我们始终致力于强大的模型性能和经济的成本。因此,在架构方面,DeepSeek-V3继续采用多头潜在注意力(MLA)(DeepSeek-AI, 2024c)以实现高效的推理,以及DeepSeekMoE(Dai et al., 2024)以实现成本效益的训练。这两种架构已在DeepSeek-V2(DeepSeek-AI, 2024c)中得到验证,证明了它们在保持强大模型性能的同时,能够实现高效的训练和推理。除了基本架构之外,我们还实施了两个额外的策略来进一步增强模型能力。首先,DeepSeek-V3率先采用了一种无辅助损失的策略(Wang et al., 2024a)来进行负载平衡,旨在最小化因鼓励负载平衡而对模型性能产生的不利影响。其次,DeepSeek-V3采用了多Token预测(MTP:Multi-Token Prediction)训练目标,我们观察到这增强了评估基准上的总体性能。

为了实现高效的训练,我们支持FP8混合精度训练,并为训练框架实施了全面的优化。低精度训练已成为高效训练的一个有前途的解决方案(Dettmers et al., 2022; Kalamkar et al., 2019; Narang et al., 2017; Peng et al., 2023b),其发展与硬件能力的进步(Luo et al., 2024; Micikevicius et al., 2022; Rouhani et al., 2023a)密切相关。在这项工作中,我们引入了一个FP8混合精度训练框架,并首次验证了其在极大规模模型上的可行性和有效性。通过支持FP8计算和存储,我们实现了加速训练和减少GPU内存使用。至于训练框架,我们为有效的流水线并行设计了DualPipe算法,它具有较少的流水线气泡,并且通过计算通信重叠,隐藏了训练期间的大部分通信。这种重叠确保了,随着模型的进一步扩展,只要我们保持恒定的计算与通信比率,我们仍然可以在节点间使用细粒度专家,同时实现接近零的全对全通信开销。此外,我们还开发了高效的跨节点全对全通信内核,以充分利用InfiniBand(IB)和NVLink带宽。此外,我们精心优化了内存占用,使得训练DeepSeek-V3无需使用昂贵的张量并行。结合这些努力,我们实现了高训练效率。

在预训练期间,我们在14.8T高质量和多样化的标记上训练DeepSeek-V3。预训练过程非常稳定。在整个训练过程中,我们没有遇到任何不可恢复的损失峰值或需要回滚。接下来,我们对DeepSeek-V3进行了两个阶段的上下文长度扩展。在第一阶段,最大上下文长度扩展到32K,在第二阶段,进一步扩展到128K。随后,我们在DeepSeek-V3的基础模型上进行后训练,包括监督式微调和强化学习,以使其与人类偏好保持一致,并进一步释放其潜力。在后训练阶段,我们从DeepSeekR1系列模型中提取推理能力,同时仔细保持DeepSeek-V3的输出风格和长度的平衡。

在这里插入图片描述

DeepSeek-V3的主要贡献,包括:

架构:创新的负载平衡策略和训练目标
在DeepSeek-V2的高效架构基础上,DeepSeek-V3率先采用了无辅助损失的负载平衡策略,旨在最小化因鼓励负载平衡而对模型性能产生的不利影响。
研究并证明了多标记预测(MTP)目标对模型性能有益,并且可以用于推测性解码以加速推理。
预训练:追求终极训练效率
设计了一个FP8混合精度训练框架,并首次验证了FP8训练在极大规模模型上的可行性和有效性。
通过算法、框架和硬件的共同设计,克服了跨节点MoE训练中的通信瓶颈,实现了接近完全的计算-通信重叠,显著提高了训练效率并降低了训练成本,使得模型规模的进一步扩展不再增加额外开销。
以经济的成本完成了DeepSeek-V3在14.8T标记上的预训练,产生了目前最强的开源基础模型。预训练后的训练阶段仅需要额外的0.1M GPU小时。
后训练:从DeepSeek-R1中的知识蒸馏
引入了一种创新的方法,从长链思考(CoT)模型,特别是DeepSeek R1系列模型中,提取推理能力到标准LLMs,特别是DeepSeek-V3中。该流程将R1的验证和反思模式优雅地整合到DeepSeek-V3中,并显著提高了其推理性能。同时,也控制了DeepSeek-V3的输出风格和长度。

2. Architecture

我们首先介绍了DeepSeek-V3的基本架构,其特征是用于高效推理的多头潜在证明(MLA)(DeepSeek AI,2024c)和用于经济训练的DeepSeekMoE(Dai等人,2024)。然后,我们提出了一个多Token预测(MTP:Multi-Token Prediction)训练目标,我们观察到该目标可以提高评估基准的整体性能。对于其他未明确提及的细节,DeepSeek-V3遵循DeepSeek V2(DeepSeek AI,2024c)的设置。

2.1. Basic Architecture

在这里插入图片描述
DeepSeek-V3的基本架构仍然是基于Transformer(Vaswani et al., 2017)框架。为了实现高效的推理和经济的训练,DeepSeek-V3也采用了MLA(Multi-head Latent Attention)和DeepSeekMoE,这些已经在DeepSeek-V2中得到了充分的验证。与DeepSeek-V2相比,一个例外是我们还引入了一个无辅助损失的负载平衡策略(Wang et al., 2024a)用于DeepSeekMoE,以减轻为了确保负载平衡而对性能造成的影响。图2展示了DeepSeek-V3的基本架构,我们将在本节简要回顾MLA和DeepSeekMoE的细节。

2.1.1. Multi-Head Latent Attention

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.1.2. DeepSeekMoE with Auxiliary-Loss-Free Load Balancing(无辅助损失的DeepSeekMoE负载平衡)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.2. Multi-Token Prediction

在这里插入图片描述
受Gloeckle等人(2024年)的启发,我们研究并为DeepSeek-V3设置了一个多Token预测(MTP)目标,该目标将每个位置的预测范围扩展到多个未来令牌。一方面,MTP目标增加了训练信号的密度,可能会提高数据效率。另一方面,MTP可能使模型能够预先规划其表示,以更好地预测未来的令牌。图3说明了我们MTP实现的情况。与Gloeckle等人(2024年)不同,他们使用独立的输出头并行预测D个额外的Token,我们顺序预测额外的Token,并在每个预测深度保持完整的因果链。我们在本节介绍我们的MTP实现的详细信息。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

备注

大概看下来,感觉梁文锋这个人真是厉害。作为扩展(八卦),可以继续阅读两篇文章
1、《揭秘DeepSeek:一个更极致的中国技术理想主义故事》
2、《连续30年不亏钱的传奇基金经理西蒙斯:人生还有两个目标》,作为量化基金的传奇人物,西蒙斯是梁文锋非常推崇的人物,可以一并阅读

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/890969.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C语言-数据结构-图

目录 一,图的概念 1,图的定义 2,图的基本术语 二,图的存储结构 1,邻接矩阵 2,邻接表 三,图的遍历 1,深度优先搜索 2,广度优先搜素 四,生成树和最小生成树 1,生成树的特点: 2,最小生成树 (1)普利姆算法Prim (2)普里姆算法思路 五,最短路径 1,Dijkstra算法 2,Fl…

C语言-数据结构-查找

目录 一,查找的概念 二,线性查找 1,顺序查找 2,折半查找 3,分块查找 三,树表的查找 1,二叉排序树 (1)查找方式: (2)、二叉排序树的插入和生成 (3)、二叉排序树的删除 2,平衡二叉树 (1)、什么是平衡二叉树 (2)、平衡二叉树的插入调整 (1)L…

【微信小程序】4plus|搜索框-历史搜索 | 我的咖啡店-综合实训

升级版1-清空全部的再次确认 实现功能: 历史搜索记录展示-历史搜索记录展示10条点击跳转-点击历史搜索记录可同步到搜索框并自动搜索全部删除-可一次性全部删除历史搜索记录全部删除-有再次确认操作展示 进行搜索后留下搜索记录 点击垃圾桶图标,显示【清空全部】 点击【清…

macrodroid通过http请求控制手机运行宏

macrodroid adb命令 adb shell pm grant com.arlosoft.macrodroid android.permission.WRITE_SECURE_SETTINGS例:http请求手机播放指定MP3文件 声音素材_电量过低提醒 新建一个宏 添加触发器-连接-http服务器请求 路径随意填,最好不要有特殊符号,不然浏览器识别链接会出错,…

【CSS in Depth 2 精译_098】17.3:CSS 动画延迟技术与填充模式设置 + 17.4:通过 CSS 动画传递意图的秘诀

当前内容所在位置(可进入专栏查看其他译好的章节内容) 第五部分 添加动效 ✔️【第 17 章 动画】 ✔️ 17.1 关键帧17.2 3D 变换下的动画设置 17.2.1 添加动画前页面布局的构建17.2.2 为布局添加动画 17.3 动画延迟与填充模式 ✔️17.4 通过动画传递意图…

慧集通客户案例:致远OA与熵基考勤机集成方案

本原型公司是一家专注大健康产业的综合性高新科技形实体企业,按照单位的战略业务布局,围绕“做强做优、世界一流”的目标,加快内外部资源整合、加强业务协同、优化资源配置,有序推进大健康及相关产业的有机融合,加快构…

深度学习笔记(6)——循环神经网络RNN

循环神经网络 RNN 核心思想:RNN内部有一个“内部状态”,随着序列处理而更新 h t f W ( h t − 1 , x t ) h_tf_W(h_{t-1},x_t) ht​fW​(ht−1​,xt​) h t h_t ht​是new state, h t − 1 h_{t-1} ht−1​是old state, x t x_t xt​是当前时间步的输入,所有时间步共享 f W…

电脑卡顿救星,Mem Reduct 智能清理 10%以上内存

作为一款专业的内存优化工具,Mem Reduct凭借其强大的功能和极致的性能表现,成为众多用户管理系统内存的首选软件。它采用先进的内存管理算法,通过调用系统底层API接口,能够智能识别并清理各类内存占用,包括但不限于系统…

kibana启动报错:Invalid character in header content [“kbn-name“]

启动时候kibana报错: 打开 kibana配置文件,config/kibana.yml,配置上server.name即可,如下:

短视频矩阵系统后端源码搭建实战与技术详解,支持OEM

一、引言 随着短视频行业的蓬勃发展,短视频矩阵系统成为了众多企业和创作者进行多平台内容运营的有力工具。后端作为整个系统的核心支撑,负责处理复杂的业务逻辑、数据存储与交互,其搭建的质量直接影响着系统的性能、稳定性和可扩展性。本文将…

sql group by 多个字段例子

有表如下; 获取某年份、某地区、某产品的销售总额, 或者根据需要把字段顺序换一下; insert into sales (product, year, region, amount) values (飞机,2000,东部,5); insert into sales (product, year, region, amount) values (飞机,2001,…

RBAC权限控制

1、Spring Security 是一个功能强大的Java安全框架,它提供了全面的安全认证和授权的支持。 2 SpringSecurity配置类(源码逐行解析) Spring Security的配置类是实现安全控制的核心部分 开启Spring Security各种功能,以确保Web应…

ArcGIS Pro地形图四至角图经纬度标注与格网标注

今天来看看ArcGIS Pro 如何在地形图上设置四至角点的经纬度。方里网标注。如下图的地形图左下角经纬度标注。 如下图方里网的标注 如下为本期要介绍的例图,如下: 图片可点击放大 接下来我们来介绍一下 推荐学习:GIS入门模型构建器Arcpy批量…

Kubernetes Gateway API-2-跨命名空间路由

1 跨命名空间路由 Gateway API 具有跨命名空间路由的核心支持。当多个用户或团队共享底层网络基础设施时,这很有用,但必须对控制和配置进行分段,以尽量减少访问和容错域。 Gateway 和 Route(HTTPRoute,TCPRoute,GRPCRoute) 可以部署到不同的命名空间中,路由可以跨命名空间…

Web API和Web Services的区分

前些年一提及自动化测试,大多是指UI界面层的自动化测试。近几年,随着分层自动化测试概念的兴起,以及自动化测试自身的发展与细分,自动化测试包含了更多的内容。 API(Application ProgrammingInterface,应用程序编程接…

使用c#制作坐标

1、建立坐标 2、坐标系的放大缩小 3、标定刻度 4、实时显示鼠标在坐标系上的坐标 using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Drawing.Drawing2D; using System.Linq; using S…

JVM实战—JVM内存设置与对象分配流转

1.JVM内存划分的原理细节 (1)背景引入 接下来介绍JVM内存的分代模型:新生代、老年代、永久代。现在已知代码里创建的对象,都会进入到Java堆内存中。如下所示,main()方法会周期性执行loadReplicasFromDisk()方法来加载副本数据。 public class…

Debian 12 安装配置 fail2ban 保护 SSH 访问

背景介绍 双十一的时候薅羊毛租了台腾讯云的虚机, 是真便宜, 只是没想到才跑了一个月, 系统里面就收集到了巨多的 SSH 恶意登录失败记录. 只能说, 互联网真的是太不安全了. 之前有用过 fail2ban 在 CentOS 7 上面做过防护, 不过那已经是好久好久之前的故事了, 好多方法已经不…

ASP.NET Core Web API Hangfire

ASP.NET Core Web API Hangfire 前言一、安装二、相关代码1.代码片段2.代码片段3.运行效果 三、测试代码1.即发即弃作业2.延迟作业3.重复作业4.延续作业5.页面调度作业 前言 👨‍💻👨‍🌾📝记录学习成果,以…

实用技巧:关于 AD修改原理图库如何同步更新到有原理图 的解决方法

若该文为原创文章,转载请注明原文出处 本文章博客地址:https://hpzwl.blog.csdn.net/article/details/144738332 长沙红胖子Qt(长沙创微智科)博文大全:开发技术集合(包含Qt实用技术、树莓派、三维、OpenCV…