DeepSeek v3 技术报告阅读笔记

在这里插入图片描述

  1. 本文参考 DeepSeek-v3 / v2 / v1 Technical Report 及相关参考模型论文
  2. 本文不包括基础的知识点讲解,为笔记/大纲性质而非教程,建议阅读技术报告原文
  3. 交流可发送至邮箱 henryhua0721@foxmail.com

在这里插入图片描述
在这里插入图片描述

架构核心

核心:

  • MLA 高效推理
  • DeepSeekMOE 更经济的训练
  • MTP 提高模型性能

架构上看主要改进在于Attention层和FFN层:
在这里插入图片描述

MLA

参考deepseekv2的technical report内容

KV cache

类GPT模型的decoder架构在推理时一个个token输出,每一次输出都作为下一次输出的输入,带来大量重复计算。KV cache空间换时间,降低推理复杂度

w/o KV cache:

每一次推理计算attention时,当前token前的token QK计算在前面步骤被重复计算,结果可以使用KV cache存储而非再次计算。
在这里插入图片描述
huggingface/transformers/gpt2的KV cache代码:

        if layer_past is not None:past_key, past_value = layer_pastkey_states = torch.cat((past_key, key_states), dim=-2)value_states = torch.cat((past_value, value_states), dim=-2)if use_cache is True:present = (key_states, value_states)else:present = None

KV cache存在的问题:对GPU memory的需求巨大
解决办法:

  • Quantization
  • (Deepseek)减小输入以减小cache

Letent KV

在这里插入图片描述
使用letent KV替代传统KV存储到cache中。对kv压缩
在这里插入图片描述

  • 传统attention:k = Wh / v = Wh
  • latent KV:使用更小的letent变量c作为中间变量,可以表示 k/v,存储cache

在推理的时候本质上不需要计算出单独的k和v变量:
在这里插入图片描述

计算q*kT的时候可以使用线性代数运算使得不需要单独提出参数矩阵,而是可以化为大的参数矩阵(图中 W^ QT 和 W^ UK 相乘)

同样对key压缩
在这里插入图片描述

Decouple RoPE

参考:Multi-Head Latent Attention: Boosting Inference Efficiency
RoPE的引入导致q和k都被R矩阵加权,对KV cache造成的损害:
在这里插入图片描述

解决办法:引入新的multi-head queries(和不做低秩分解的q相同)
在这里插入图片描述

  • 每个 attn 层额外增加 multi-head queries q^R
  • 添加共享的key用于 k^R
  • 再将 q^ R 和低秩分解的 q、k^R 和低秩分解的k concate起来

huggingface discussion上似乎提供了更sufficient方法:将rope part和none-rope part进行sum up而非concatenate
(链接找不到了qwq)

在这里插入图片描述

KV cache存储的:

  • c^KV
  • k^R

DeepSeekMOE

MOE

大语言模型主要的计算量集中在attention层,参数量集中在FFN层。
MoE的本质是将FFN分组。好处在于模型易于scale up以及降低cost。
在这里插入图片描述
Gate将输入计算前往各个FFN分组的概率:

  • Dense MoE:计算每个分支的概率,并进行加权
  • Sparse MoE:取概率top-k

每个expert是两个MLP层。
传统MoE的问题:学习知识重合、expert之间无法区分 -> DeepSeekMOE

Load Balance

传统MOE训练出现马太效应:某个单个expert训练较好,引导gate划分更多token给它训练,导致单个expert过拟合、其他expert欠拟合。

Load balance的解决办法:

  • (Switch transformer) loss control:在损失函数中制约
  • (DeepSeek) loss free:添加bias

在这里插入图片描述

DeepSeekMOE

  • 划分更小的exert
  • 设置某些共享expert学习常识

在这里插入图片描述

  • Fine-grained Expert Segmentation
    • N expert -> 2N expert,top2 -> top4。
    • 降低每个expert(两层MLP)中间层宽度,使得model整体参数量没有变大,但是减小了模型variance
  • Shared Expert Isolation:shared expert
    • 具有error correction机制:大多数问题shared expert会回答(通),其他expert(专)进行correct

load balance

  • 添加bias
    在这里插入图片描述

通过添加bias手动提高softmax后某些expert的概率。在训练中,观察后不断进行调整(但是不属于loss的范畴)

  • sequence-wise balance loss(区别于传统的token-wise)
    在这里插入图片描述
  • Node-limited Routing:训练时限制每个token只送到M个nodes中,降低通信成本。
  • No token-dropping:token-dropping是对于load balance比较高的expert drop掉新的token input(直接过残差层不经过FFN)。这里不使用,因为上面的方法已解决load balance。

MTP

Deepseek MTP参考:

  1. Meta MTP
  2. EAGLE
    在这里插入图片描述

当前language model的训练方式导致的问题:

  • teaching force导致training每次输入的都是perfect content
  • NTP导致近视👓,planning能力差
  • 每次只预测下一个token,training signal较弱

-> 一次预测多个token :MTP

Meta MTP

将head分组,每个head负责一个token
在这里插入图片描述

  • training singal更强(每一层都有反馈)
  • 一次预测4个token,加强planning能力
  • 缓解teaching force问题,不再过于local

但是并行heads违背了auto regression的想法,打破前后依赖 -> EAGLE(使用auto regression heads)

Speculative Decoding

LLM inference的问题 -> Slow

  • KV cache
  • speculative decoding
    • quick guess(小模型,快但精度低)
    • cheap verification(大模型,慢但精度高)

实现方式

  • independent:两个LLM一大一小
    • 简化过程:小LM生成sequence后给大LM计算每个token概率,若一致则accept,否则从reject token开始重新生成
    • 实际上使用小LM加速大LM生成过程,大LM生成过程中实时纠错
      在这里插入图片描述
  • self:只借助大LLM中间某些head实现
    • Medusa / EAGLE 模型
      在这里插入图片描述

DeepSeek MTP

使用类似EAGLE的casual arc(而不是parallel)替换META MTP中的实现:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/71083.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

浏览器安全学习

浏览器特性 会将一些特殊符号当做字母进行解析,此时一个符号可能会被解析成两个到三个字母,这样子如果有漏洞对输入做了限制,黑客就可以利用这个特性来绕过某些漏洞中长度限制。某些特殊字符或者其他国家的文字和某些字母的形状一模一样&…

2025年AI免费大战:从DeepSeek到GPT-5的商业逻辑与行业变革

引言:人工智能行业的2025年重大转折 2025年伊始,人工智能行业的竞争格局发生了深刻变化,尤其是以DeepSeek为代表的新兴力量,通过低成本开源策略迅速崛起,迫使OpenAI、百度文心一言等人工智能巨头纷纷调整策略&#xf…

Word写论文常用操作的参考文章

1.插入多个引用文献:word中交叉引用多篇参考文献格式[1-2]操作以及显示错误问题 更改左域名,输入 \#"[0" 更改右域名,输入 \#"0]" 2.插入题注:word 中添加图片题注、目录、内部链接 3.插入公式编号&#x…

国产化替代大势所趋,ARM工控机的未来之路

在全球技术竞争加剧和国家政策推动的背景下,中国正在经历一场前所未有的国产化替代浪潮。在这个过程中,基于ARM架构的工业控制计算机(简称ARM工控机)迎来了前所未有的发展机遇,同时也面临着诸多挑战。 机遇 技术创新驱…

uniapp商城之登录模块

文章目录 一、小程序快捷登录1.定义接口2.获取登录凭证 code3.获取手机号并登录 二、模拟快捷登录1.封装模拟登录API2.调用模拟登录 三、保存登录信息1.类型声明2.状态管理3.成功提示并跳转页面 一、小程序快捷登录 1.定义接口 2.获取登录凭证 code 3.获取手机号并登录 注意&a…

C++-----------酒店客房管理系统

酒店客房管理系统 要求: 1.客房信息管理:包括客房的编号、类型、价格、状态等信息的录入和修改; 2.顾客信息管理:包括顾客的基本信息、预订信息等的管理; 3.客房预订:客户可以根据需要进行客房的预订,系统会自动判断客房的可用情况; 4.入住管理:客户入住…

电动汽车电池监测平台系统设计(论文+源码+图纸)

1总体设计 本次基于单片机的电池监测平台系统设计,其整个系统架构如图2.1所示,其采用STC89C52单片机作为控制器,结合ACS712电流传感器、TLC1543模数转换器、LCD液晶、DS18B20温度传感器构成整个系统,在功能上可以实现电压、电流、…

2025年02月11日Github流行趋势

项目名称:unsloth 项目地址url:https://github.com/unslothai/unsloth项目语言:Python历史star数:27175今日star数:1024项目维护者:danielhanchen, shimmyshimmer, Erland366, Datta0, xyangk项目简介&…

[qt5学习笔记]用vs2022(msvc2017)+copilot进行QtWidgetsApplication源码解析

一直没深入了解qt,又一段时间没写qt,重新捡起来。 开发环境 本地vs2022(msvc2017, v14.30)先升级到最新版本,方便使用copilot。 参考 VS2022QT5环境搭建 下载 qt5.14.2 用vs的qt插件设置qt5.14.2x86路径,x64版本未安装。 创建一…

家里装修想用投影仪,如何选择?装修中应该注意什么?

越来越多的业主在装修的时候抛弃了传统的电视,采用投影仪。 和这些业主聊天,选用投影仪有两个目的,第1是把电视机拿掉,这样能让家里的小朋友不看电视,保护小朋友的眼睛。 第2是选用投影仪,幕布都会装的比较…

javaEE初阶————多线程初阶(4)

8.1 单例模式 这又是什么新的神奇玩意呢,我们先不谈单例模式,先来谈谈设计模式,什么是设计模式呢,我们只需要用设计模式就好了,而大佬们考虑的就多了,这些设计模式就像棋谱,只要按照棋谱来下&am…

能源物联网数据采集网关 多协议对接解决方案

安科瑞刘鸿鹏 摘要 随着配电系统智能化需求的提升,现代配电物联网(IoT)系统对数据采集、传输、处理及远程管理能力提出了更高要求。智能网关作为连接现场设备与上层管理平台的核心枢纽,其性能直接影响系统的实时性、可靠性与扩展…

Node.js 中的 Event 模块详解

Node.js 中的 Event 模块是实现事件驱动编程的核心模块。它基于观察者模式,允许对象(称为“事件发射器”)发布事件,而其他对象(称为“事件监听器”)可以订阅并响应这些事件。这种模式非常适合处理异步操作和…

Unity开发抖音小游戏播放视频

Unity开发抖音小游戏播放视频 介绍抖音小程序ios端视频无法播放RenderTexture问题总结 介绍 最近在做抖音小游戏播放视频,这里我使用的是Unity原生的VideoPlayer组件来播放视频,这里总结了一下我相关的报错以及能够正常播放视频的代码。如果还不知道怎么…

网络安全抑制 缓解 根除 恢复 网络安全如何解决

一、网络安全 网络是指网络系统的硬件、软件及其系统中的数据受到保护,不因偶然的或者恶意的原因而遭受到破坏、更改、泄露,系统连续可靠正常地运行,网络服务不中断。 二、如何防范网络安全问题 1、防范网络病毒。 2、配置防火墙。 3、采…

自有证书的rancher集群使用rke部署k8s集群异常

rancher使用自签域名,或者商业证书容易踩到的坑。 最开始的报错: docker logs kubelet‘s id E0214 13:04:14.590268 9614 pod_workers.go:1300] "Error syncing pod, skipping" err"failed to \"StartContainer\" for …

开源的轻量级分布式文件系统FastDFS

FastDFS 是一个开源的轻量级分布式文件系统,专为高性能的分布式文件存储设计,主要用于解决海量文件的存储、同步和访问问题。它特别适合以中小文件(如图片、视频等)为载体的在线服务,例如相册网站、视频网站等。 FastD…

Github 2025-02-12 C开源项目日报 Top7

根据Github Trendings的统计,今日(2025-02-12统计)共有7个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量C项目7Python项目2OpenSSL - 强大的开源加密工具包 创建周期:4012 天开发语言:C协议类型:Apache License 2.0Star数量:23449 个Fork数量:10…

深入浅出:Python 中的异步编程与协程

引言 大家好,今天我们来聊聊 异步编程 和 协程,这是近年来编程语言领域中的热点话题之一,尤其在 Python 中,它作为一种全新的编程模型,已经成为处理 IO密集型 任务的强力工具。尽管很多人对异步编程望而却步&#xff0…

高级 Conda 使用:环境导出、共享与优化

1. 引言 在 Conda 的基础包管理功能中,我们了解了如何安装、更新和卸载包。但对于开发者来说,如何更好地管理环境、导出环境配置、共享环境,以及如何优化 Conda 的使用效率,才是提高工作效率的关键。本篇博客将进一步深入 Conda …