网站制作高端网站建设/信息流广告怎么投放

网站制作高端网站建设,信息流广告怎么投放,泰安网站建设公司,妇产医院网络建设公司项目地址:https://github.com/deepseek-ai/DeepEP 开源日历:2025-02-24起 每日9AM(北京时间)更新,持续五天 (2/5)! ​ ​ 引言 在大模型训练中,混合专家模型(Mixture-of-Experts, MoE)因其动…

项目地址:https://github.com/deepseek-ai/DeepEP
开源日历:2025-02-24起 每日9AM(北京时间)更新,持续五天 (2/5)!

引言

在大模型训练中,混合专家模型(Mixture-of-Experts, MoE)因其动态路由和高效计算特性备受关注。然而,随着模型规模的扩大,GPU 间的数据通信成为关键瓶颈——尤其是在专家并行(Expert Parallelism, EP)场景中,数据需要在多个 GPU 间高效分发与合并。传统通信库往往难以兼顾高吞吐与低延迟,而 DeepEP 的诞生正是为了解决这一难题。


核心功能与设计理念

1. 什么是 DeepEP?

DeepEP 是由 DeepSeek 开源的高性能通信库,专为 MoE/EP 场景设计。其核心目标是通过优化 GPU 间数据传输,实现:

  • 训练加速:提升多 GPU 协作效率
  • 推理降延迟:支持实时推理任务(如 ChatGPT)
  • 资源高效利用:减少 GPU 闲置时间

2. 技术亮点解析

(1)域间带宽优化

针对 MoE 的非对称通信场景(如 NVLink 域到 RDMA 域)深度优化:

  • NVLink(节点内 GPU 互联):带宽达 160 GB/s
  • RDMA(跨节点 GPU 互联):带宽达 50 GB/s
    通过定制内核实现数据转发路径优化,避免带宽浪费。
(2)低精度计算支持
  • FP8 分发 + BF16 合并:在保证精度的同时减少 50% 显存占用
  • 动态精度切换:适应不同阶段的计算需求
(3)通信-计算重叠


通过 Hook 机制实现:

  • 前向传播时后台预加载数据
  • 反向传播时异步传输梯度
    关键优势:零额外 SM 资源占用,最大化 GPU 利用率

性能实测

测试环境

  • 硬件:NVIDIA H800 GPU + CX7 InfiniBand 400Gb/s RDMA 网卡
  • 软件:CUDA 12.3 + PyTorch 2.1

性能数据

常规模式(训练/预填充推理)
场景通信类型吞吐量
节点内(8卡)NVLink153 GB/s
跨节点(64卡)RDMA46 GB/s
低延迟模式(推理生成)
专家数延迟RDMA 带宽
8163 μs46 GB/s
128192 μs39 GB/s

注:在 128 token 批处理下,延迟仅增加 18%,展现极强的扩展性


架构设计与关键技术

1. 分层通信模型

  • 分发阶段:通过原子操作动态分配 token 到专家
  • 组合阶段:基于元数据快速聚合结果

2. 推理优化黑科技

def low_latency_dispatch(hidden_states, topk_idx):# 后台启动 RDMA 传输recv_hidden, hook = _buffer.low_latency_dispatch(...)# 立即返回控制权,计算与传输并行return recv_hidden, hook

通过 纯 RDMA 传输 + 双缓冲机制,实现:

  • 163 μs 端到端延迟
  • 零 CUDA 核占用

快速入门指南

1. 环境要求

组件版本要求
GPUHopper 架构(H100/H800)
Python3.8+
CUDA12.3+
PyTorch2.1+
网络NVLink + RDMA
  • CUDA安装指南
  • GPU-pytorch 安装指南

2. 安装步骤

# 安装定制版 NVSHMEM
git clone https://github.com/NVIDIA/nvshmem
cd nvshmem && git apply DeepEP/third-party/nvshmem.patch
make -j 16 && make install# 安装 DeepEP
NVSHMEM_DIR=/path/to/nvshmem python setup.py install

3. 基础使用示例

import deep_ep# 初始化通信缓冲区
buffer = deep_ep.Buffer(group=dist.group.WORLD,num_nvl_bytes=1e9,  # NVLink 缓冲区 1GBnum_rdma_bytes=2e9   # RDMA 缓冲区 2GB
)# MoE 分发数据
recv_data, metadata = buffer.dispatch(input_tensor, expert_indices, num_experts=64
)# 执行专家计算
expert_output = experts[metadata.expert_id](recv_data)# 合并结果
combined_result = buffer.combine(expert_output)

高级调优建议

1. 网络配置优化

参数推荐值说明
​NVSHMEM_IB_SL​1-3隔离不同类型流量
自适应路由高负载时启用避免网络拥塞
拥塞控制关闭DeepSeek 实测无显著影响

2. SM 资源分配

# 设置 24 个 SM 专供通信
Buffer.set_num_sms(24)

通过动态调整 SM 数量,平衡计算与通信资源。


应用场景与案例

1. 千卡级训练加速

在 2048 卡集群中:

  • 线性扩展效率 >92%
  • 训练吞吐量提升 3.8 倍(对比 Megatron-LM)

2. 实时推理服务

  • 70B 参数 MoE 模型
  • 单请求延迟 <200 ms(端到端)
  • 吞吐量 1200 token/s

注意事项

  1. 硬件限制:目前仅支持 Hopper 架构 GPU
  2. PTX 指令:使用未公开指令 ld.global.nc.L1::no_allocate​ 实现极致性能,可通过 DISABLE_AGGRESSIVE_PTX_INSTRS=1​ 禁用
  3. 缓冲区管理:低延迟模式需预留更大 RDMA 缓冲区

开源生态

  • GitHub Star:开源 3 小时即破 2k
  • 生态整合:vLLM 等框架正在适配
  • 许可证:核心代码 MIT 许可,NVSHMEM 部分遵循 NVIDIA SLA

参考引用:

  1. Github - DeepEP
  2. 开源周第二天 - DeepEP
  3. DeepEP 详解,GPU压榨计划启动!
  4. DeepSeek开源周第二天-DeepEP
  5. DeepSeek最新开源DeepEP技术深入分析

专业术语解释

  • 混合专家模型(Mixture-of-Experts, MoE)
    一种将复杂任务分配给多个专家模块进行处理的模型架构。类似于一个大型项目被分解给多个专业团队分别完成。
  • 专家并行(Expert Parallelism, EP)
    一种在模型训练中多个专家模块同时进行计算的模式。类似于多个工作小组同时开展不同部分的工作。
  • 非对称通信场景
    指通信双方在数据传输量、传输方向或性能要求等方面存在差异的情况。类似于两人交流时一方说得多另一方说得少。
  • NVLink
    用于节点内 GPU 互联的高速通信技术,具有高带宽。类似于房间内不同家具之间的快速通道。
  • RDMA
    一种跨节点 GPU 互联的通信技术。类似于不同房间之间的快捷通道。
  • 数据转发路径优化
    对数据传输的路径进行改进以提高效率和减少浪费。类似于优化物流运输的路线。
  • FP8 分发 + BF16 合并
    数据分发和合并时采用的不同精度格式,以平衡精度和资源占用。类似于根据物品的重要性选择不同大小的盒子来装。
  • 通信-计算重叠
    让数据通信和计算过程同时进行,以提高效率。类似于一边做饭一边收拾厨房。
  • 分层通信模型
    将通信过程分为不同层次进行处理和优化的模型。类似于把一个大工程分为不同的施工阶段。
  • 双缓冲机制
    使用两个缓冲区交替工作来提高数据传输效率。类似于两个工人交替工作,一个工作时另一个准备。
  • SM 资源
    指 GPU 中的流多处理器(Streaming Multiprocessor)相关的资源。类似于工厂里的生产车间资源。

DeepEP 的推出标志着 MoE 训练进入新纪元。通过硬件级通信优化,它成功将 GPU 集群的潜力压榨到极致——正如网友所言:"这才是真正的 GPU 起飞!"。随着生态的完善,我们有理由期待更多千亿级模型将借此突破训练效率的边界。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/72163.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HTTP学习——————(四)TLS等加密算法

前文学习&#xff1a; 一、二、三 学习来源网站 &#xff1a; 极客时间 TLS 目的&#xff1a;身份验证、保密性、完整性 解决问题&#xff1a; Record记录协议——对称加密 Handshake握手协议———1.验证通讯双方身份 2.交换加解密安全套件 3.协商加密参数 有密钥交换算法…

FastExcel vs EasyExcel vs Apache POI:三者的全面对比分析

一、核心定位与历史沿革 Apache POI&#xff08;1990s-&#xff09; 作为Java生态中最古老的Excel处理库&#xff0c;提供对.xls/.xlsx文件的全功能支持。其核心价值在于对Excel规范的完整实现&#xff0c;包括单元格样式、公式计算、图表操作等深度功能。但存在内存消耗大&…

辛格迪客户案例 | 鼎康生物电子合约系统(eSign)项目

01 案例企业 鼎康(武汉)生物医药有限公司于2013年06月19日成立 &#xff0c;是一家总部位于湖北武汉的CDMO公司&#xff0c;坚持以客户为中心&#xff0c;以及时、经济和高质量为服务导向。鼎康生物拥有先进的150,000平方英尺的生产厂房&#xff0c;生产设施位于中国武汉的Bio…

PostgreSQL10 物理流复制实战:构建高可用数据库架构!

背景 PostgreSQL 10 在高可用架构中提供了物理复制&#xff0c;也称为流复制&#xff08;Streaming Replication&#xff09;&#xff0c;用于实现实例级别的数据同步。PostgreSQL 复制机制主要包括物理复制和逻辑复制&#xff1a;物理复制依赖 WAL 日志进行物理块级别的同步&…

从二维随机变量到多维随机变量

二维随机变量 设 X X X和 Y Y Y是定义在同一样本空间 Ω \varOmega Ω上的两个随机变量&#xff0c;称由它们组成的向量 ( X , Y ) (X, Y) (X,Y)为二维随机变量&#xff0c;亦称为二维随机向量&#xff0c;其中称 X X X和 Y Y Y是二维随机变量的分量。 采用多个随机变量去描述…

RabbitMQ系列(一)架构解析

RabbitMQ 架构解析 RabbitMQ 是一个基于 AMQP 协议的开源消息中间件&#xff0c;其核心架构通过多组件协作实现高效、可靠的消息传递。以下是其核心组件与协作流程的详细说明&#xff1a; 一、核心组件与功能 Broker&#xff08;消息代理服务器&#xff09; RabbitMQ 服务端核…

Spring Cloud之注册中心之Nacos的使用

目录 Naacos 服务注册/服务发现 引⼊Spring Cloud Alibaba依赖 引入Nacos依赖 引入Load Balance依赖 配置Nacos地址 服务端调用 启动服务 Naacos Nacos是Spring Cloud Alibaba的组件, Spring Cloud Alibaba遵循Spring Cloud中定义的服务注册, 服务发现规范. 因此使⽤Na…

使用通义万相Wan2.1进行视频生成

使用通义万相Wan2.1进行视频生成 源代码准备运行环境准备创建Python虚拟环境并激活安装依赖包 模型下载生成视频官网的视频生成例子简单描述场景视频生成示例详细描述场景视频生成示例 最近通义万相开源了其视频生成模型。模型有两个版本&#xff0c;一个是1.3B的&#xff0c;一…

【MATLAB例程】三维下的IMM(交互式多模型),模型使用CV(匀速)和CA(匀加速)

给出三维下的交互式多模型&#xff08;IMM&#xff09;matlab例程&#xff0c;模型使用匀速运动CV和匀加速运动CA&#xff0c;滤波使用EKF&#xff08;扩展卡尔曼滤波&#xff09; 文章目录 代码运行结果程序结构 代码讲解模型定义&#xff1a;轨迹生成&#xff1a;IMM核心流程…

物理内存组织与分配的核心概念

在 Linux 内核内存管理&#xff08;尤其是 Buddy System 伙伴系统&#xff09;中&#xff0c;node、zone、type 和 order 是描述物理内存组织与分配的核心概念。以下是它们的详细解释&#xff1a; 1. Node&#xff08;NUMA 节点&#xff09; 定义&#xff1a; 在 NUMA&#xf…

postman--接口测试工具安装和使用教程

postman–接口测试工具 postman是一款支持http协议的接口调试与测试工具&#xff0c;其主要特点就是功能强大&#xff0c;使用简单且易用性好 。 无论是开发人员进行接口调试&#xff0c;还是测试人员做接口测试&#xff0c;postman都是我们的首选工具之一 。 下面先通过一张…

综合练习 —— 递归、搜索与回溯算法

目录 一、1863. 找出所有子集的异或总和再求和 - 力扣&#xff08;LeetCode&#xff09; 算法代码&#xff1a; 代码思路 问题分析 核心思想 实现细节 代码解析 初始化 DFS 函数 时间复杂度 空间复杂度 示例运行 输入 运行过程 总结 二、 47. 全排列 II - 力扣&a…

代码随想录算法训练day64---图论系列8《拓扑排序dijkstra(朴素版)》

代码随想录算法训练 —day64 文章目录 代码随想录算法训练前言一、53. 117. 软件构建—拓扑排序二、47. 参加科学大会---dijkstra&#xff08;朴素版&#xff09;总结 前言 今天是算法营的第64天&#xff0c;希望自己能够坚持下来&#xff01; 今天继续图论part&#xff01;今…

学术小助手智能体

学术小助手&#xff1a;开学季的学术领航员 文心智能体平台AgentBuilder | 想象即现实 文心智能体平台AgentBuilder&#xff0c;是百度推出的基于文心大模型的智能体平台&#xff0c;支持广大开发者根据自身行业领域、应用场景&#xff0c;选取不同类型的开发方式&#xff0c;…

本地大模型编程实战(26)用langgraph实现基于SQL数据构建的问答系统(5)

本文将将扩展上一篇文章完成的 langgraph 链&#xff0c;继续使用基于 langgraph 链 &#xff0c;对结构化数据库 SQlite 进行查询的方法。该系统建立以后&#xff0c;我们不需要掌握专业的 SQL 技能&#xff0c;可以用自然语言询问有关数据库中数据的问题并返回答案。主要完善…

FASIONAD:自适应反馈的类人自动驾驶中快速和慢速思维融合系统

24年11月来自清华、早稻田大学、明尼苏达大学、多伦多大学、厦门大学马来西亚分校、电子科大&#xff08;成都&#xff09;、智平方科技和河南润泰数字科技的论文“FASIONAD : FAst and Slow FusION Thinking Systems for Human-Like Autonomous Driving with Adaptive Feedbac…

【免费】YOLO[笑容]目标检测全过程(yolo环境配置+labelimg数据集标注+目标检测训练测试)

一、yolo环境配置 这篇帖子是我试过的&#xff0c;非常全&#xff0c;很详细【cudaanacondapytorchyolo(ultralytics)】 yolo环境配置 二、labelimg数据集标注 可以参考下面的帖子&#xff0c;不过可能会出现闪退的问题&#xff0c;安装我的流程来吧 2.1 labelimg安装 label…

Linux系统软件管理

systemctl 控制软件启动和关闭 Linux系统很多软件支持使用systemctl命令控制&#xff1a;启动&#xff0c;停止&#xff0c;开启自启。 能被systemctl管理的软件&#xff0c;一般被称为&#xff1a;服务。 语法&#xff1a;systemctl start|stop|status|enable|disable 服务名…

CAN总线通信协议学习1——物理层

首先来看看CAN是怎么产生的&#xff1a;简单理解&#xff0c;CAN就是一种“拥有特别连接方式”的数据传输的总线&#xff0c;其有特定的一些规则。 &#xff08;注&#xff1a;资料及图片来源于知乎博主TOMOCAT。&#xff09; CAN总线的结构 查阅参考文献&#xff0c;OSI标准…

【Mac电脑本地部署Deepseek-r1:详细教程与Openwebui配置指南】

文章目录 前言电脑配置&#xff1a;安装的Deepseek版本&#xff1a;使用的UI框架&#xff1a;体验效果展示&#xff1a;本地部署体验总结 部署过程Ollama部署拉取模型运行模型Openwebui部署运行Ollama服务在Openwebui中配置ollama的服务 后话 前言 deepseek最近火的一塌糊涂&a…