揭秘英伟达Blackwell平台网络拓扑架构,解锁超算新境界


 英伟达Blackwell平台网络配置详解

   

5d644e247685f25d12ef6dbd9d9c010b.jpeg


AI算力研究:英伟达B200再创算力奇迹,液冷、光模块持续革新

突破性的GB200 NVL72全互联架构,带来高性能GPU解决方案。铜缆方案有望成为未来趋势,提供低成本、高带宽连接。

1. Blackwell 平台网络配置分析 从网络配置的角度,英伟达提供了第五代 NVLINK、第六代 PCIE、单端口800Gbit/s 的 IB 和以太网网卡、1.6T 光模块需求。

从目前英伟达公布的产品介绍看,这些升级后的网络能力可能不会第一时间全部配置在最新的 DGX B200 服务器上,而是在后续的产品中逐步升级。从英伟达公布的产品说明材料看,DGX B200 服务器配置 8 颗 NVIDIA B200 Tensor Core GPUs,4 个 800G OSPF 光模块,最大功耗为 14.3kW。9686b85c64ba42868b13a08f36500e72.jpeg79bd13419d3fcc2442a30872d8e21966.jpeg2 DGX GB200: NVLink domain 提升至 576 GPUs 采用 DGX GB200 系统的 NVIDIA DGX SuperPOD 专为训练和推理万亿参数生成式AI 模型而构建。每个液冷机架配备 36 个 NVIDIA GB200 Grace Blackwell 超级芯片(36 个 NVIDIA Grace CPU 和 72 个 Blackwell GPU),与 NVIDIA NVLink 连接为一体。

多个机架与 NVIDIA Quantum InfiniBand 连接,可扩展到数万个 GB200 超级芯片。GB200 可以在单机柜内搭建包含 36 个或者 72 个 GPU 的 NVLink domain。一个机柜内包含 18 个计算节点和 9 台 L1 NVLink Switch。基于第五代 NVLink 技术,每个 NVLink 交换机可以提供 144 个 100GB NVLink 端口。

通过机柜内的 9 个 L1NVLink Switch 可以合计 提 供 1296 个 100GB NVLink 端口 ,机柜 内的每 个Blackwell GPUs 可以获得 18 个端口,合计 1.8T 的 NVLink 带宽。de9a21e0e0399529f775d210136e25b8.jpegGB200 NVL72 使用了一个定制化的 Copper cable cartridge 实现机柜内 9 个L1 NV Switch 和 18 个计算节点的 NVLink 连接。英伟达介绍 NVIDIA GB200 NVL72可以在一个 NVLink domain 内连接 576 个 GPU。英伟达当前公布的 GB200 NVL72 配置了 72 个 CX7 网口(OSFP 400Gb/s InfiniBand),并没有使用最新的 CX8 网卡。7a2755b11c16c0c6c56c3c3b088fac3f.jpeg3 全新 IB 交换机,双层胖树支持万卡集群 NVIDIA Quantum-X800 Q3400-RA 是一台 4U 的 IB 交 换机 ,对比 上一 代Quantum-9700 交换机设备尺寸提升了一倍。Quantum-X800 也是英伟达第一款使用200Gb/s-per-lane SerDes 方案的交换机设备,通过 72 个 OSPF 1.6T 光模块提供144 个 800G 端口。英伟达指出,基于 Quantum-X800 的高性能,两层胖树网路拓扑就可以连接 10386 个网络接口卡。7f5575da663b936924e075f54f39d132.jpegGTC 大会上,英伟达推出的 Spectrum-X800 SN5600 是一台 51.2T 端口容量的以太网交换机,可以配置 64 个 OSPF 800G 光模块。

4 新平台依然需要 800G 和 400G 光模块 

从 GTC 大会的介绍看,BLACKWELL 平台会带来第五代 NVLINK、第六代 PCIE、第八代 IB 网络应用。但是在当前早期交付的产品中依然会采用 800G 和 400G 光模块。其中 DGX B200 服务器配置通过 4 个 800G OSPF 光模块提供 8 个 400G 端口,这和DGX H100 服务器的配置相同。我们认为 B200 GPU 和 800 光模块的配置比例和 H100 GPU 保持一致。而 GB200NVL72 需要配置 72 个 OSPF 400G 光模块,以便通过 IB 网络实现万卡集群的连接。

5 新的IB网络带来1.6T光模块需求 

NVIDIA Quantum-X800 Q3400-RA 和 CX8 NIC 则明确需要配置 1.6T 光模块。和上一代 IB 网络相比,主要的变化是 Quantum-X800 的端口能力提升至 115.2T,可以通过两层胖树拓扑实现 10386 个网络接口卡的连接,万卡规模 Blackwell GPU 集群使用 IB 网络组网的成本得到优化。我们认为这会弱化以太网方案的价格优势,提升 IB 网络方案的竞争力。

6 NVLink domain 容量扩展带来新增的铜缆连接需求

通过第五代 NVLINK 从 900GB 提升至 1800GB,单个 NVLINK domain 的 GPU 数量提升至 576 个。最大的变化是 L1 NV Switch 从服务器 PCB 板载芯片的形式调整为机柜内的 9 台交换机,连接能力提升至 72 个 GPU,需要使用铜缆实现机柜内的NVLINK 连接。5edebdea5192f32b03639557318f9c78.jpeg而如何实现 576 个 GPU 连接,目前英伟达还没有给出具体的连接方案,但是鉴于目前最新的 IB 交换机能力,我们认为连接 576 个 GPU 需要 L2 NV Switch。最终的方案使用铜缆还是光模块,核心是铜缆的连接距离是否可以满足 8 个机柜的连接需求,低成本的铜缆连接方案会是优先选项。

51c7d2cfc95041264a4a44a60558dff8.jpeg


 

-对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/411.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

时序预测 | Transformer时间序列预测 Matlab代码

文章目录 效果一览文章概述源码设计参考资料 效果一览 文章概述 1.时序预测 | Transformer时间序列预测 Matlab代码 2.单变量时间序列预测; 3.多指标评价,评价指标包括:R2、MAE、MBE等,代码质量极高; 4.excel数据&…

程序使用哪个寄存器是由谁决定的?

在程序中使用哪些寄存器的决定通常是由多种因素决定的,包括: 1. 编译器或汇编器 编译器:对于高级编程语言,编译器在寄存器分配中起着重要作用。编译器分析程序的代码,识别常用的变量和表达式,并将它们映射…

政企即时通讯APP:快速构建专属、安全的智慧办公解决方案

在数字化时代,政企单位对信息系统的依赖日益加深,但随之而来的信息安全隐患也不容忽视。组织内部信息系统的安全问题,尤其是在人员调整或离职时,管理员账号管理的混乱,以及敏感资料泄露和业务系统破坏的风险&#xff0…

Seal^_^【送书活动第一期】——《Vue.js+Node.js全栈开发实战(第2版)》

Seal^_^【送书活动第一期】——《Vue.jsNode.js全栈开发实战(第2版)》 一、参与方式二、本期推荐图书2.1 前 言2.2 作者简介2.3 图书简介2.4 本书特色2.5 编辑推荐2.6 书籍目录 三、正版购买 一、参与方式 1、关注博主的账号。 2、点赞、收藏、评论博主的…

Altair® (澳汰尔)Grid Engine® 分布式资源管理系统

Grid Engine 是可靠的分布式资源管理系统,用于优化数千个数据中心的工作负载和资源,提高性能并提高生产力和效率。 Grid Engine 可通过优化应用程序、容器和服务的吞吐量和性能,同时极大化本地、混合和云基础设施之间的共享计算资源&#xf…

Web3技术简介:重新定义互联网的未来

引言 在21世纪的数字时代,互联网已成为我们日常生活的不可或缺的一部分。然而,随着区块链和加密技术的快速发展,一个全新的互联网模型——Web3,正逐渐崭露头角。Web3不仅仅是技术的进步,它更是对传统互联网模型的挑战…

B端:再探列表页,这20个组件能让列表页功能完备,体验过关。

有很多小伙伴反馈设计列表页的时候,好看是好看了,但是用户体验不佳,处理数据十分不方便,这样好看也就失去了意义,贝格前端工场分析这个原因大概率是没有用好列表页的组件,丢三落四的情况比较多导致的&#…

spring boot获取请求参数并响应

获取请求参数并响应: 响应: 在Controller类或方法上加上ResponseBody注解,可以将方法返回值直接响应,如果返回值是实体对象或者集合,将转换为json格式响应。如下例: RestControllerResponseBodyControll…

JavaSE:继承 多态

继承 继承的本质 子类能够使用父类的方法和变量 使用场景:代码复用 在一个类中实现了一个很复杂的方法,给一个新类重新实现这个方法,我们直接继承即可 public class Student {public String sno;public void study() {System.out.printl…

Spring Boot 中Mybatis使用Like的使用方式和注意点

说明 模糊查询在项目中还是经常使用的,本文就简单整理Mybatis中使用Like进行模糊查询的几种写法以及一些常见的问题。 使用Springboot简单配置一下Mybatis,然后进行说明。Springboot集成Mybatis这里就不做介绍了,这里我们主要介绍一下在mybat…

《手把手教你》系列基础篇(九十四)-java+ selenium自动化测试-框架设计基础-POM设计模式实现-下篇(详解教程)

1.简介 上一篇宏哥用PageFactory实现了POM,宏哥再介绍一下如果不用PageFactory如何实现POM。 2.项目实战 在这里宏哥以百度首页登录的例子,如果用POM实现,在测试脚本中实际代码就几行。 2.1代码设计 1.先新建一个pageObjects包&#xff…

算法打卡day38

今日任务: 1)完全背包理论基础(卡码网52. 携带研究材料) 2)518.零钱兑换II 3)377. 组合总和 Ⅳ 4)复习day13 完全背包理论基础(卡码网52. 携带研究材料) 题目链接:52. 携带研究材料(第七期模拟…

使用LangChain和GPT-4,创建Pandas DataFrame智能体

大家好,数据分析和数据处理是数据科学领域每天都在进行的基本任务。高效和快速的数据转换对于提取有意义的见解和基于数据做出明智决策至关重要。其中最受欢迎的工具之一是Python库Pandas,它提供了一个功能强大的DataFrame工具,使用灵活直观的…

基于51单片机土壤湿度检测及自动浇花系统

基于51单片机土壤湿度检测及自动浇花 (仿真+程序+原理图+设计报告) 功能介绍 具体功能: 1.LCD1602实时显示湿度、湿度上下限; 2.可用按键设置湿度、湿度上下限; 3.当湿度低于下限…

分类预测 | Matlab实现WOA-LSSVM鲸鱼算法优化最小二乘支持向量机数据分类预测

分类预测 | Matlab实现WOA-LSSVM鲸鱼算法优化最小二乘支持向量机数据分类预测 目录 分类预测 | Matlab实现WOA-LSSVM鲸鱼算法优化最小二乘支持向量机数据分类预测分类效果基本介绍程序设计参考资料 分类效果 基本介绍 1.Matlab实现WOA-LSSVM鲸鱼算法优化最小二乘支持向量机数据…

搭建电商供应链需要用到哪些电商接口?||主流电商API接口解说

搭建供应链系统时,您可能需要与电商平台进行集成,以实现订单管理、库存同步、物流跟踪等功能。以下是一些常见的电商接口,可以帮助您构建供应链系统: 1. **淘宝开放平台接口**:淘宝开放平台提供了丰富的接口&#xff…

4399下架了的flash游戏 网盘自提取

下载好游戏后,需要使用flash进行打开,直接拖动游戏文件到flash文件,即可用flash快捷打开。 flash下载 百度网盘链接:https://pan.baidu.com/s/1KUz4ymg0SS7wFGH54hdE3A?pwdnisj 提取码:nisj 一、幻想纹章 不太行了…

Node.JS后端开发笔记整理(简洁版)

前端 1. 开发环境和技术栈 开发工具:Visual Studio CodeNode.js版本:18.19.0(建议保持在18)包管理器:npm前端框架:Vue3.4脚本语言:TypeScript构建工具:Vite后端框架:Ex…

ubuntu设置扩充swap交换空间

Swap是指Linux系统中的交换分区,类似于Windows的虚拟内存,当内存不足的时候,把一部分硬盘空间虚拟成内存来使用,从而解决内存不足的问题。交换分区,它的功能就是在内存不够的情况下,操作系统先把内存中暂时不用的数据,存到硬盘的交换空间,腾出内存来让别的程序运行! …

Golang基础-13

Go语言基础 介绍 并发 channel goroutine 互斥锁 读写锁 原子操作 select 超时处理 sync包 runtime包 介绍 本文介绍Go语言中 channel、goroutine、互斥锁、读写锁、原子操作、select、超时处理、sync包、runtime包等相关知识。 并发 进程是是最小的资源管理单元…