利用 PCI-Express 交换机实现面向未来的推理服务器

在数据中心系统的历史上,没有比被 Nvidia 选为其 AI 系统的组件供应商更高的赞誉了。

这就是为什么新兴的互连芯片制造商 Astera Labs 感到十分高兴,因为该公司正在 PCI-Express 交换机、PCI-Express 重定时器和 CXL 内存控制器方面与 Broadcom 和 Marvell 等公司展开竞争。当 Nvidia 批准即将推出的服务器节点使用“Blackwell”GPU 加速器时,该公司感到十分高兴,该加速器使用 PCI-Express 6.0 交换机和重定时器将 X86 GPU 连接到其 Blackwell GPU,在某些情况下还包括网络接口卡和存储。

MGX 是一套服务器参考设计,包括 Nvidia 自己的 AI 野兽的基本构建块以及 OEM 和 ODM 创建的克隆,以便他们能够分得一杯羹。

在上周举行的 2025 年 GPU 技术大会上,Astera Labs 做了两件事。首先,它展示了其“Scorpio”P 系列 PCI-Express 6.0 结构交换机和“Aries”PCI-Express 6.0 重定时器与 Nvidia 的“Hopper”H100 和 H200 GPU 以及 HGX 设置中使用的各种 Blackwell B100 和 B200 GPU 的互操作性(熟悉的 2 CPU 乘以 8 GPU 设计,现在称为 Hoppers 的 HGX NVL8 和 Blackwells 的 DGX NVL16)。其次,Astera 展示了由 ODM 服务器制造商 Wistron 设计的基于 Hopper GPU 的推理服务器,并使用其交换机和重定时器将组件连接在一起。

目前还不清楚 Nvidia 本身在其系统中使用 Astera 芯片的情况,我们只是利用这次公告作为研究 Astera 提供的产品的机会,但 Nvidia 硬件工程副总裁 Andrew Bell 在一份声明中表示,Scorpio 交换机与“基于 Blackwell 的 MGX 平台”集成,所以你明白了。基于 DSP 的 Aries 重定时器没有被提及,但如果您需要扩展 PCI-Express 5.0 或 6.0 链路以将组件空间稍微拉远一些,您也需要这些东西。

从概念上来说,一切看起来是这样的:

在上图的中间,结构可以是任何 PCI-Express 交换机,但 Astera 无疑更希望它是自己的 Scorpio 交换机,它也显示了这一点。使用来自两个不同供应商的交换机和重定时器可能会带来麻烦。

如您所见,您可以使用重定时器将 GPU 链接到网络或存储结构,以及用于将 GPU 直接绑定在一起的不同 PCI-Express 结构,就像 Nvidia 使用 NVLink 端口和 NVSwitch 交换机所做的那样。目前,GPU 加速器还没有跨此 PCI-Express 结构的内存寻址,但这正是由 AMD、Broadcom、思科系统、谷歌、惠普企业、英特尔、Meta Platforms 和微软牵头的超级加速器链接 (UALink) 工作的目的所在。

虽然 Scorpio P 系列交换机用于将 CPU 连接到 GPU、网络接口和存储,但 Scorpio 交换机还有另一种变体,称为 X 系列,用于创建 GPU 网格,就像 Nvidia 的 NVSwitch 一样 - 显然带宽要少得多。这款 X 系列芯片需要定制参与,正如您所预料的那样,Astera 在 GTC 2025 上肯定没有谈论这款芯片。

P 系列和 X 系列交换机均向后兼容 PCI-Express 1.0 之前的设备。

以下是 Astera 就 PCI-Express 6.0 与 Nvidia 配合使用所进行的测试:

在这种情况下,它是一个 PCI-Express 6.0 x16 链路,它将 Aries 重定时器连接到 Blackwell GPU,以扩展 PCI-Express 链路的范围。盒子中的 Scorpio P 系列交换机链接到 Intel Xeon 5.0 处理器和 Nvidia ConnectX-7 网络接口,降级到 PCI-Express 5.0。Micron Technology 闪存驱动器使用以 PCI-Express 6.0 速度运行的单个 x1 通道进行存储。Scorpio 交换机有 64 个 PCI-Express 6.0 信号通道,此设置使用其中的 49 个通道,其中 32 个以 PCI-Express 5.0 半速运行。

Scorpio P 系列交换机于 2024 年 9 月开始提供样品,目前正在加速生产。

Astera 与 ODM 合作伙伴 Wistron 展示的机器是 Nvidia MGX H100/H200 NVL 推理服务器的实现。MGX模块化机器系列于 2023 年 5 月推出,其理念是将 GPU 加速应用于具有适合用途的外形尺寸的不同类型的工作负载。

从概念上讲,MGX 推理服务器如下所示:

这是一个 4U 机架式机箱,后面有一台双插槽 X86 服务器作为系统主机,配有 PCI-Express 交换机,用于连接到两个 BlueField 3 DPU(前面右侧)和八个 H100 或 H200 PCI-Express 5.0 GPU(前面占用了大部分空间)。没有 NVSwitch 内存互连,但每个 GPU 卡上都有 NVLink 内存端口,可以使用桥接器将两个或四个相邻的 GPU 连接起来,形成共享内存配置,以共享内存并利用更大的内存进行计算。

该 MGX 参考架构的配置为每对 GPU 配备一个 BlueField 3 DPU 和四个 ConnectX-7 SmartNIC。

以下是每个 Scorpio 交换机有两个 GPU 和一个 NIC 的 MGX 推理系统的示意图:

每对 GPU 都通过 NVLink 桥连接,它们都拥有一个 ConnectX-7 NIC,它们与外界共享并通过 Scorpio P 系列交换机进行通信。我们推测,这对 GPU 还可以通过 Scorpio 交换机以 PCI-Express 6.0 速度进行通信,如果 GPU 可以使用 6.0,则 x16 通道的速度为 256 GB/秒,如果 GPU 只能使用 5.0,则速度仅为 128 GB/秒。

主机 CPU 和 GPU 之间需要多少带宽,以及 NVLink NUMA 的级别(NVL2 或 NVL4)取决于您正在进行的 AI 类型。

关于这款 MGX 推理服务器设计的一个重要特点是它是模块化的。(因此 MGX 名称中带有模块化 GPU——我们不确定 X 代表什么,但它可能不是一个吻,也不是足球队的防守队员......)

后面的主机计算和内存板可以独立于前面的 GPU/NIC/DPU 板进行升级。因此,例如,如果您在 GPU 计算板中使用 Scorpio P 系列 PCI-Express 6.0 交换机,那么您现在可以在 PCI-Express 5.0 模式下运行它,并立即链接到任何 X86 或 Arm 服务器节点,并在此类处理器上市时将其换成带有 PCI-Express 6.0 插槽的新服务器卡。如果您现在有带有 PCI-Express 5.0 x16 插槽的旧款 Hopper GPU,您可以在今天的 MGX 设计中使用它们,并在将来的某个时间换上新的 Blackwell PCI-Express 6.0 GPU。

以下是纬创公司实际的 xWing 推理服务器 GPU 系统板:

该设计每个 Scorpio 交换机有两个 GPU,并且在主板左侧有一个 NIC 插槽。

任何 MGX 推理服务器设计都无法对具有数万亿个参数的 GenAI 模型进行推理。但它们的大小适合大量 AI 推理工作负载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/75110.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

智能交通预警杆:守护道路安全的科技先锋

在城市化进程加速以及机动车保有量持续增长的背景下,道路交通安全与拥堵问题渐趋严峻。智能交通预警杆应时而生,其集成多种高科技功能,正逐步成为现代城市交通管理中至关重要的智能装备,对于提升交通效率、保障出行安全发挥着关键…

flink 基站与服务器长连接,每次连接和断开都会上报数据,统计过去一小时每个基站断开次数和时长

模拟生成数据 CREATE TABLE ods_station_log (base_station_id int, -- 基站IDevent_type int, -- 事件类型: connect/disconnectevent_time TIMESTAMP_LTZ(3), -- 事件时间WATERMARK FOR event_time AS event_time - INTERVAL 5 SECOND -- 允许5秒乱序 ) WITH …

自定义一些C语言的字符串函数

一、代码如下 (一)十六进制字符串转十进制整数 #include<stdio.h> // 把一个十六进制字符转成十进制整数 int hexToInt(char hexs[]){ int index; int k 0; for(k 0; ; k) { if(hexs[k] \0) { index k; break; …

核函数(机器学习深度学习)

一、核函数的基本概念 核函数&#xff08;Kernel Function&#xff09; 是机器学习中处理非线性问题的核心工具&#xff0c;通过隐式映射将数据从原始空间转换到高维特征空间&#xff0c;从而在高维空间中实现线性可分或线性建模。其数学本质是计算两个样本在高维空间中的内积…

微服务架构中的精妙设计:服务注册/服务发现-Eureka

一.使用注册中心背景 1.1服务远程调用问题 服务之间远程调⽤时, 我们的URL是写死的 String url "http://127.0.0.1:9090/product/" orderInfo.getProductId(); 缺点&#xff1a; 当更换机器, 或者新增机器时, 这个URL就需要跟着变更, 就需要去通知所有的相关服…

极速版:栈的内存/局部变量表/堆的内存细分

1. 栈的存储 每个线程都有自己的栈&#xff0c;栈中数据以栈帧&#xff08;Stack Frame&#xff09;为基本单位 线程上正在执行的每个方法都各自对应一个栈桢&#xff08;Stack Frame&#xff09; 栈桢是一个内存区块&#xff0c;是一个数据集&#xff0c;维系着方法执行过程…

【操作系统】内存泄漏 vs 内存碎片

【操作系统】内存泄漏 vs 内存碎片 内存泄漏&#xff08;Memory Leak&#xff09; vs 内存碎片&#xff08;Memory Fragmentation&#xff09;1. 内存泄漏&#xff08;Memory Leak&#xff09;2. 内存碎片&#xff08;Memory Fragmentation&#xff09;3. 内存泄漏 vs 内存碎片…

力扣HOT100之矩阵:73. 矩阵置零

这道题我没有想到什么好的办法&#xff0c;直接暴力AC了&#xff0c;直接遍历两次矩阵&#xff0c;第一次遍历用两个向量分别记录出现0的行数和列数&#xff0c;第二次遍历就判断当前的元素的行数或者列数是否出现在之前的两个向量中&#xff0c;若出现了就直接置零&#xff0c…

​Flink/Kafka在python中的用处

一、基础概念 1. ​Apache Kafka 是什么&#xff1f; ​核心功能&#xff1a;Kafka 是一个分布式流处理平台&#xff0c;主要用于构建实时数据管道和流式应用程序。​核心概念&#xff1a; ​生产者&#xff08;Producer&#xff09;​&#xff1a;向 Kafka 发送数据的程序。…

推荐系统(十八):优势特征蒸馏(Privileged Features Distillation)在商品推荐中的应用

在商品推荐系统中&#xff0c;粗排和精排环节的知识蒸馏方法主要通过复杂模型&#xff08;Teacher&#xff09;指导简单模型&#xff08;Student&#xff09;的训练&#xff0c;以提升粗排效果及与精排的一致性。本文将以淘宝的一篇论文《Privileged Features Distillation at …

深度学习四大核心架构:神经网络(NN)、卷积神经网络(CNN)、循环神经网络(RNN)与Transformer全概述

目录 &#x1f4c2; 深度学习四大核心架构 &#x1f330; 知识点概述 &#x1f9e0; 核心区别对比表 ⚡ 生活化案例理解 &#x1f511; 选型指南 &#x1f4c2; 深度学习四大核心架构 第一篇&#xff1a; 神经网络基础&#xff08;NN&#xff09; &#x1f330; 知识点概述…

R语言对偏态换数据进行转换(对数、平方根、立方根)

我们进行研究的时候经常会遇见偏态数据&#xff0c;数据转换是统计分析和数据预处理中的一项基本技术。使用 R 时&#xff0c;了解如何正确转换数据有助于满足统计假设、标准化分布并提高分析的准确性。在 R 中实现和可视化最常见的数据转换&#xff1a;对数、平方根和立方根转…

第十四届蓝桥杯省赛电子类单片机学习记录(客观题)

01.一个8位的DAC转换器&#xff0c;供电电压为3.3V&#xff0c;参考电压2.4V&#xff0c;其ILSB产生的输出电压增量是&#xff08;D&#xff09;V。 A. 0.0129 B. 0.0047 C. 0.0064 D. 0.0094 解析&#xff1a; ILSB&#xff08;最低有效位&#xff09;的电压增量计算公式…

HarmonyOSNext_API16_媒体查询

媒体查询条件详解 媒体查询是响应式设计的核心工具&#xff0c;通过判断设备特征动态调整界面样式。其完整规则由媒体类型、逻辑操作符和媒体特征三部分组成&#xff0c;具体解析如下&#xff1a; 一、媒体查询语法结构 基本格式&#xff1a; [媒体类型] [逻辑操作符] (媒体特…

Python+拉普拉斯变换求解微分方程

引言 在数学和工程学中,微分方程广泛应用于描述动态系统的行为,如电路、电气控制系统、机械振动等。求解微分方程的一个常见方法是使用拉普拉斯变换,尤其是在涉及到初始条件时。今天,我们将通过 Python 演示如何使用拉普拉斯变换来求解微分方程,并帮助大家更好地理解这一…

【算法】手撕快速排序

快速排序的思想 任取一个元素作为枢轴&#xff0c;然后想办法把这个区间划分为两部分&#xff0c;小于等于枢轴的放左边&#xff0c;大于等于枢轴的放右边 然后递归处理左右区间&#xff0c;直到空或只剩一个 具体动画演示详见 数据结构合集 - 快速排序(算法过程, 效率分析…

《八大排序算法》

相关概念 排序&#xff1a;使一串记录&#xff0c;按照其中某个或某些关键字的大小&#xff0c;递增或递减的排列起来。稳定性&#xff1a;它描述了在排序过程中&#xff0c;相等元素的相对顺序是否保持不变。假设在待排序的序列中&#xff0c;有两个元素a和b&#xff0c;它们…

深度学习篇---paddleocr正则化提取

文章目录 前言一、代码总述&介绍1.1导入必要的库1.1.1cv21.1.2re1.1.3paddleocr 1.2初始化PaddleOCR1.3打开摄像头1.4使用 PaddleOCR 进行识别1.5定义正则表达式模式1.6打印提取结果1.7异常处理 二、正则表达式2.1简介2.2常用正则表达式模式及原理2.2.1. 快递单号模式2.2.2…

JavaScript DOM与元素操作

目录 DOM 树、DOM 对象、元素操作 一、DOM 树与 DOM 对象 二、获取 DOM 元素 1. 基础方法 2. 现代方法&#xff08;ES6&#xff09; 三、修改元素内容 四、修改元素常见属性 1. 标准属性 2. 通用方法 五、通过 style 修改样式 六、通过类名修改样式 1. className 属…

单元测试的编写

Python 单元测试示例 在 Python 中&#xff0c;通常使用 unittest 模块来编写单元测试。以下是一个简单的示例&#xff1a; 示例代码&#xff1a;calculator.py # calculator.py def add(a, b):return a bdef subtract(a, b):return a - b 单元测试代码&#xff1a;test_c…