阿里云引领智算集群网络架构的新一轮变革

阿里云引领智算集群网络架构的新一轮变革

云布道师

11 月 8 日~ 10 日在江苏张家港召开的 CCF ChinaNet(即中国网络大会)上,众多院士、教授和业界技术领袖齐聚一堂,畅谈网络未来的发展方向,聚焦智算集群网络的创新变革。其中,阿里云研发副总裁,基础设施网络负责人蔡德忠先生发表题为《规模 x10 驱动 AI 智算集群网络架构新一轮变革》的主题演讲,展望智算技术发展趋势,尤其是 Scale up 网络的发展方向,提出智算网络未来的技术架构变革的新思路,发布了高通量以太网协议和智算超节点系统ENode+ 的路标规划,引起广泛关注。

过去一年,阿里云 HPN7.0 引领智算以太网生态蓬勃发展

模型的持续 scaling ,以及数据集的扩充,对于模型训练的总计算量要求一直在增长,业界总结发现,算力需求量每年增长 4-6 倍,而单颗芯片的算力增长、显存增长、网络带宽增长仍然遵循摩尔定律,每 2 年才一倍,无法满足算力增长的需求,所以算力来自于将更多的 GPU 进行集群化互联,网络在算力scaling 中扮演关键的角色。

在 2023 年初的时候,智算集群的网络方案选择还是百花齐放的状态,Google 有基于私有协议的 TPU 集群,微软使用了 NV 提供的一整套 IB 方案,而阿里云、 AWS 等公司坚持使用开放的以太网来构建集群。**一时间,以太网还是 IB ,成为智算集群架构选择的关键话题。**阿里云坚定以太网的路线,并且针对智算集群的特点创新设计了 HPN7.0 架构,采用业界首发的全自研 51.2T 交换机,利用多轨、双上联、双平面,结合自研通信库、协议、流控组成高性能系统。阿里云在大规模部署 HPN7.0 智算集群的同时,其论文被顶会 SIGCOMM 录取,成为网络顶会历史上首篇 AI 智算网络架构论文。

一年多时间过去了,阿里云 HPN7.0 已经成为业界标杆,引领了以太网智算集群的技术方向,目前国内外各大公司都在朝着这个方向演进,北美几大公司都已经或者即将基于以太网来部署十万卡级别的算力集群,关于智算集群以太网和 IB 的争议已经落幕,以太网正在成为超大规模智算集群的行业主流。

未来几年, X10 规模将给网络带来新的重要问题

虽然以太网和 IB 的选择已经画上句号,但是新的挑战还在继续。在智算集群的规模化方向上,各大公司你追我赶,国内公司的智算集群也将很快向 X10 规模迈进,尤其是在算力受到限制的情况下,通过网络互联扩展规模更有必要。GPU 规模的扩展并不是想象中这么简单:不可避免的硬件故障将导致任务中断会更加频繁;受限于电力、空间, GPU 资源可能会分布在不同园区,距离带来的时延和带宽限制会对整个训练集群的性能产生影响;尤其是 GPU Scale up 范围也将更大,智算集群的网络架构也会因此产生深远的变革。

通过更大带宽的网络互联是算力扩展的必经之路,这是从整体系统架构层面突破摩尔定律限制的主要路径。在这个方向上,无论 Scale up 、 Scale out 都需要更加激进的规划。

GPU Scale up 协议路线之争, Ethernet 优势明显

到底什么是 Scale up ?简单来讲, Scale up 就是在一定范围内、在成本和互联技术约束下实现的超高带宽互联。这个超高带宽互联的范围固定并且带宽是 Scale out 的数倍以上,可以在协议层面优化来支持内存语义。
**不少人以为 Scale up 是机内互联,这是一种误解。**在 8 卡系统的时代,因为 8 卡在一个 OS 内部所以确实是机内互联,然而,当 NVL36 、 72 这种AI rack 的形态出现后, GPU Scale up 就不是“机内互联”,而是一种新型的节点间网络互联。以 NVL72 为例,实际上是 18 台服务器通过9台Scale up交换机连在一起的网络域,只不过是在这个域内的带宽 10 倍于 Scale out 的大的带宽( 7.2Tbps vs 800Gbps ),此外还支持了内存操作语义,为了区分,我们继续称其为 GPU Scale up 。
在这里插入图片描述

GPU Scale up 是 AI 系统发展的一个热门话题,备受关注。Scale up 网络大体上可以分成 2 个技术方向。

  • 以 NV 、 Google 为代表的私有协议、封闭系统方案( NVLink 和 TPU 互联)
  • 以各大互联网和云计算公司自研 GPU (微软、 Meta 、 Tesla 等),以及 AMD 、 Intel 为代表的基于Ethernet 的网络传输方案

Ethernet 有超大带宽技术和强大的生态支撑,尤其是 UEC 、高通量以太网等开放组织针对 Scale up 进行协议的升级后, Ethernet 支持超大带宽的同时实现了超低时延、在网计算等核心功能,所以我们可以看到新晋 Scale up 系统都选择了 Ethernet ,可以说 Ethernet 这些特质已经成为 GPU Scale up 网络快速落地的首选技术方案。

计算和网络的新变革,Scale up 融合架构优势明显

Scale up 与 Scale out 如何协同工作是决定集群网络性能的关键。在今天的单机 8 卡系统中,通过多轨互联、并行排布、通信库协同,阿里云的 HPN7.0 架构已经将万卡级别的通信性能发挥到极致。那将来 Scale up 扩展到多机系统,尤其是成百上千卡之后, Scale up 与 Scale out 应该如何协同做到全局效率最高呢 ?机尾 backend 会继续沿着 Scale up + Scale out 两张网络各自发展,还是会融合兼顾 ?
当 Ethernet 成为 Scale up 的主流方案之后,这个选择方向呼之欲出,融合架构将是效率更高、成本更低的架构。融合架构将使带宽得到充分共享, Scale up 范围内进行大带宽的 TP 、 EP 、 CP 等通信,多个 Scale up 域通过 Scale out 互联,进行 DP 、 PP 等通信,跨 Scale up 实现合理的带宽收敛即可。同时,独立Scale out网卡+网络的成本也不容小觑,如果将 Scale up 和 Scale out 的以太网融合为一张网,通过将不同的 Scale up 域进行Scale out 互联组网,不但少了一张网络和网卡的投入,在运维、扩展上也将更加统一高效。
在这里插入图片描述

未来可期,高通量以太网发布关键路标和超节点 ENode+ 计划

在大会上,阿里云代表联盟发布了高通量以太网的协议路线图,规划了年度大版本,半年小版本的演进方式,为国内智算生态的快速发展迭代打好网络基础。同时发布了基于高通量以太网的 ENode+ 超节点路线,为高通量以太网的系统化落地构筑蓝图。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/886381.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

git/dvc笔记

目录 gitHEAD<commit_id>git checkoutgit reset文件跟踪状态git ls-filesgit rm.gitignoregit diff首次使用git的必要配置 dvcdvc installdvc statusdvc diffdvc config cache.type git HEAD HEAD表示分支的最新提交节点 前一个提交版本&#xff1a;HEAD^ HEAD~1 HEA…

【更新至2023】A股上市公司企业突破性创新、渐进性创新数据(2000-2023年)

测算方式&#xff1a;参考C刊《财经问题研究》胡山&#xff08;2022&#xff09;老师的研究&#xff0c;用当年获得授权的发明专利数量加 1 后取自然对数来衡量企业突破性创新 ( Invention) ; 用非发明专利 ( 包括实用新型专利和外观设计专利) 授权量加 1 后取自然对数来衡量企…

【Android、IOS、Flutter、鸿蒙、ReactNative 】启动页

Android 设置启动页 自定义 splash.xml 通过themes.xml配置启动页背景图 IOS 设置启动页 LaunchScreen.storyboard 设置为启动页 storyboard页面绘制 Assets.xcassets 目录下导入图片 AppLogo Flutter 设置启动页 Flutter Android 设置启动页 自定义 launch_background.xm…

Elasticsearch:管理和排除 Elasticsearch 内存故障

作者&#xff1a;来自 Elastic Stef Nestor 随着 Elastic Cloud 提供可观察性、安全性和搜索等解决方案&#xff0c;我们将使用 Elastic Cloud 的用户范围从完整的运营团队扩大到包括数据工程师、安全团队和顾问。作为 Elastic 支持代表&#xff0c;我很乐意与各种各样的用户和…

Jmeter基础篇(24)Jmeter目录下有哪些文件夹是可以删除,且不影响使用的呢?

一、前言 Jmeter使我们日常做性能测试最常用的工具之一啦&#xff01;但是我们在和其他同学协同工作的时候&#xff0c;偶尔也会遇到一些问题&#xff0c;例如我想要给别人发送一个Jmeter工具包&#xff0c;但这个文件包往往会很大&#xff0c;比较浪费流量和空间&#xff0c;…

排序算法(基础)大全

一、排序算法的作用&#xff1a; 排序算法的主要作用是将一组数据按照特定的顺序进行排列&#xff0c;使得数据更加有序和有组织。 1. 查找效率&#xff1a;通过将数据进行排序&#xff0c;可以提高查找算法的效率。在有序的数据中&#xff0c;可以使用更加高效的查找算法&…

如何在 WordPress 中轻松强制所有用户退出登录

作为一名长期管理 WordPress 网站的站长&#xff0c;我深知维护网站安全性的重要性。尤其是在面对会员网站或付费内容平台时&#xff0c;确保所有用户的登录状态是最新的&#xff0c;是维持网站正常运营的关键之一。今天&#xff0c;我就分享一下如何通过简单的步骤&#xff0c…

速通前端篇 —— HTML

找往期文章包括但不限于本期文章中不懂的知识点&#xff1a; 个人主页&#xff1a;我要学编程程(ಥ_ಥ)-CSDN博客 所属专栏&#xff1a;速通前端 目录 HTML的介绍 如何创建HTML文件 HTML 文件基本结构 HTML常用标签 title标签 标题标签 h1-h6 段落标签 p 换行标签 b…

当微软windows的记事本被AI加持

1985年&#xff0c;微软发布了Windows 1.0&#xff0c;推出了一款革命性的产品&#xff1a;记事本&#xff08;Notepad&#xff09;。这款软件旨在鼓励使用一种未来主义的新设备——鼠标&#xff0c;并让人们可以不依赖VI等键盘工具就能书写文本和编写代码。记事本因其简洁和高…

学习python的第十天之数据类型——dict字典

学习python的第十天之数据类型——dict字典 Python 中的字典&#xff08;Dictionary&#xff09;是一个非常强大的内置数据类型&#xff0c;它用来存储键值对&#xff08;key-value pairs&#xff09;信息。字典是无序的&#xff0c;这意味着它们不会记录你添加键值对的顺序&am…

LSTM(长短期记忆网络)详解

1️⃣ LSTM介绍 标准的RNN存在梯度消失和梯度爆炸问题&#xff0c;无法捕捉长期依赖关系。那么如何理解这个长期依赖关系呢&#xff1f; 例如&#xff0c;有一个语言模型基于先前的词来预测下一个词&#xff0c;我们有一句话 “the clouds are in the sky”&#xff0c;基于&…

Vulnhub靶场 Billu_b0x 练习

目录 0x00 准备0x01 主机信息收集0x02 站点信息收集0x03 漏洞查找与利用1. 文件包含2. SQL注入3. 文件上传4. 反弹shell5. 提权&#xff08;思路1&#xff1a;ssh&#xff09;6. 提权&#xff08;思路2&#xff1a;内核&#xff09;7. 补充 0x04 总结 0x00 准备 下载链接&#…

重拾CSS,前端样式精读-媒体查询

前言 本文收录于CSS系列文章中&#xff0c;欢迎阅读指正 说到媒体查询&#xff0c;大家首先想到的可能是有关响应式的知识点&#xff0c;除此之外&#xff0c;它还可以用于条件加载资源&#xff0c;字体大小&#xff0c;图像和视频的优化&#xff0c;用户界面调整等等方面&am…

神经网络的正则化(一)

目录 摘要Abstract1. 引言2. 参数范数惩罚3. 显式约束和重投影3.1 显式约束3.2 重投影 4. 数据集增强5. 多任务学习6. 提前终止7. 参数绑定和共享8. 稀疏表示9. Bagging和其他集成方法10. 对抗训练参考总结 摘要 本周&#xff0c;我学习了神经网络中的正则化方法。 Abstract T…

普通用户切换到 root 用户不需要输入密码配置(Ubuntu20)

在 Ubuntu 系统中&#xff0c;允许一个普通用户切换到 root 用户而不需要输入密码&#xff0c;可以通过以下步骤配置 sudo 设置来实现。 步骤&#xff1a; 打开 sudoers 文件进行编辑&#xff1a; 在终端中&#xff0c;输入以下命令来编辑 sudoers 文件&#xff1a; sudo visu…

MySQL系统优化

文章目录 MySQL系统优化第一章&#xff1a;引言第二章&#xff1a;MySQL服务架构优化1. 读写分离2. 水平分区与垂直分区3. 缓存策略 第三章&#xff1a;MySQL配置优化1. 内存分配优化Buffer Pool 的优化查询缓存与表缓存Key Buffer 2. 连接优化最大连接数会话超时连接池 3. 日志…

菲涅耳全息图

菲涅耳全息图&#xff1a;记录介质在物光波场的菲涅耳衍射区(物体到记录介质表面的距离在菲涅耳衍射区内)。 一、点源全息图的记录和再现 1.1 记录 设物光波和参考光波是从点源O(xo, yo, zo)和点源 R(xr, yr, zr)发出的球面波, 波长为λ1, 全息底片位于z0 的平面上, 与两个点源…

动态规划不同维度分析leetcode198.打家劫舍问题

class Solution {public int rob(int[] nums) {return robByTwoDim(nums);}// 二维dp算法 一层for训练public int robByTwoDim(int[] nums){int[][] dp new int[2][nums.length 1];for(int j 1; j < nums.length; j){dp[0][j] nums[j - 1] dp[1][j - 1]; // 偷,那么再…

多线程-阻塞队列

目录 阻塞队列 消息队列 阻塞队列用于生产者消费者模型 概念 实现原理 生产者消费者主要优势 缺陷 阻塞队列的实现 1.写一个普通队列 2.加上线程安全和阻塞等待 3.解决代码中的问题 阻塞队列 阻塞队列&#xff0c;是带有线程安全功能的队列&#xff0c;拥有队列先进…

Qt小知识-Q_GLOBAL_STATIC

你还在为创建全局静态对象烦恼嘛&#xff0c;它来了&#xff01;它来了&#xff01; qt5提供了两个宏定义Q_GLOBAL_STATIC和Q_GLOBAL_STATIC_WITH_ARGS来实现。可以创建一个全局静态对象&#xff0c;对象在第一次使用时初始化自身&#xff0c;这意味着它不会增加应用程序或库的…