星河AI网络,大模型纪元的运力答案

4e3345b73c3a50564f5da5f015f2008b.jpeg

随着AI预训练大模型的价值不断显现,且模型规模愈发庞大。产学各界已经形成了这样一个共识:AI时代,算力就是生产力。

这一认知虽然正确,却并不全面。数字化系统有存、算、网三大支柱,AI技术也是如此。如果抛开存储和网络谈算力,那么大模型只能独木难支。尤其是与大模型适配的网络基础设施,一直以来都没有得到有效的重视。

面对动辄“万卡集训”“万里部署”“万亿参数”的AI大模型,网络运力是整个智能化体系中不容忽视的一环。其面临的挑战非常突出,也正在等待可以破局的答案。

9b70b42988aaf64b2e0552c6f4f6071c.png

(华为数据通信产品线总裁 王雷)

9月20日,华为全联接大会2023期间举办了“星河AI网络,加速行业智能化”为主题的数通峰会。各界代表共同探讨了AI网络技术的变革与发展趋势。会上,华为数据通信产品线总裁王雷正式发布星河AI网络解决方案。他表示,大模型让AI更聪明,但训练一个大模型的成本非常高,同时还要考虑AI人才的成本。因此,在行业智能化阶段,集中建设大算力集群,面向社会提供智算云服务,才能真正让人工智能深入千行万业。华为发布新一代星河AI网络解决方案,面向智能时代,打造超高吞吐、长稳可靠、弹性高并发的新型网络基础设施,助力AI普惠,加速行业智能化。

借此机会,我们一起了解大模型崛起,给智算数据中心带来的网络挑战,以及华为星河AI网络为什么是这些问题的最优解。

如果说,一个模型、一条数据、一个计算单元,都是AI时代的一道星光。那么只有把它们高效稳定地联接起来,才能组成智能世界的灿烂星河。

大模型爆发

隐藏的网络激流

1f2cbd8d0ea9d379b4f084652316fbe4.png

我们知道,AI模型分为训练和推理部署两个阶段。伴随着预训练大模型的兴起,这两个阶段也分别发生了巨大的AI网络挑战。

首先是在大模型的训练阶段。伴随着模型规模与数据参数愈发庞大,大模型训练开始需要千卡甚至万卡规模的计算集群来完成。这也意味着大模型训练必然发生在具备AI算力的数据中心当中。

在目前阶段,智算数据中心的成本是非常高昂的。根据行业数据,每建设100P算力的集群,成本就要达到4亿人民币。以某国际知名大模型为例,其训练过程中每天的算力花费就要达到70万美元。

如果数据中心网络的联接能力不畅,造成大量算力资源折损在网络传输过程中,那么给数据中心与AI模型带来的损失是难以估量的。相反,如果同等算力规模下,集群训练效率更高,那么数据中心将获得巨大商机。而负载率等网络因素,直接决定了AI模型的训练效率。另一方面,由于AI算力集群的规模不断扩大,其复杂度也在相应增长,于是其故障发生概率也在提升。打造长稳可靠的集群网络,是数据中心提升投入产出比的重要支点。

6e8591516ae096c99f98dc77d48a1509.png

在数据中心之外,AI模型的推理部署场景中,同样也可以看到AI网络的价值体现。大模型的推理部署主要依靠云服务,而云服务商必须在算力资源有限的情况下,尽量服务更大的客户,以此实现大模型的商业价值最大化。如此一来,用户越多整个云网结构就会越复杂。如何能够提供长期稳定的网络服务,成为了云计算服务商新的挑战。

除此之外,在AI推理部署的最后一公里,政企用户面临着网络质量提升的需求。在真实场景下,1%的链路丢包会导致TCP性能下降50倍,也就是100Mbps的宽带,实际能力不足2Mbps。因此,提升应用场景本身的网络能力,才可以保证AI算力顺畅流动,实现真正的普惠AI。

由此不难看出,在AI大模型的诞生、传输、应用全流程中,每个环节都面临着网络升级的挑战与需求。大模型时代的运力难题,亟待破局解题。

f6800ffc7a6a2d219119462f0753cc50.png

从星光到星河

智能时代的网络破局思路

大模型崛起带来的网络难题是一个多环节、全流程的挑战。因此,对应的破局思路也必须是一个系统性工程。

华为提出,面向智算云服务的新型网络基础设施,需要支持 “训练高效能”“算力不停歇”“普惠AI服务”。这三项能力,对应了AI大模型从训练到推理部署的全场景。不仅着眼于单一需求满足,单一技术的升级,而是全面推进AI网络迭代,正是华为数据通信带给行业独特的破局思路。

具体而言,AI时代的网络基础设施需要包含如下能力:

首先,在训练场景网络需要最大化发挥出AI计算集群的价值。通过打造具备超大规模联接能力的网络,实现AI大模型的训练高效能。

其次,为了保障AI任务的稳定可持续,需要打造长稳可靠的网络能力,保障月级训练不中断,同时要有秒级的稳定定界、定位和回复,尽可能降低训练中断时常。这就是算力不停歇的能力建设。

再次,AI推理部署过程中,要求网络具有弹性高并发的特质,可以智能编排海量用户流,提供最佳的AI落地体验,同时可以对抗网络劣化冲击,保障不同区域间AI算力顺畅流动,这也就实现了“普惠AI服务”的能力建设。

秉承这样的破局思路,华为最终带来了星河AI网络解决方案。它把散落的AI星光,基于强大运力联成一片星河。

星河AI网络

给大模型纪元一个运力答案

a5dcaf4a60ad042d4a038ae3e5336390.png

华为全联接大会2023的期间,华为分享了对以大算力、大存力、大运力加速AI大模型打造的发展愿景。新一代华为星河AI网络解决方案,就可以说是面向智能时代,华为为大模型带来的运力答案。

对于智能数据中心来说,华为星河AI网络是以网强算的最优解。

c65eaac4983486f7546e6bc2fa49af16.png

其所具备的超高吞吐网络特质,可以面向智算中心的AI集群提供提升网络负载率,强化训练效率的重要价值。具体来说,星河AI网络智算交换机具有业界最高密400GE和800GE端口能力,仅2层交换网络就可以实现1万8000卡的无收敛集群组网,从而支持超万亿参数的大模型训练。组网层次一旦减少,就意味着数据中心能够节省了大量的光模块成本,同时提高对网络风险的可预测性,获得更加稳定的大模型训练能力。

星河AI网络可以支持网络级负载均衡NSLB,能够将负载率从50%提升到98%,相当于实现AI集群超频运行,继而将训练效率提升20%,达成高效能训练的预期。

26e787896cdb685e0f1eb08ebe68ade3.png

对于云服务厂商来说,星河AI网络可以提供稳定可靠的算力保障。

其能够在DCI算间互联场景,提供多路径智能调度等技术,自动识别、主动适应业务高峰流量的冲击,可以从百万数据流中识别大小流,合理分配到10万路径,从而实现网络0拥塞,弹性保障高并发的智算云服务。

对于政企用户来说,星河AI网络可以应对网络劣化问题,保障普惠化的AI算力。

其能够在DCA入算场景支持弹性抗劣化能力,采用Fillp技术优化TCP协议,可以在1%丢包率的情况下将带宽负载率从10%提升至60%,从而保障从都市圈到偏远地区的算力顺畅流动,加速AI服务的普惠应用。

如此一来,大模型从训练到部署各个环节的网络需求都被打通。从智算中心到千行万业,都有了以网强算的发展支点。

一个属于智能化的时代,一个由大模型开启的科技新纪元刚刚开始。星河AI网络,给智能时代写下了一个关于运力的答案。

4df45e209ebee00420063dd090991abf.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/88787.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

diskGenius专业版使用:windows系统下加载ext4 linux系统分区并备份还原资源(文件的拷贝进、出)

前言 EXT4是第四代扩展文件系统(英语:Fourth extended filesystem,缩写为 ext4)是Linux系统下的日志文件系统,是ext3文件系统的后继版本。 所以我们在windows系统下是不能识别的,也不能对其写入、拷贝出文…

Azure AD混合部署,通过 Intune 管理设备,实现条件访问

需求: 公司要求,非公司设备不允许使用 邮箱,Teams等O365服务。 我们可以通过 Intune 中的 "条件访问" 解决这个问题。 一、设备同步到 AAD 1、配置 AAD Connect 2、选择 3、下一步 4、配置本地 企业管理员 5、配置成功 二、设备…

DataExcel控件读取和保存excel xlsx 格式文件

需要引用NPOI库 https://github.com/dotnetcore/NPOI 调用Read 函数将excel读取到dataexcel控件 调用Save 函数将dataexcel控件文件保存为excel文件 using NPOI.HSSF.UserModel; using NPOI.HSSF.Util; using NPOI.SS.UserModel; using NPOI.SS.Util; using System; using …

torch.sum()——dim参数

dim指在dim的这个维度上,对tesnor 进行求和,如果keepdim(保持维度)False,返回结果会删去dim所指的这个维度。以下面的例子分析dim的参数~ torch.tensor([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]]) print(…

【C++STL基础入门】list交换、翻转,排序、合并和拼接操作

文章目录 前言一、交换list二、翻转list三、排序list四、合并list五、拼接list总结 前言 在C的标准模板库(STL)中,list是一个双向链表容器,提供了丰富的功能和操作。本文将介绍list容器在交换、翻转、排序、合并和拼接等方面的基…

消息中间件

rabbitmq如何保证消息不丢失? 先要看生产者发送消息再哪个环节会丢失? 1 生产者发送消息到交换机失败(生产者服务宕机) 2 交换机到队列失败 3队列中消息丢失 消息失败后怎么处理呢? 可以设置回调方法重发 记录日…

【JVM】运行时数据区之方法区——自问自答

开局从康师傅那里借图几张 线程共享与私有 《Java虚拟机规范》中明确说明:“尽管所有的方法区在逻辑上是属于堆的一部分,但一些简单的实现可能不会选择去进行垃圾收集或者进行压缩。” 但对于HotSpotJVM而言,方法区还有一个别名叫做Non-Heap(非堆)&#…

Vue之ElementUI之动态树+数据表格+分页(项目功能)

目录 前言 一、实现动态树形菜单 1. 配置相应路径 2. 创建组件 3. 配置组件与路由的关系 index.js 4. 编写动态树形菜单 5. 页面效果演示 二、实现数据表格绑定及分页功能 1. 配置相应路径 2. 编写数据表格显示及分页功能代码 BookList.vue 3. 演示效果 总结 前言…

vue 普通组件的 局部注册

vue 普通组件的 注册 11 Vue2_3入门到实战-配套资料\01-随堂代码素材\day03\素材\00-准备代码\小兔鲜首页静态页\src

蓝桥杯每日一题20223.9.26

4407. 扫雷 - AcWing题库 题目描述 分析 此题目使用map等都会超时,所以我们可以巧妙的使用哈希模拟散列表,哈希表初始化为-1首先将地雷读入哈希表,找到地雷的坐标在哈希表中对应的下标,如果没有则此地雷的位置第一次出现&#…

MySQL基础篇-约束

目录 1.约束概述 2.分类 3.测试user表的约束情况 主键约束 非空约束及唯一约束 检查约束 默认约束 4.外键约束 外键约束的语法 外键约束的删除/更新行为 小结 1.约束概述 MySQL约束(Constraints)是用于确保表中数据完整性和一致性的规则。它们定…

vue3 + mark.js | 实现文字标注功能

页面效果 具体实现 新增 1、监听鼠标抬起事件,通过window.getSelection()方法获取鼠标用户选择的文本范围或光标的当前位置。2、通过 选中的文字长度是否大于0或window.getSelection().isCollapsed (返回一个布尔值用于描述选区的起始点和终止点是否位于一个位置&…

2.(vue3.x+vite)组件注册并调用

前端技术社区总目录(订阅之前请先查看该博客) 关联博客 1.(vue3.x+vite)封装组件 一:umd调用方式 1:引入umd.js <script src="./public/myvue5.umd.js"></script>2:编写代码调用 (1)umd方式,根据“5

爬虫 — 多线程

目录 一、多任务概念二、实现多任务方式1、多进程 &#xff08;Multiprocessing&#xff09;2、多线程&#xff08;Multithreading&#xff09;3、协程&#xff08;Coroutine&#xff09; 三、多线程执行顺序四、多线程的方法1、join()2、setDaemon()3、threading.enumerate() …

Vue+ElementUI实现动态树和表格数据的分页模糊查询

目录 前言 一、动态树的实现 1.数据表 2.编写后端controller层 3.定义前端发送请求路径 4.前端左侧动态树的编写 4.1.发送请求获取数据 4.2.遍历左侧菜单 5.实现左侧菜单点击展示右边内容 5.1.定义组件 5.2.定义组件与路由的对应关系 5.3.渲染组件内容 5.4.通过动态…

Denoising diffusion implicit models 阅读笔记

Denoising diffusion probabilistic models (DDPMs)从马尔科夫链中采样生成样本&#xff0c;需要迭代多次&#xff0c;速度较慢。Denoising diffusion implicit models (DDIMs)的提出是为了加速采样过程&#xff0c;减少迭代的次数&#xff0c;并且要求DDIM可以复用DDPM训练的网…

lv5 嵌入式开发-7 有名管道和无名管道

目录 1 进程间通信介绍 2 无名管道 2.1 无名管道特点 ​编辑 2.2 读无名管道 2.3 写无名管道 3 有名管道 3.1 有名管道特点 3.2 写有名管道 3.3 读有名管道 掌握&#xff1a;进程间通信方式介绍、无名管道特点、无名管道创建、无名管道读写特性&#xff1b;有名管道…

深入浅出DAX:SELECTEDVALUE()

深入浅出DAX&#xff1a;SELECTEDVALUE() SELECTEDVALUE()&#xff0c;如果筛选 columnName 的上下文后仅剩下一个非重复值&#xff0c;则返回该值。否则返回alternateResult&#xff0c;语法如下&#xff1a; SELECTEDVALUE(<columnName>[, <alternateResult>] …

Rabbit消息的可靠性

生产者重连 消费者重试 Confirm模式简介 消息的confirm确认机制&#xff0c;是指生产者投递消息后&#xff0c;到达了消息服务器Broker里面的exchange交换机&#xff0c;则会给生产者一个应答&#xff0c;生产者接收到应答&#xff0c;用来确定这条消息是否正常的发送到Broker…

【大数据】Doris 构建实时数仓落地方案详解(三):Doris 实时数仓设计

本系列包含&#xff1a; Doris 构建实时数仓落地方案详解&#xff08;一&#xff09;&#xff1a;实时数据仓库概述Doris 构建实时数仓落地方案详解&#xff08;二&#xff09;&#xff1a;Doris 核心功能解读Doris 构建实时数仓落地方案详解&#xff08;三&#xff09;&#…