新华三通用大模型算力底座方案:为AI时代注入强大动力

在人工智能技术日新月异的今天,大模型作为推动AI进步的重要驱动力,是百行百业不断追逐的热点。大模型以其强大的泛化能力、卓越的模型效果和广泛的应用场景,正改变着人工智能的未来。作为国内领先的ICT解决方案提供商,新华三集团凭借其在算力服务器、无损网络、高性能存储和算力调度平台等领域的丰富经验和技术实力,推出了新华三通用大模型算力底座方案,旨在为AI时代注入强大动力。

大模型发展的机遇与挑战

大模型是指具有大量参数的机器学习模型,不同领域内,大模型的参数量级有所不同:自然语言(NLP)类模型,普遍认为超过50亿(5B)参数才算是大模型;而要达到与ChatGPT相仿的能力一般需千亿规模(100B)参数,例如我们常提到的GPT-3(175B)就属于生成式语言模型;而计算机视觉(CV)类模型,目前50亿(5B)参数的就属于大模型级别了。

大模型的优势在于其强大的泛化能力,通过在海量数据上进行预训练使得大模型能够学习到大量通用知识、捕捉到更多细节,这使得大模型在面临新的任务时,只需要进行微调就能迅速适应,从而在具体任务中取得更好的表现;同时,大模型还具有广泛的应用场景,从文本生成、机器翻译到图像识别、语音识别,大模型都能发挥重要作用。

大模型关键技术支撑

大模型业务分为预训练、微调、推理三个主要阶段,每个阶段具体内容如下图所示:
在这里插入图片描述

大模型训练技术简述:
一、并行策略选择:

大模型多机并行训练时,大部分会用到模型并行和数据并行策略,少部分会用到专家并行策略;模型并行又分为张量并行和流水线并行,以下仅对常用的三种并行策略进行简要说明:

1、张量并行:
在这里插入图片描述
将模型进行层内切分,每张GPU保存模型同一层的部分参数,所有GPU共享同一批数据;模型参数进行层内切分后部署不同的设备,在前向和反向过程中都需要接收其他设备产生的结果(点对点Send/Recv),同时每 个设备的梯度同样需要聚合后再分发给各个设备进行模型参数更新(AllReduce);通信量与模型规模正相关,单卡可达10GB+,一个Step一次通信。

2、流水线并行:
在这里插入图片描述
将模型进行层间切分,每张GPU保存模型的部分层,同时将Mini Batch划分为若干Micro Batch传入流水线;通过层间切分位置(边界层)点对点Send/Recv同步激活与梯度,正向传激活,反向传梯度;通信量与层间交互相关,一般在MB级别,一Step几十次通信。

3、数据并行:
在这里插入图片描述
相同的模型分布在不同的GPU/计算节点/计算集群上,对数据集进行切分后并行计算;训练时每台设备负责处理不同的mini-batch,由此会产生不同的梯度,系统会将不同设备产生的梯度聚合到一起,计算均值, 再分发给各个设备进行模型参数更新,通信开销主要来源于梯度的聚合和分发,Allreduce同步矩阵乘结果;通信量与batchsize有关,矩阵可达GB级别,一个Step几十次通信。

二、多机训练过程简述:

如下图所示,每个计算POD之间是数据并行,每个POD内部,单台机器内部是张量并行,多台机器之间是流水线并行,下面的示意图是进行一轮Epoch训练的过程。

在这里插入图片描述
第一步,数据并行:数据集按照POD数量拆分后作为样本输入,并行传入到多个模型副本当中。

第二步,张量并行:切分后的每份模型,在第一台机器内部,按照多张GPU执行顺序进行张量并行计算,期间进行多次数据集合运算。

第三步,流水线并行:第一台机器内部的GPU计算完成后通过流水线并行传输到第二台机器的GPU当中,传输的数据为上一台GPU计算的结果(实际会更复杂)。

第四步,重复进行张量并行和流水线并行,直到单一计算POD内的最后一台GPU服务器完成了数据集合运算。

第五步,权重同步:所有计算POD内的多个模型副本在完成一轮Epoch计算后,采用数据并行进行一次全量的权重同步,之后开始进行下一轮Epoch训练,直到收敛为止。

大模型推理技术简述:

在这里插入图片描述
如上图所示,推理服务经程序封装后可看作是需要GPU运行的应用程序,推理服务不持久化数据,所以服务可重入,若需要对推理结果进行沉淀,需要用大数据的手段在服务之外进行API分流监控;由于应用程序无状态,可进行应用程序的负载均衡,以提升推理的并发能力,此部分和普通应用相同;基础设施故障后,应用可以根据策略迁移到其他设备上,但GPU的类型和型号需要和原环境保持一致;若容器形式部署,可以像微服务应用程序一样进行业务层面的编排;若为虚拟机,则可以用基于云上的业务编排系统进行业务编排。

综上对训练和推理技术的分析,可以得出,大模型是一个复杂的系统工程,从数据采集开始,最后到提供相应的大模型服务,落地一个垂直领域的大模型不仅需要高效算法,更需要全面的业务规划和基础设施规划,才能保证大模型高效部署落地。

在这里插入图片描述

当今大模型的发展也面临着如下挑战:

算力层面:受限于部分GPU供应问题,替代方案性能无法延续原有技术方案;此外,众多的GPU卡型号导致测试标准不统一、主机厂商适配进度不一、交付周期不定等问题。

存力层面:需要大模型场景专用存储;提供更高的存储读、写带宽及IOPS;具备良好的扩展性;拥有灵活的数据保护策略。

运力层面:具备高带宽、低延时特性;支持RDMA或RoCE通信协议;可实现快速部署、便捷调优;达到可视化运维、快速定位问题所在。

管理平台:面向大模型业务的专业调度管理平台;多元算力可快速适配、全面纳管;具备大模型全生命周期服务能力;具有完善的运维功能。

总之,大模型是一个复杂的系统工程,从数据采集开始,最后到提供相应的大模型服务,落地一个垂直领域的大模型不仅需要高效算法,更需要全面的业务规划和算力底座规划,才能保证大模型高效部署落地。

新华三算力底座解决方案

面对上述挑战和需求,新华三集团凭借在做的丰富经验和技术实力,推出了新华三通用大模型算力底座方案。该方案可以帮助用户从无到有建设一个私域的大模型算力底座集群,助力垂直行业大模型加速落地。

新华三通用大模型算力底座方案架构图:
在这里插入图片描述

算力解决之道:

新华三秉承多元算力发展理念,采用与NVIDIA高端卡性能接近的国产化加速卡或满足合规要求的Intel或AMD GPU卡;并与多家GPU卡厂商深度合作,基于不同厂商优势特性,形成算力芯片评测标准,以客户不同算力需求为导向匹配最优选择,并自建适配标准、实现快速交付,形成多元高效的算力体系。
在这里插入图片描述
存力解决之道:

新华三针对大模型场景,推出专用CX系列存储;单节点20GB/s+带宽、30万IOPS;轻松扩展至PB级可用容量,性能线性增加;数据保护采用多副本或纠删码,供用户按需选择。
在这里插入图片描述
运力解决之道:

新华三SeerFabric或Infiniband满足高带宽、低延时要求;提供优化后的RoCE或原生RDMA通信协议;一键自动化部署、动态闭环调优;网络可视化、智能分析,让运维更高效。
在这里插入图片描述
管理解决之道:

新华三自研大模型场景专用管理平台,傲飞算力平台;自研GPU通用适配框架,适配周期缩短至2周以内;内置大模型全栈工作流,助力AI业务探究;监控、告警全面直观,让运维更轻松。
在这里插入图片描述
AI时代,“算力即生产力”,新华三集团依托“AI in ALL”技术战略,为AI时代的大模型应用提供了全方位的支持。未来,新华三集团将继续秉持“精耕务实,为时代赋智慧”的理念,持续升级产品及解决方案,充分发挥“算力×联接”的倍增效应,持续进化通用大模型算力底座方案,加速百行百业拥抱AI技术的美好未来。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/39389.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux kfence使用与实现原理

0 背景 为了更好的检测linux kernel中内存out-of-bounds、mem-corruption、use-after-free、invaild-free等问题,调研了kfence功能(该功能在linux kernel 5.12引入),帮助研发更好的分析与定位这类内存错误的问题。 一、kfence介…

【ES】--Elasticsearch的Nested类型介绍

目录 一、问题现象二、普通数组类型1、为什么普通数组类型匹配不准?三、nested类型四、nested类型查询操作1、只根据nested对象内部数组条件查询2、只根据nested对象外部条件查询3、根据nested对象内部及外部条件查询4、向nested对象数组追加新数据5、删除nested对象数组某一个…

2025中国淄博化工展|淄博化工技术展|淄博化工装备展

CTEE2025第九届中国(淄博)化工技术装备展览会 时间:2025年5月16-18日 地点:山东淄博国际会展中心 主办单位:山东省机械工业科学技术协会 青岛蓝博国际会展有限公司 众所周知,山东省是我国化工大省。2023年上半年&am…

Go GMP:并发编程实践

💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

【工具】VS Code使用global插件实现代码跳转

🐚作者简介:花神庙码农(专注于Linux、WLAN、TCP/IP、Python等技术方向)🐳博客主页:花神庙码农 ,地址:https://blog.csdn.net/qxhgd🌐系列专栏:善假于物&#…

粤港联动,北斗高质量国际化发展的重要机遇

今年是香港回归27周年,也是《粤港澳大湾区发展规划纲要》公布5周年,5年来各项政策、平台不断为粤港联动增添新动能。“十四五”时期的粤港澳大湾区,被国家赋予了更重大的使命,国家“十四五”《规划纲要》提出,以京津冀…

时序约束(二): input delay约束和output delay约束

一、input delay约束 在千兆以太网数据收发项目中,RGMII的数据输入方式为DDR,源同步输入方式,可以用之前提到的分析模型进行约束。 在时序约束原理中我们提到,input delay约束的就是发射沿lunch到数据有效的延时,根据…

Linux:网络基础1

文章目录 前言1. 协议1.1 为什么要有协议?1.2 什么是协议? 2. 网络2.1 网络通信的问题2.2 网络的解决方案——网络的层状结构2.3 网络和系统的关系2.4 网络传输基本流程2.5 简单理解IP地址2.6 跨网络传输 总结 前言 在早期的计算机发展中,一开…

【华为战报】5月、6月HCIP考试战报!

华为认证:HCIA-HCIP-HCIE 点击查看: 【华为战报】4月 HCIP考试战报! 【华为战报】2月、3月HCIP考试战报! 【华为战报】11月份HCIP考试战报! 【HCIE喜报】HCIE备考2个月丝滑通关,考试心得分享&#xff…

7.x86游戏实战-C++实现跨进程读写-跨进程写内存

免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 本次游戏没法给 内容参考于:微尘网络安全 上一个内容:6.x86游戏实战-C实现跨进程读写-通过基址读取人物状态标志位 上一个内容通过基…

深层神经网络

深层神经网络 深层神经网络 深度神经网络(Deep Neural Networks,DNN)可以理解为有很多隐藏层的神经网络,又被称为深度前馈网络(DFN),多层感知机(Multi-Layer perceptron&#xff0c…

ghost恢复?电脑文件恢复如何操作?电脑数据恢复工具!5款!

在数字化时代,电脑数据的价值日益凸显。然而,数据丢失、误删、系统崩溃等问题时有发生,给个人和企业带来巨大损失。本文将为您详细介绍Ghost恢复方法,同时推荐五款高效的电脑数据恢复工具,助您轻松应对数据丢失的困扰。…

使用归档实用工具怎么打不开 mac上好用的解压软件 归档实用工具打不开怎么回事 mac 归档实用工具 苹果电脑好用的压缩软件有哪些

Mac系统自带的 “归档实用工具”,集成在系统右键菜单中,包含了文件压缩和压缩包解压功能。很多mac小伙伴会发现有些文件使用归档实用工具打不开。由于专利和软件开源问题,该工具目前仅支持ZIP格式的压缩和解压。同时,对于一些在Wi…

Microsoft SQL Server 2019安装和设置用户密码

1、免费下载两个安装包 SQL2019-SSEI-Dev 地址:https://www.microsoft.com/en-us/sql-server/sql-server-downloads SSMS-Setup-CHS 地址:https://aka.ms/ssmsfullsetup 安装具体不在阐述了,可以参考我这篇文章:SQL Server 2019安装详细教程 2、以W…

Cookie的默认存储路径以及后端如何设置

问题场景 最近在写一个前后端分离的项目,需要跨域,前端开发同学遇到一个问题一直报错,本质上就是后端返回的cookie中的sessionID在前端发送http请求时无法被请求自动携带,每次htttpRequest都被后端识别为一个新的session&#xf…

昇思25天学习打卡营第04天 | 数据集 Dataset

昇思25天学习打卡营第04天 | 数据集 Dataset 文章目录 昇思25天学习打卡营第04天 | 数据集 Dataset数据集加载数据集迭代数据集的变换shufflemapbatch 自定义数据集可随机访问数据集对象可迭代数据集生成器 总结打卡 数据集Dataset对原始数据进行封装、变换,为神经网…

【Rust入门教程】hello world程序

文章目录 前言Hello World程序运行总结 前言 对于学习任何一种新的编程语言,我们都会从编写一个简单的Hello World程序开始。这是一个传统,也是一个开始。在这篇文章中,我们将一起学习如何在Rust中编写你的第一个程序:Hello Worl…

【C语言内存函数】

目录 1.memcpy 使用 模拟实现 2.memmove 使用 模拟实现 3.memset 使用 4.memcmp 使用 1.memcpy 使用 void * memcpy ( void * destination, const void * source, size_t num );目的地址 源地址 字节数 destination:指向要复制内…

20240703 每日AI必读资讯

🤖爆火Character AI惨遭阉割 美国00后集体“失恋” - Character AI曾是00后最火爆的社交软件,但用户发现对话模型变得冷淡,失去趣味。 - 用户流失严重,面临成本高、竞争激烈的挑战,甚至遭到挖角。 - 尽管困难重重&a…

最小步数模型——AcWing 1107. 魔板

最小步数模型 定义 最小步数模型通常是指在某种约束条件下,寻找从初始状态到目标状态所需的最少操作或移动次数的问题。这类问题广泛存在于算法、图论、动态规划、组合优化等领域。具体来说,它涉及确定一个序列或路径,使得按照特定规则执行…