在人工智能技术日新月异的今天,大模型作为推动AI进步的重要驱动力,是百行百业不断追逐的热点。大模型以其强大的泛化能力、卓越的模型效果和广泛的应用场景,正改变着人工智能的未来。作为国内领先的ICT解决方案提供商,新华三集团凭借其在算力服务器、无损网络、高性能存储和算力调度平台等领域的丰富经验和技术实力,推出了新华三通用大模型算力底座方案,旨在为AI时代注入强大动力。
大模型发展的机遇与挑战
大模型是指具有大量参数的机器学习模型,不同领域内,大模型的参数量级有所不同:自然语言(NLP)类模型,普遍认为超过50亿(5B)参数才算是大模型;而要达到与ChatGPT相仿的能力一般需千亿规模(100B)参数,例如我们常提到的GPT-3(175B)就属于生成式语言模型;而计算机视觉(CV)类模型,目前50亿(5B)参数的就属于大模型级别了。
大模型的优势在于其强大的泛化能力,通过在海量数据上进行预训练使得大模型能够学习到大量通用知识、捕捉到更多细节,这使得大模型在面临新的任务时,只需要进行微调就能迅速适应,从而在具体任务中取得更好的表现;同时,大模型还具有广泛的应用场景,从文本生成、机器翻译到图像识别、语音识别,大模型都能发挥重要作用。
大模型关键技术支撑
大模型业务分为预训练、微调、推理三个主要阶段,每个阶段具体内容如下图所示:
大模型训练技术简述:
一、并行策略选择:
大模型多机并行训练时,大部分会用到模型并行和数据并行策略,少部分会用到专家并行策略;模型并行又分为张量并行和流水线并行,以下仅对常用的三种并行策略进行简要说明:
1、张量并行:
将模型进行层内切分,每张GPU保存模型同一层的部分参数,所有GPU共享同一批数据;模型参数进行层内切分后部署不同的设备,在前向和反向过程中都需要接收其他设备产生的结果(点对点Send/Recv),同时每 个设备的梯度同样需要聚合后再分发给各个设备进行模型参数更新(AllReduce);通信量与模型规模正相关,单卡可达10GB+,一个Step一次通信。
2、流水线并行:
将模型进行层间切分,每张GPU保存模型的部分层,同时将Mini Batch划分为若干Micro Batch传入流水线;通过层间切分位置(边界层)点对点Send/Recv同步激活与梯度,正向传激活,反向传梯度;通信量与层间交互相关,一般在MB级别,一Step几十次通信。
3、数据并行:
相同的模型分布在不同的GPU/计算节点/计算集群上,对数据集进行切分后并行计算;训练时每台设备负责处理不同的mini-batch,由此会产生不同的梯度,系统会将不同设备产生的梯度聚合到一起,计算均值, 再分发给各个设备进行模型参数更新,通信开销主要来源于梯度的聚合和分发,Allreduce同步矩阵乘结果;通信量与batchsize有关,矩阵可达GB级别,一个Step几十次通信。
二、多机训练过程简述:
如下图所示,每个计算POD之间是数据并行,每个POD内部,单台机器内部是张量并行,多台机器之间是流水线并行,下面的示意图是进行一轮Epoch训练的过程。
第一步,数据并行:数据集按照POD数量拆分后作为样本输入,并行传入到多个模型副本当中。
第二步,张量并行:切分后的每份模型,在第一台机器内部,按照多张GPU执行顺序进行张量并行计算,期间进行多次数据集合运算。
第三步,流水线并行:第一台机器内部的GPU计算完成后通过流水线并行传输到第二台机器的GPU当中,传输的数据为上一台GPU计算的结果(实际会更复杂)。
第四步,重复进行张量并行和流水线并行,直到单一计算POD内的最后一台GPU服务器完成了数据集合运算。
第五步,权重同步:所有计算POD内的多个模型副本在完成一轮Epoch计算后,采用数据并行进行一次全量的权重同步,之后开始进行下一轮Epoch训练,直到收敛为止。
大模型推理技术简述:
如上图所示,推理服务经程序封装后可看作是需要GPU运行的应用程序,推理服务不持久化数据,所以服务可重入,若需要对推理结果进行沉淀,需要用大数据的手段在服务之外进行API分流监控;由于应用程序无状态,可进行应用程序的负载均衡,以提升推理的并发能力,此部分和普通应用相同;基础设施故障后,应用可以根据策略迁移到其他设备上,但GPU的类型和型号需要和原环境保持一致;若容器形式部署,可以像微服务应用程序一样进行业务层面的编排;若为虚拟机,则可以用基于云上的业务编排系统进行业务编排。
综上对训练和推理技术的分析,可以得出,大模型是一个复杂的系统工程,从数据采集开始,最后到提供相应的大模型服务,落地一个垂直领域的大模型不仅需要高效算法,更需要全面的业务规划和基础设施规划,才能保证大模型高效部署落地。
当今大模型的发展也面临着如下挑战:
算力层面:受限于部分GPU供应问题,替代方案性能无法延续原有技术方案;此外,众多的GPU卡型号导致测试标准不统一、主机厂商适配进度不一、交付周期不定等问题。
存力层面:需要大模型场景专用存储;提供更高的存储读、写带宽及IOPS;具备良好的扩展性;拥有灵活的数据保护策略。
运力层面:具备高带宽、低延时特性;支持RDMA或RoCE通信协议;可实现快速部署、便捷调优;达到可视化运维、快速定位问题所在。
管理平台:面向大模型业务的专业调度管理平台;多元算力可快速适配、全面纳管;具备大模型全生命周期服务能力;具有完善的运维功能。
总之,大模型是一个复杂的系统工程,从数据采集开始,最后到提供相应的大模型服务,落地一个垂直领域的大模型不仅需要高效算法,更需要全面的业务规划和算力底座规划,才能保证大模型高效部署落地。
新华三算力底座解决方案
面对上述挑战和需求,新华三集团凭借在做的丰富经验和技术实力,推出了新华三通用大模型算力底座方案。该方案可以帮助用户从无到有建设一个私域的大模型算力底座集群,助力垂直行业大模型加速落地。
新华三通用大模型算力底座方案架构图:
算力解决之道:
新华三秉承多元算力发展理念,采用与NVIDIA高端卡性能接近的国产化加速卡或满足合规要求的Intel或AMD GPU卡;并与多家GPU卡厂商深度合作,基于不同厂商优势特性,形成算力芯片评测标准,以客户不同算力需求为导向匹配最优选择,并自建适配标准、实现快速交付,形成多元高效的算力体系。
存力解决之道:
新华三针对大模型场景,推出专用CX系列存储;单节点20GB/s+带宽、30万IOPS;轻松扩展至PB级可用容量,性能线性增加;数据保护采用多副本或纠删码,供用户按需选择。
运力解决之道:
新华三SeerFabric或Infiniband满足高带宽、低延时要求;提供优化后的RoCE或原生RDMA通信协议;一键自动化部署、动态闭环调优;网络可视化、智能分析,让运维更高效。
管理解决之道:
新华三自研大模型场景专用管理平台,傲飞算力平台;自研GPU通用适配框架,适配周期缩短至2周以内;内置大模型全栈工作流,助力AI业务探究;监控、告警全面直观,让运维更轻松。
AI时代,“算力即生产力”,新华三集团依托“AI in ALL”技术战略,为AI时代的大模型应用提供了全方位的支持。未来,新华三集团将继续秉持“精耕务实,为时代赋智慧”的理念,持续升级产品及解决方案,充分发挥“算力×联接”的倍增效应,持续进化通用大模型算力底座方案,加速百行百业拥抱AI技术的美好未来。