今天,我们正在进入AI的工业变革拐点期。所谓AI的工业变革,主要指以大模型AI所引发的通用AI和以通用AI为目标构建的工业标准化AI智算基础设施。
在通用计算时代,X86所代表的工业标准化技术体系造就了企业IT、互联网与云数据中心。而在智算时代,新的工业标准化技术体系即将涌现,进而带来新的工业标准化AI智算基础设施。
在全球市场,NVIDIA是AI工业变革新生力量的代表。根据The Next Platform,NVIDIA在2023年实现数据中心市场大跃进,一路跃升到第一的位置。从芯片起家的NVIDIA,以软件、硬件、应用和生态的协同系统优势,正在开创工业标准化的AI智算基础设施赛道。
而作为全球第二、中国第一服务器厂商以及数据中心系统厂商,浪潮信息不能错失这一历史机遇。
在2024年4月17日举行的IPF2024浪潮信息生态伙伴大会上,浪潮信息董事长彭震表示:人工智能是百年一遇的机遇,人工智能与各行各业应用相结合,将迸发出巨大的生产力,改变千行百业、带来颠覆性变化,未来每一台服务器都将是AI服务器,万卡集群将是AI算力系统的设计起点。
在新起点,浪潮信息正打造软件、硬件、应用和生态的协同系统优势,迎接继云计算之后的下一波企业IT系统新浪潮。
新的工业标准化系统
过去18年,以公有云为代表的云计算,是企业IT系统的进化。
之前的企业IT,在X86技术体系下,形成了以VMware虚拟化、Oracle数据库、微软操作系统、英特尔CPU、思科网络设备、EMC存储、IBM服务器等为代表的工业标准化体系和百台服务器规模的企业数据中心。
云计算的出现,形成了以Linux、K8S、Docker、CNCF云原生生态以及自研X86服务器为代表的新一代工业标准化体系和万台服务器规模的超大互联网与云数据中心。
深度学习和机器学习的广泛应用,带动了以GPU为代表的加速计算体系发展,大模型的出现进一步加剧了加速计算体系对于传统CPU通用计算体系的颠覆。
Gartner近期发布的2024年CIO和技术高管调研显示,超过60%的中国企业计划在未来12至24个月内部署生成式AI。由于中国企业倾向于在本地而非通过公有云部署生成式AI,目前的基础设施环境无法支持生成式AI项目,这将推动中国企业数据中心的设计转型。
Gartner指出:从零开始构建基础模型或微调模型需要部署大规模GPU集群,这将对现有数据中心带来颠覆。因为生成式AI模型的训练需要高吞吐量、低延迟和无损的基础设施。为了支持此类高性能计算集群,必须对网络、存储、电力供应和冷却系统进行升级。在某些情况下,需要对现有设施进行改造,以承载升级后的基础设施。
不仅仅是中国,在全球市场,即使是微软、谷歌、Meta等科技巨头,也在重新设计数据中心,以迎接生成式AI的浪潮。
大模型之所以能够驱动企业IT的工业标准化体系重塑,是因为大模型软件本身是一个全新的软件品类,被认为是新的“操作系统”,大模型计算的核心是GPU而不再是CPU,大模型还在变得更“大”。
北京智源人工智能研究院副院长兼总工程师林咏华在IPF 2024上表示,2024年将进入大模型2.0时代:更大的模型——千亿参数和万亿参数;更长上下文的多模态、文生视频模型;更大的训练数据集——从TB级迈向PB级。
而大模型2.0将拉动更为巨大的算力需求,芯片、服务器集群、存储与计算、数据中心网络,每一层都面临重塑,整个系统将协同创新。
例如,万卡及以上的组网已经成为下一代智算中心的建设重点,但当前国内基于RoCE的万卡高性能AI集群组网方案都是全自研路线,企业研发投入巨大且容易重复造轮子,如果不能形成标准化的方案,就无法推动下一代智算中心的网络方案和产品朝向产业化发展,而万卡组网还将是网络、软件、硬件等的系统协同创新。
为什么系统创新对于大模型来说至关重要?我们知道,GPT-3的训练算法效率只有21%,其余79%的算力都被浪费掉了。这是因为在大模型的大规模计算中,单点效率非常有限,而系统的互联、高效组织和协调、算法与互联的优化等变得越来越重要。
大模型AI系统通过系统调优所带来的收益是巨大的:自2017年Transformer诞生以来至今,按照每18个月芯片性能翻一番的摩尔定律,那么芯片性能只提升了8倍,但人工智能计算的性能提升却超过1000倍,这不仅源于芯片制程的优化,更是整个系统的全面提升。
毫无疑问,大模型2.0将推动人工智能和智算中心的系统创新,以及从全自研走向新的工业标准化。
如果说NVIDIA是封闭的“iOS”生态路线,那么以浪潮信息为代表的更多厂商将开创 “Android”生态路线,以应用为导向、以系统为核心,通过开源开放形成新的工业标准技术体系,推动生成式AI的产业化,为全社会普遍释放新的生产力。
打响系统变革第一枪
在百年一遇的机遇面前,浪潮信息作为服务器产业链的“链主”企业,必须要在挑战面前迎难而上,站在全新的维度思考下一代工业标准化的企业IT系统。
IPF 2024作为第十届IPF大会,也是浪潮信息全新亮相的一次盛会。在本次大会上,浪潮信息从万卡集群的AI算力系统角度,推出了从大模型和平台软件到服务器、网络与存储的全新系统产品与服务,为AI智算基础设施的“Android”路线,打响了第一枪。
在IPF 2019上,浪潮信息推出了“元脑”品牌,当时是浪潮信息的AI计算品牌,主要承载以深度学习和机器学习为代表的人工智能全栈能力。
IPF 2024正逢大模型推动的通用人工智能时代,浪潮信息总经理胡雷钧在IPF 2024上表示,未来一切计算皆AI,“元脑”全面升级为包括浪潮信息所有计算产品的智算品牌,同时“元脑”也是生态品牌。
在“元脑”品牌统领下,浪潮信息在IPF 2024上亮相了全新的面向大模型与生成式AI的智算系统,包括基础大模型、大模型开发平台、可运行千亿参数大模型的AI通用服务器、面向万卡集群的超级AI以太网交换机和大模型应用专用存储。
在基础大模型方面,浪潮信息在2021年就发布2457亿参数的“源1.0”中文语言大模型,并全面开源。2023年成功研发并开源千亿参数“源2.0”基础大模型,“源2.0”基础大模型包含1026亿、518亿、21亿三种参数规模,在代码编程、逻辑推理、数学计算等多方面展示出了先进的能力。
在前期推动大模型落地应用实践中,浪潮信息发现了诸多问题,例如开发完大模型和生成式AI应用后,经常又需要重新部署在新的芯片架构上,适配难度大、成本高企是常态。
为此,浪潮信息发布了面向企业大模型开发的软件平台,这就是“元脑企智EPAI(Enterprise Platform of AI,EPAI)”。
EPAI为企业AI大模型落地应用提供高效、易用、安全的端到端开发平台,提供数据准备、模型训练、知识检索、应用框架等系列工具,支持调度多元算力和多模算法,帮助企业高效开发部署生成式AI应用、打造智能生产力。
EPAI解决了企业大模型和生成式AI应用开发流程复杂、门槛高,以及多元多模适配难、成本高等落地难题。
在落地大模型与生成式AI应用方面,EPAI具有更高的生产力,例如:
EPAI提供上亿条基础知识数据,同时提供自动化的数据处理工具,帮助行业伙伴和企业客户整理行业数据和专业数据,生成高质量的微调数据和行业/企业知识库,打造企业专属数据资产;
EPAI提供高效的微调工具,可支持千亿参数模型面向产业知识的快速再学习,并让模型具备百万Token的长文档处理能力,可以更好地适应具体行业场景下的任务需求,快速打造领域大模型;
EPAI支持检索增强生成(RAG)技术,通过本地化检索基础知识+行业知识+企业知识,能弥补微调大模型知识更新不及时的问题,确保专业场景下大模型生成内容的准确性和可靠性;
EPAI支持主流开源与闭源大模型的应用快速开发,提供面向多模和多元算力的计算框架,能够实现大模型应用在跨算力平台上的无感迁移,降低多模、多元的适配与试错成本;等等。
有了源基础大模型和EPAI大模型开发平台,浪潮信息在算力方面继续推进多样化的AI算力服务器。
在IPF2024上,浪潮信息与英特尔联合发布了AI通用服务器,首款AI通用服务器NF8260G7在通用处理器平台上首次实现单机可运行千亿参数“源2.0”大模型,灵活满足AI大模型应用,以及云、数据库等企业通用算力场景,同时为企业提供智能和通用算力。
针对大模型为数据中心带来的网络挑战,浪潮信息在IPF 2024上发布了全新超级AI以太网交换机X400,基于Spectrum-X,相比传统RoCE网络,可实现业界最高以太网利用率达95%,通信时延降低30%,性能提升至1.6倍,无限接近InfiniBand, NVIDIA Megatron-LM大模型训练速度最高可以提升70%,大幅缩短训练时长并降低训练成本。
面对大模型训练和推理的存储需求,浪潮信息认为要具备支持多协议、高带宽、低延迟、数据高效流转等能力,因此在IPF 2024上重磅发布面向大模型应用的专用存储AS13000G7-N系列,该系列是围绕NVMe SSD高效适配和优化的分布式存储系统,能提供TB级带宽、千万级IOPS、EB容量,满足大模型存储在性能和容量方面的要求。
从实战中来、回到实战中去
正如同NVIDIA耗费数年之功,终在GTC 2024上推出产品化模块化的智算中心,从而定义了AI工业革命的“iOS时刻”;浪潮信息在IPF 2024上推出面向大模型与生成式AI的全栈AI智算基础设施,也是前期经历了深入用户场景实战,最终将实践成果汇聚成标准化的产品,再提供给更多用户大规模实践,从而打开了AI工业革命的“安卓时刻”。
在IPF 2024上,浪潮信息AI软件研发总监吴韶华介绍,大模型在行业应用中落地会遇到很多挑战,例如需要获得专业知识,而专业或行业/企业数据的处理难度很高——不仅数据种类多样,而且分散在企业内部不同的环节和部门。
如果企业从头开始构建一个完整的大模型应用,首先需要整理数据搭建知识库与微调数据,再结合数据进行大模型微调,为了不断更新专业知识还需引入知识检索技术,同时大模型的部署和应用落地还需要管理内部的算力资源,上线后形成一套完整的大系统后还要进行运维……
“这套流程包括多个环节,流程门槛高、技术门槛高,对任何一个想从零开始构建的新团队,最大的可能就是走到中间就放弃了”,吴韶华对于大模型实战之难深有体会。
EPAI的诞生就汲取了浪潮信息团队所踩过的坑。
其中一种“坑”,就是在大模型开发完毕,运行一段时间后,可能会需要重新部署到新的芯片架构上,例如切换到新的加速芯片上或现有加速芯片的代际升级等,这个过程基本上就重构了底层硬件,适配难度非常大,成本也很高。
在这个过程中,浪潮信息越来越深刻地感觉到,如果能有面向企业用户的大模型开发软件平台,对用户来说无疑具有很高的价值。于是,浪潮信息在2022年孵化了EPAI软件的原形,之后一直迭代至今。
在服务器硬件方面,浪潮信息通过硬件解耦、构建通用软件代码库等,实现了x86、ARM、Power等不同架构处理器的优化适配,为用户业务场景打造最适合的算力系统。
面向AI大模型训练及推理场景,浪潮信息NF5698G7支持15种基于OAM标准的开放加速芯片,并为用户构建了一个千卡液冷集群,支持超千亿参数量的AI大模型训练。
浪潮信息AI通用服务器NF8260G7在2U空间支持4颗英特尔处理器,支持AMX等AI加速功能,内存带宽1200GB/S,全链路UPI总线互连、传输速率高达16GT/s,满足千亿大模型低延时要求。
而工程师在精度几乎无损情况下,将1026亿参数的源2.0大模型进行NF4归一化数据量化,模型容量缩小至1/4,并通过 DeepSpeed 张量并行,将参数均分到4颗CPU上运行,提升4倍的计算效率,业界首次实现基于CPU处理器的千亿参数模型推理。
浪潮信息之所以选择打造超级AI以太网交换机而不是专用网络,是因为专用网络需要独立组网、部署和运维难度较大,随着千亿参数的AI大模型从大规模集群训练转向训练与推理一体化,数据中心用户需要构建基于云的大规模分布式集群,在提供高性能网络的同时还要满足AI大模型用户的多租户、多任务负载,高性能超级AI以太网络就成为最优选择。
经过实测,配置2048块GPU的集群训练220亿参数的大模型,训练数据集为3.5TB,采用以太、超级AI以太和专用网络三种网络,集群运行效率分别为62.5%、99.8%和100%,超级AI以太网络性能提升至传统以太网的1.6倍。
大模型训练推理过程中的数据处理是另一个实战难题。
例如:在数据准备阶段,通常原始数据量大、来源广泛、格式多样,筛选和清洗出高质量数据变得尤为困难,数百TB的数据预处理往往耗费十几天时间,让客户无法忍受;而在模型训练阶段,训练前的海量小文件数据加载、训练中断后高效拉起Checkpoint数据,都对IO处理效率提出更加严苛的要求;同时,多个数据资源池无法互通、训练结束后的海量冷数据如何归档等也是难题。
因此,浪潮信息认为面向大模型应用的存储要具备支持多协议、高带宽、低延迟、数据高效流转等能力,并推出了专业存储AS13000G7-N系列。
凭什么推动新技术浪潮?
对于浪潮信息,很多人的印象是:全球第一的AI服务器厂商,全球第二、中国第一服务器厂商,全球前三存储厂商,中国第一的液冷服务器厂商……总而言之就是硬件厂商。
但对于“iOS”或“Android”的链主企业苹果和谷歌而言,软件与服务才是最大的创新力。如果要推动万亿参数、万卡集群大模型时代的AI智算基础设施“Android”路线,浪潮信息就必须具备强大的软件能力与硬件能力,同时还要不断打造开源开放社区领导力。
打造自己的软实力和开放开源社区领导力,是浪潮信息在近来年一直在埋头苦干的方向。
在软实力方面,浪潮信息自研的算法模型,正在从以单模态、自监督学习为特征的第二阶段,向以多模态、自监督学习为特征的第三阶段演进,提出了面向大模型的智能算法,精度持续提升。
“源2.0”大模型采用全面开放开源策略,全系列模型参数和代码均可免费下载使用。
浪潮信息在“源2.0”的研发过程中,针对算法、数据和计算方面进行了创新。
浪潮信息在源2.0的算法层面提出一个新型的注意力结构——局部增强的注意力机制(LFA),这种注意力机制不仅能够全面考虑自然语言里长序列之间的相互关系和影响,而且更加准确捕获自然语言中局部性的依赖。
基于LFA结构的算法创新,源2.0探索出一个在有限算力资源、有限数据质量、有限参数规模的情况下,提升模型精度的新方向,虽然最大参数量只有千亿,但是能够在数理逻辑、代码生成、知识问答、中英文翻译、语义理解等方面实现高水平表现。
在源2.0的预训练阶段,使用了书籍、百科、论文等高质量中英文资料,并结合高效的数据清洗流程,为大模型训练提供了高质量的专业数据集和逻辑推理数据集。为了更高效地获得中文数学数据和代码数据,采用了基于大模型的数据生产及过滤方法,确保数据多样性的同时提高了数据质量。
源2.0大模型采用非均匀流水并行方法,综合运用流水线并行+优化器参数并行+数据并行策略,让模型在流水并行各阶段的显存占用量分布更均衡,避免出现显存瓶颈导致的训练效率降低的问题。
该方法显著降低了大模型对芯片间P2P带宽的需求,能够打破传统大模型训练对于高性能、高带宽的算力要求,让AI大模型在有限算力水平上实现更多智能涌现。
从2021年至今,浪潮信息通过自研大模型的开源开放,推动了整个大模型行业的创新力。
例如,浪潮信息开放了1TB高质量的数据集,该数据集已经支撑了超过50家大模型企业的研发;目前“源开发者社区”已汇聚了近万名高水平开发者,孵化出众多创新应用;“源 2.0”的开源开放,有望进一步化解大模型落地的算力、算法、数据挑战。
在AI软件基础设施层面,浪潮信息开发了大模型智算软件栈OGAI (Open GenAI Infra),为大模型业务提供AI算力系统环境部署、算力调度保障、模型开发管理和模型应用创新能力。
其中,浪潮信息AIStation智能业务生产创新平台是浪潮信息面向企业人工智能开发与推理场景的高效人工智能资源平台,实现了算力的统一调度和模型开发、训练、测试、发布的全流程一站式高效交付,为环境构建、模型开发、模型训练、模型评估、模型部署全链路全面提速,加快AI开发应用创新。
在算力层面,浪潮信息通过深度参与和领导开源开放计算社区,推动面向AI的新工业标准体系。作为 OCP、ODCC、Open19全球三大开放计算组织的核心成员,以及OCTC开放计算标准工作委员会的创始成员,浪潮信息是唯一一家同时加入全球四大开放计算组织的服务器供应商。
目前,浪潮信息已积极参与面向 AI、边缘等标准规范的建立,并牵头服务器全部国标、OAM规范、天蝎标准、边缘OTII规范、OpenBMC、OpenRMC管理标准等。
值得一提的是,芯片多元化、芯片生态割裂化是发展工业标准化AI算力基础设施的重大挑战,浪潮信息从2018年就开始推进开放加速规范(OAM)和产品技术创新。
OAM是开放组织提出的异构计算加速芯片互联开放标准,很多AI芯片厂商都基于OAM开发芯片,符合OAM标准的芯片可以在一台机器上运行,极大降低了产业创新难度、技术创新试错成本和适配成本、促进了算力创新,浪潮信息在2023年面向全行业公布了《开放加速规范AI服务器设计指南》,大幅缩短AI加速卡与AI服务器的适配周期。
面向加速计算的大趋势,浪潮信息已经进行了大量研发、创新和开源开放社区工作,远远走出了服务器硬件厂商的“舒适区”。
例如,浪潮信息在全球系统性能评测标准组织SPEC中,担任开放系统指导委员会(Open System Steering Committee,即 OSSC)委员,并连任SPEC ML(Machine Learning)技术委员会主席,致力于AI相关行业基准测试工作的开展,这些都突破了业界对于硬件厂商的刻板印象。
总结而言:浪潮信息已经从AI智算产业后端走向了前台,正在汇聚起大算力和大模型时代的AI智算基础设施“Android”路线领导力。如果说苹果和谷歌是智能手机产业的两大链主企业,那么NVIDIA和浪潮信息就有望成为AI智算基础设施产业的两大新链主企业——NVIDIA主打封闭的自主技术路线、浪潮信息则有望领导开源开放的新工业标准技术体系,引发AI工业变革的“iOS时刻”和“安卓时刻”同时出现,必将加速AI奇点时刻到来,真正打开人类的AI时代大门。(文/宁川)