【国内超大型智能算力中心建设白皮书 2024】

文末有福利！

智算中心建设通过领先的体系架构设计，以算力基建化为主体、以算法基建化为引领、以服务智件化为依托，以设施绿色化为支撑，从基建、硬件、软件、算法、服务等全环节开展关键技术落地与应用。

一、体系架构

（一）总体架构

图8 智算中心总体架构

智能算力中心建设白皮书，重点围绕基础、支撑、功能和目标四大部分，创新性地提出了智算中心总体架构。

其中，基础部分是支撑智算中心建设与应用的先进人工智能理论和计算架构；支撑部分围绕智算中心算力生产、聚合、调度、释放的作业逻辑展开；功能部分提供算力生产供应、数据开放共享、智能生态建设和产业创新聚集四大平台，以及数据、算力和算法三大服务；整体目标是促进AI产业化、产业AI化及政府治理智能化。

（二）技术演进

智算中心的发展基于最新人工智能理论和领先的人工智能计算架构，算力技术与算法模型是其中的关键核心技术，算力技术以AI芯片、AI服务器、AI集群为载体，而当前的算法模型发展趋势以AI大模型为代表。

在此基础上，通过智算中心操作系统作为智算中心的“神经中枢”对算力资源池进行高效管理和智能调度，使智算中心更好地对外提供算力、数据和算法等服务，支撑各类智慧应用场景落地。而软件生态则是智算中心“好用、用好”的关键支撑。

1．AI芯片

基于AI芯片的加速计算是当前AI计算的主流模式。AI芯片通过和AI算法的协同设计来满足AI计算对算力的超高需求。当前主流的AI加速计算主要是采用CPU系统搭载GPU、FPGA、ASIC等异构加速芯片。

AI计算加速芯片发端于GPU芯片，GPU芯片中原本为图形计算设计的大量算术逻辑单元（ALU）可对以张量计算为主的深度学习计算提供很好的加速效果。随着GPU芯片在AI计算加速中的应用逐步深入，GPU芯片本身也根据AI的计算特点，进行了针对性的创新设计，如张量计算单元、TF32/BF16数值精度、Transformer引擎（Transformer Engine）等。

近年来，国产AI加速芯片厂商持续发力，在该领域取得了快速进展，相关产品陆续发布，覆盖了AI推理和AI训练需求，其中既有基于通用GPU架构的芯片，也有基于ASIC架构的芯片，另外也出现了类脑架构芯片，总体上呈现出多元化的发展趋势。但是，当前国产AI芯片在产品性能和软件生态等方面与国际领先水平还存在差距，亟待进一步完善加强。总体而言，国产AI芯片正在努力从“可用”走向“好用”。

2．AI服务器

AI服务器是智算中心的算力机组。当前AI服务器主要采用CPU+AI加速芯片的异构架构，通过集成多颗AI加速芯片实现超高计算性能。

目前业界以NVLink和OAM两种高速互联架构为主，其中NVLink是NVIDIA开发并推出的一种私有通信协议，其采用点对点结构、串列传输，可以达到数百GB/s的P2P互联带宽，极大地提升了模型并行训练的效率和性能。

OAM是国际开放计算组织OCP定义的一种开放的、用于跨AI加速器间的高速通信互联协议，卡间互联聚合带宽可高达896GB/s。

浪潮信息基于开放OAM架构研发的AI服务器NF5498，率先完成与国际和国内多家AI芯片产品的开发适配，并已在多个智算中心实现大规模落地部署。

3．AI集群

**AI集群的构建主要采用低延迟、高带宽的网络互连。**为了满足大模型训练常用的数据并行、模型并行、流水线并行等混合并行策略的通信需求，需要为芯片间和节点间提供低延迟、高带宽的互联。另外，还要针对大模型的并行训练算法通信模式做出相应的组网拓扑上的优化，比如对于深度学习常用的全局梯度归约通信操作，可以使用全局环状网络设计，配置多块高速网卡，实现跨AI服务器节点的AI芯片间RDMA互联，消除混合并行算法的计算瓶颈。

**AI集群的构建需要配置面向AI优化的高速存储。**通过配置高性能、高扩展、多层级的智能存储，为各种数据访问需求提供优化性能。智能存储具备随需扩展功能，实现高IOPS处理能力，支持RDMA技术，同时实现高聚合带宽。
在这里插入图片描述

4．AI大模型

**超大规模智能模型，简称大模型，是近年兴起的一种新的人工智能计算范式。**和传统AI模型相比，大模型的训练使用了更多的数据，具有更好的泛化性，可以应用到更广泛的下游任务中。按照应用场景划分，AI大模型主要包括语言大模型、视觉大模型和多模态大模型等。

**自然语言处理是首个应用大模型的领域，BERT是大模型的早期代表。**随着大模型在自然语言的理解和生成领域成功应用，推动了语言大模型向更大的模型参数规模和更大训练数据规模的方向发展。当前，语言大模型的单体模型参数已经达到千亿级别，训练数据集规模也达到了TB级别，训练所需计算资源超过1000PetaFlop/s-day（PD）。业界典型的自然语言大模型有GPT-4、源、悟道和文心等。自然语言大模型已经广泛应用于个人知识管理、舆情检测、商业报告生成、金融反欺诈、智能客服、虚拟数字人等场景，同时也出现了一系列的创新应用场景，如剧本杀、反网络诈骗、公文写作等。

5．智算OS

智算OS，即智算中心操作系统，是以智算服务为对象，对智算中心基础设施资源池进行高效管理和智能调度的产品方案，可以使智算中心更好地对外提供算力、数据、算法、智件等服务，有效降低算力使用门槛，提升资源调度效率，支撑各类智慧应用场景落地，是智算中心的“中枢神经”。

智算OS主要由三层架构构成，分别为基础设施层、平台服务层、业务系统层。基础设施层主要实现将异构算力、数据存储、框架模型等转化为有效的算力与服务资源，算力资源池能够聚合并进行标准化和细粒度切分，以满足上层不同类型智能应用对算力的多元化需求，并通过异构资源管理和调度技术，提升可同时支撑的智算业务规模。

智算OS以智算中心为载体，通过建设多元、开放的智算平台，融合国际、国内先进人工智能技术，形成标准化、模块化的模型、中间件及应用软件，以开放接口、模型库、算法包等方式向用户提供如行业大模型、自动驾驶、元宇宙、智慧科研等人工智能服务，促进人工智能技术成果的开放与共享，构建开放的智算生态。

二、技术路线

智算中心建设的关键技术涉及与其建设和应用相关的各类基建、硬件、软件，体现在智算中心算力基建化、算法基建化、服务智件化、设施绿色化过程中。

（一）以算力基建化为主体

以智算中心为代表的算力基础设施能够有效促进AI产业化和产业AI化，是支撑数字经济发展的重要基础底座。为了让AI真正地赋能到千行百业，并推动产业数字化转型发展，智算中心要具备对外提供高性价比、普惠、安全算力资源的能力，使AI算力像水、电一样成为城市的公共基础资源，供政府、企业、公众自主取用。算力基建化供给成为支撑产业转型升级以及创新发展的刚性需求和必然选择。

面向潜在算力需求，适度超前规模化部署算力资源数据量的爆炸式增长以及万亿参数大模型的出现，使智能算力需求呈现高速增长态势，并为算力基础设施带来巨大挑战。**在数据量方面，IDC发布的《数据时代2025》预测，到2025年，全球数据量将达到175 ZB，而中国数据量的平均增速快于全球3%，预计到2025年将增至48.6 ZB，占全球数据圈的27.8%。在模型方面，当前1万亿参数的单体模型需要1EFLOPS级算力（FP16）计算约50天，10万亿参数的单体模型需要10 EFLOPS级算力（FP16）计算约50天。因此在智算中心的规划建设中，需要聚焦当前算力应用需求，同时面向未来数据量和大模型大参数量增长空间，适度超前，部署满足AI训练、AI推理等大规模计算需求的强大AI算力机组，构建算力集群，提供大规模弹性算力。

（二）以算法基建化为引领

建设适度超前的算力基础设施，不仅体现在算力层面，也体现在算法层面，这是释放算力环节的关键。人工智能算法正面临着丰富化、专业化和巨量化的挑战，智算中心通过提供预置行业算法、构建预训练大模型、推进算法模型持续升级、提供专业化数据和算法服务，让更多的用户享受普适普惠的智能计算服务。

**1．面向千行百业发展需求，提供多类型预置行业算法AI落地面临开发成本、技术门槛高的难题，算法模型平均构建时间为3个月，同时算法还需要快速的迭代，再加上AI新算法、新理论层出不穷，行业用户的智慧转型存在着巨大的技术壁垒。**智算中心应围绕政务服务、智慧城市、智能制造、自动驾驶、语言智能等重点领域，在AI平台内预置实例分割、目标检测、边缘检测、图像分类、人脸识别、视频感知、自动问答、机器翻译、舆情分析、情感分析、语音识别、协同过滤、交通路线规划等常用行业算法模型，并从硬、软件对行业算法做性能优化，从而帮助各行各业智慧应用加速落地，推动行业智能化转型加速。

**2．面向模型即服务应用需求，构建大规模预训练AI模型在产业AI化和数实融合的背景下，当前的行业做法是针对每一个场景都做一个模型，即“有1万个场景就有1万个模型”。**然而随着以BERT、GPT-3、DALL·E、源1.0等为代表的高泛化能力和高通用性的大模型的出现，一个模型可以覆盖众多场景。“预训练大模型+下游任务微调”的AI工程化模式已成为业内共识，层数、隐向量长度、前馈网络尺寸持续增长，参数规模迅速从亿级增长到百万亿级。

在充足数据和算力的支持下，大模型可以充分学习文本、图像等数据中的特征。智算中心应通过部署大模型所需要的训练、推理和数据处理系统，构建出不同功能、不同模态的大模型（如自然语言处理大模型、视觉大模型、多模态大模型等），从而更加快速地生产出专业的技能模型，并在更多专业场景中实现小型化、轻量化的落地运作。

（三）以服务智件化为依托

随着人工智能应用场景持续拓展和开发用户不断普及，对智能计算需求大幅提升、算法模型功能不断强化的同时，人工智能算法开发和模型训练正在从专业化、高门槛向泛在化、易用型转变，智算中心的发展将由传统的硬件、软件向“智件”升级拓展。“智件”是指智算中心提供人工智能推广应用的中间件产品和服务。

传统用户进行人工智能应用时，除了需要提供业务数据，还需提供算法模型并进行代码开发，“智件”的构建可以改变这种服务模式，通过可视化操作界面，以及低代码开发甚至无代码开发的模式，为用户提供功能丰富、使用便捷的人工智能算力调度、算法供给和个性化开发服务，实现“带着数据来、拿着成果走”的效果。

2．提供简便算法模型服务，实现算法供给“智件化”人工智能是一门极其复杂的学科，要求应用开发者不仅要有扎实的理论功底，还要有高超的编程技术，门槛极高。算法模型是人工智能应用的灵魂，也是智算中心提供服务的主要输出物。从计算智能到感知智能，再到认知智能，人工智能的应用模型越来越复杂，从公共服务到社会治理再到产业发展，人工智能的应用需求越来越广泛，对人工智能模型和算法的要求也越来越高。

为了缓解人工智能模型训练成本高、技术门槛高的问题，智算中心应加强算法供给服务模式的创新，开发可视化操作界面，用户通过API、模块化代码即可获得所需的人工智能应用效果，减轻代码开发压力，使用户无需关注算法和模型本身的复杂技术细节，只需聚焦相应业务领域的业务逻辑和数据就能实现人工智能应用。用户可以基于“智件化”的算法模型进行探索和创新，开发出适用于各种场景的新型智能应用。

3．提供开放生态环境服务，实现供需对接“智件化”人工智能场景日趋丰富，应用需求和技术供给个性化特征明显，为满足部分用户和场景对于人工智能算法优化、系统优化服务的个性化需求，智算中心应构建开放合作生态，加大数据资源供给，聚焦先进的技术并适配典型场景应用。一方面，加大数据供给，数据是人工智能应用的基础，智算中心应打造数据共享平台，推动计算机视觉、自然语言处理、重点行业领域等高质量公开数据集的汇聚，为用户人工智能应用提供增值性数据服务。另一方面，开放发展生态，围绕满足不同用户个性化人工智能应用需求，智算中心应将其计算平台、资源平台和算法平台对外开放，聚集行业内领先企业的力量，及时响应用户个性化需求，提升智算中心技术能力的同时形成新的产业和生产力。

（四）以设施绿色化为支撑

能耗是衡量智算中心发展水平的重要维度之一。“碳达峰、碳中和”目标背景下，国家和地方持续出台政策，进一步规范数据中心的能耗水平和平均电能利用效率（PUE）。为了进一步降低智算中心能耗，设施绿色化是智算中心建设的必然选择。设施绿色化主要包括设备节能化、能源供给绿色化等方面。

**1．采用先进节能技术，全面降低智算中心能耗制冷设备和IT设备是智算中心主要的能耗来源。**液冷技术采用冷却液和工作流体对发热设备进行冷却，利用高比热容的液体代替空气，提升了制冷效率，降低制冷能耗。液冷技术是智算中心制冷的主要发展趋势。数据中心采用全栈布局液冷，冷板式液冷、热管式液冷、浸没式液冷等先进液冷技术，构建包含一次侧二次侧液冷循环、CDU等的智算中心液冷整体解决方案，可以进一步降低能耗、降低PUE，实现绿色化。液冷智算中心采用余热回收技术，可以为智算中心自身以及邻近区域供暖，进一步提升能源利用效率。此外，智算中心采用高压直流、集中供电等高效供配电系统、能效环境集成检测等高效辅助系统、智能监控运维系统等绿色管理系统可以进一步降低能耗。

2．采用绿色清洁能源，从源头上实现绿色低碳

一方面，智算中心的大部分业务负载，特别是企业负载，在时间上主要集中于白天工作时段，与光伏、风电的主要发电时段匹配性较高，无需过多储能与调峰，使得智算中心在运用光伏、风电等绿色电力方面具有天然优势。采用绿色电力供给的智算中心综合运用线性规划、混合整数规划、启发式算法等多种能耗管理方法，可以在降低碳排放的同时也节约电价成本。智算中心采用优化调度与需求响应控制策略，还可作为需求侧可调载荷参与电力需求侧响应，不仅提升智算中心自身能源利用效率，而且提升新型电力系统需求侧资源优化配置效率。

另一方面，智算中心所在的建筑物、园区空间大，可以充分利用，发展屋顶光伏、园区风电等可再生能源发电设施，优化能源绿色供给格局。应用分布式光伏发电、分布式燃气供能等技术可以提升智算中心园区绿色化水平。小型智算中心还可以利用模块化氢燃料电池、太阳能板房等技术优化能源供给格局。

一、智算中心激发AI产业化创新活力

（一）自动驾驶

**自动驾驶是汽车智能化和自动化的高级形态，作为AI技术备受关注的重要落脚点，被公认是汽车出行产业的未来方向之一。**自动驾驶场景的实现，需要通过感知融合、虚拟路测（模拟仿真）、高精地图、车路协同等核心技术将数字世界与实体路况进行深度融合，基于人工智能技术，让车辆能够像人类驾驶员一样准确地识别车道、行人、障碍物等驾驶环境中的关键信息，并及时对周围运动单元的潜在轨迹做出预判。

（二）机器人

机器人是人工智能技术多领域应用的重要载体，主要分为工业机器人、服务机器人和特种机器人。作为一种重要的智能硬件，随着计算机视觉、机器学习、智能语音等多种智能算法技术的进步，机器人产业也将实现飞速的发展。

《中国机器人产业发展报告（2022年）》数据显示，2022年中国机器人市场规模约为174亿美元，五年年均增长率达到22%，其中工业机器人和服务机器人市场规模均保持增长，二者呈现出齐头并进、快速发展的态势。

虚拟数字人

随着AIGC等AI技术的应用，基于AI算法的自动建模将逐步替代手工建模，成为数字人建模的主要方式。与此同时，基于AI算法的数字人驱动也将逐步替代当前以“中之人”驱动为主的真人驱动方式。与此同时，视觉感知、语音识别和语音合成以及自然语言处理等多种AI算法在数字人中的应用，将推动数字人向“数智人”转变，也是虚拟数字人应用普及的关键。智算中心可以为虚拟数字人制作、感知交互提供强大的算力和算法支撑，加速虚拟数字人产业的商业化落地。

二、智算中心助力产业AI化走深向实

（一）智慧医疗

国家统计局《2021年国民经济和社会发展统计公报》显示，2021年全年总诊疗人次85.3亿人次，基本医疗保险覆盖13.6亿人。然而，各个地区医疗服务水平参差不齐，医疗服务资源不均等现象普遍存在，基层患者尤其是偏远地区的患者难以获得高质量的医疗救治。

AI辅助诊断助力解决诊疗“三大难题”当前，医疗诊断主要面临三大挑战：

一是数据量巨大。粗略估算诊疗人次所对应的就医环节及相应的医疗数据质量，加上血压、心率、体重、心电图等医疗监测数据，规模早已突破TB级，并且以“秒”为单位持续更新叠加，需要强有力的算力支撑平台。

二是数据结构多元。不仅包含大量医学术语、专业名称，还包括文档、影像、视频等非结构化数据，对AI服务器等新型智能计算硬件要求较高。

三是数据实时处理要求高。医疗服务中存在大量时间性强和决策周期短的应用场景，如临床中的诊疗和用药建议、健康指标预警等，对在线计算、实时处理的需求显著，亟需构建强大的算力平台支撑基于医疗健康领域数据规模化知识图谱。

（二）文娱创作

近年来，AI在文娱创作方面有诸多突破，通过融合人工智能、认知心理学、哲学和艺术等多个学科，可完成诗词、绘画、音乐、影视、小说等创作。

能各类文化创意、生产生活，为数字内容生产带来巨大变革。AI大模型和开放平台为文娱创作提供技术支撑随着各类AI大模型及支持开发者创作的各类AI开源平台的陆续上线，用户可以获取涵盖开源模型API、高质量中文数据集、模型训练代码、推理代码、应用代码、面向AI芯片的模型移植开发等内容的多场景服务。

大模型开放平台的出现极大地降低了文娱类AI应用的开发门槛，即使是几乎没有任何编程经验的文娱创作者，通过在平台上进行简单学习，也可以快速实现文娱类AI应用的开发。AI大模型和AI开源平台作为智算中心算法基建化的重要构成，配合其强大的算力资源，将为创作者打造一片创作的乐土。

（三）智慧科研

AI技术成为继计算机之后，科学家新的生产工具，并催生出了新的科研范式AI for Science。科学家们用AI技术去学习科学原理，根据实验或者计算产生的数据对所求解的科学问题进行建模，从而使复杂问题得到有效解决。近年来，AI也被证明能用来做规律发现，帮助人类从大量的复杂数据中，抽取一些人类观察不到的高维信息和高价值规律，不仅在应用科学领域，也能在自然科学领域发挥作用。AI for Science 不仅带来了科研效率的显著提升，还能降低科研成本，让更多人都能参与到科学研究中来。

1．生命科学

随着大数据和人工智能的发展、普及和成熟，越来越多的科学研究从假设推动的范式向数据驱动的范式转变，利用大数据和计算机技术挖掘科学洞见。在生命科学领域，通过采用深度学习方法处理海量数据，已经在蛋白质结构预测等领域实现了落地应用。

在智能算力的支持下，DeepMind开发了基于注意力机制深度神经网络的AlphaFold2模型，通过对当前已经测序的数十万蛋白质结构数据和数百万蛋白质序列数据进行学习，实现了端到端直接预测蛋白质的三维结构，并取得了突破性进展，预测结果准确率达到了92.4%。相较于使用费用高昂的实验仪器，单个蛋白结构的预测时间缩短到了分钟级。AlphaFold2的开发是以巨量算力为支撑，具体来说，其训练数据准备消耗了约2亿核时的CPU算力，训练过程消耗了约300PD的AI算力。

2．大规模分子模拟

近年来，借助神经网络从大量数据中获得规律的优势，将第一性原理计算结果作为训练数据，利用神经网络训练构建势函数的方法引起了广泛的关注。该系列方法从上世纪90年代开始，经过二十多年的发展，在准确性、可扩展性等方面得到了提升，比较常用的方法有DeePMD、SchNet、GAP、MTP等。

2020年深度势能（DP）团队因“结合分子建模、机器学习和高性能计算相关方法，将具有从头算精度的分子动力学模拟的极限提升至1亿个原子规模”，斩获了当年的戈登·贝尔奖（Gordon Bell Prize）。原子间机器学习势函数已经应用于许多实际研究中，可以用于模拟复杂的、多元素的晶体、非晶、液晶、界面、缺陷和掺杂等实验体系，计算精度接近从头算，计算速度却可以比从头算快数百到上千倍。

3．数值计算

矩阵乘法是许多计算任务的核心，其中包括神经网络、3D图形和数据压缩等。因此，提高矩阵乘法效率将直接作用于许多应用。几个世纪以来，数学家认为标准矩阵乘法算法是效率最高的算法，但在1969年，德国数学家Volken Strassen通过研究非常小的矩阵（大小为2x2）证明确实存在更好的算法。然而，更大矩阵相乘的高效算法仍属于尚未攻克的难题。

DeepMind的最新研究探讨了现代AI技术——强化学习如何推动新矩阵乘法算法的自动发现。基本思路是将发现矩阵乘法高效算法的问题转换为单人游戏，然后训练一个基于强化学习的智能体 AlphaTensor 来玩这个游戏，通过对 AlphaTensor进行调整，专门用以发现在给定硬件（如 NVIDIA V100 GPU、Google TPU v2）上运行速度快的算法。实验结果发现，这些算法在相同硬件上进行大矩阵相乘的速度比常用算法快了10-20%，表明AlphaTensor在优化任意目标方面具备了不错的灵活性。因此，强化学习成为加速新矩阵乘法算法自动发现的一种新思路。

从算力需求看，蛋白质结构分析、大规模分子模拟、数值计算相关应用主要涉及海量数据并行计算和大规模模拟实验，对算力和存力需求较高，属于计算密集型和数据密集型任务。智算中心所具备的算力服务能力极度契合AI for Science相关场景的算力需求，将成为支撑科研高质量、突破式发展的重要基础设施。

一、全套AGI大模型学习路线
AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

在这里插入图片描述