【AI大模型新型智算中心技术建设白皮书 2024】

文末有福利!

一、新算效——重塑计算架构

1.1 下一代 AI 芯片设计思路

以 GPU 为 代 表 的 高 性 能 并 行 计 算 芯 片 架 构 和 以 针 对 AI 领 域 专 用 加 速(DSA, Domain Specific Architecture,DSA)为代表的芯片架构是目前两大主流 AI 芯片设计思路。GPU 设

计初衷是为了接替 CPU 进行图形渲染,图形处理涉及到相当多的重复计算量,因此 GPU 芯片上排布了数以千计的,专为同时处理多重任务而设计的小计算核心。随着 AI 深度学习算法的逐渐成熟,GPU 芯片开始引入 AI Core/Tensor Core 等电路来实现矩阵乘运算的加速。

因此,GPU 比 CPU 拥有更强的大规模并行计算和浮点运算能力。不同于 GPU,AI DSA 芯片是一种针对神经网络计算的专用处理器,主要功能是加速神经网络的数据处理、传递和反向传播等操作,因

1.2 存算一体构建新型计算范式

存算一体作为新型计算范式,基于在存储原位实现计算的本质,打破了冯诺依曼存算分离架构,避免了频繁的数据访问和搬运带来的功耗激增的问题,大大缓解了 AI 芯片性能提升的瓶颈。

同时,由于新型智算中心承载的 CNN、Transformer 等主流模型架构,矩阵乘加运算占据了大量算力(Transformer 中 45-60%,CNN 中 90% 以上的运算均为矩阵乘加),存算一体的架构成为高效完成矩阵乘加的重要选择。

存算一体可通过 RRAM、SRAM、MRAM、Nor Flash 等介质实现,多介质共存可以发挥不同介质在成熟度、读写次数等方面的优势 。

存算一体通过模拟计算或数字计算或二者相结合的方式提供存算能力,如图 3-13 所示:

a) 模拟存算一体


在这里插入图片描述

b) 数字存算一体

图 3-13 模拟和数字存算一体

存算一体在 NICC 的主要应用是大模型推理。考虑到不同的模型结构,存算一体充分利用非规则稀疏性,以达到与存算阵列的最佳适配,并实现能效最大化。以复旦大学 ISSCC 2023发布的论文为例 ,其应用了基于蝶形数据分配网络的稀疏前馈计算架构(如图 3-14),结合对应的存内阵列设计和电路实现,能够在 28nm 工艺下,达到现有 Transformer 加速器 3.2 倍至 9.7 倍的能效。

图 3-14 Transformer 加速器的存算一体实现示意

当前,面向智算中心多核、多芯片的存算一体架构方案将成为未来存算一体研究和商用落地的重点方向。在此场景下,有以下三点问题需重点解决:

  1. 如何与算法结构协同:通过改进的存算一体阵列架构更好的适配稀疏 Transformer,使用分块结构化稀疏、动态激活值稀疏以及特定 Transformer 稀疏等方式,选择参与计算的存算单元,并结合定制的加法树电路减小面积,提升计算能效,从而提升推理效率。

  2. 如何与精度需求协同:通过可变精度存算一体阵列架构更好适配大模型推理的精度需求,使用数字存内计算和模拟存内计算混合、双生多 bit 等方法,实现 INT8 和 BF16 等混合精度计算。

3)如何与封装能力协同:通过 Chiplet 技术同时满足存算一体专用高性能、通用可扩展要求,提升算力和 IO 带宽,减少访存瓶颈;通过 3D 堆叠等封装技术将存内计算(CIM)与近存(PNM)和存内处理(PIM)技术结合,为访存密集型应用提供大容量高带宽的计算能力。

现阶段的存算一体芯片在介质优化、集成规模、工具链支持、算法适配、产业生态等方面还面临诸多挑战,导致应用普及较慢,建议锚定智算核心应用,推出样板产品,突破上述关键挑战,在成熟工艺实现性能反超。

1.3 DPU 实现计算、存储和网络的深度协同

DPU 作为 CPU、GPU 之后的数据中心第三颗大芯片,本质是围绕数据处理提供网络、存储、安全、管理等基础设施虚拟化能力的专用处理器。面对智算业务场景,中大规模模型训练和推理任务对网络和存储 I/O 的时延提出了更极致的性能需求,DPU 可在智算领域解决三大关键问题,与计算、网络、存储深度协同,助力算效提升。

  1. 统一云化管理:智算服务场景存在裸金属、容器、 虚机多种方式部署需求,如何实现 AI节点并池管理提高计算资源利用效率,成为关键的业务痛点,DPU 是最佳的解决方案。通过 DPU 可提供计算资源快速发放和回收等底层支撑能力,使弹性裸金属特性和虚机一致,支持云盘启动,完成灵活的存储分配,实现存储多租户隔离并缩短容灾时间,交付效率提高10 倍。

  2. 高性能存储卸载及加速:大模型训练推理业务的模型本身以及训推所需的数据需要 PB 级储存,本地存储性价比低,远端存储集群成为最优选择。分布式存储设备面对上千计算节点,需要满足多用户并行使用时产生的海量数据读取及加速数据收敛需求,单节点存储带宽叠加后对存储系统提出更高的性能要求。DPU 产品可以提供专用的高速存储单元来处理和管理大量的数据,提供高带宽和低延迟的存储访问,实现 NVMe-OF 存储加速,同时可配合训练框架进行文件系统卸载,实现训练数据格式统一化,实现不同来源的数据接入,进一步加速训练和推理过程。

图 3-15 智算中心引入 DPU 两种模式

面对 DPU 在智算场景的试验试点及规模应用,当前仍面临三大核心挑战:

在云平台侧,DPU 软硬融合层的标准化是制约 DPU 通用化的主要问题。DPU 本质是云化、虚拟化技术从软件实现向软硬结合发展的结果,技术架构与云计算关系密切,存在耦合,DPU 虚拟化技术栈在技术迭代中差异化发展,不同产品的同一技术的实现路径多样,软件实现方式差异大。亟需解决业界异厂家 DPU 与云平台软件定向开发适配成本高的问题。建议围绕管理、网络、存储、计算、安全五大软件系统,推动 DPU 软件功能要求和交互接口标准化,并分阶段推进。

在网络侧,网络技术创新需要与 DPU 深度协同。智算业务要求零丢包、低时延、高吞吐的网络能力,RDMA 网络是智算中心高性能网络的首选,头部企业纷纷布局自研 RDMA 协议栈及无损网络相关技术。DPU 作为服务器的 IO 出入口,是网络与存储必经之路,网络技术创新需要与 DPU 深度协同,实现算力无损,助力算效提升。

在硬件侧,亟需优先引导服务器整机层及 DPU 部件层标准化及通用化。重点围绕服务器结构及供电、散热、带外纳管方案、上下电策略四大方向进行统一,为 DPU 与上层软件的深度整合及生态繁荣提供底层支撑。

二、新存储——挖掘数据价值

2.1 计算与存储的交互过程

大模型训练是一项复杂而耗时的任务,类似 GPT-3 级别的模型训练数据集通常很大,无法完全加载到内存中,需要分批次的从外部分布式存储中读取数据并加载到 GPU 的 HBM 上。

如图 3-16 所示,从用户上传原始数据集到最终完成模型训练,并对用户提供已训练模型结果,整个过程存在着计算与存储系统密切的数据交互。

1)数据上传:大模型预训练阶段首先需要获取训练数据集,这些来自互联网、书籍、论文的数据需要进行预处理和清洗,包括分词、去除噪声和非常见词汇,以确保训练数据是高质量且可靠的。数据集准备好之后上传到存储系统中。由于对象存储具有普遍的 API 支持,可以提供灵活的数据访问方式,数据集通常会上传到对象存储中。大模型训练的数据集可达TB 量级,且主要以大文件大 IO 写入为主,存储系统需要保证足够和稳定的吞吐性能。

图 3-16 大模型训练计算与存储的交互过程

2)数据转移:由于文件存储具有更高的 IO 性能,对于小文件和随机 IO 有较好的支持,且与 TensorFlow、PyTorch 等训练框架的兼容性更好,适合在训练过程中进行高效的读取和写入操作,因此在模型训练开始之前,需要把数据集从对象存储复制到文件存储中,这个过程中,IO 类型以大文件大 IO 顺序读写为主。

3)数据读取:数据集放入文件存储后,还需要进行进一步预处理。CV 类数据集通常需要先对图片序列化并添加类别标签、图像尺寸等元数据,自然语音类数据集则需要对语音文件进行切分,转换为训练框架实现代码期望的采样率和格式,例如 16K 采样 wav 格式。数据集准备就绪后,模型将基于随机初始化的权重启动训练。整个数据集会被随机打散,称之为shuffle,然后数据被分成多个小的批次(batch),后续计算节点将以批次为单位从文件存储系统读取数据,并缓存到 GPU 的 HBM 中。

4)归档写回:由于 HBM 是易失性存储,一旦在训练过程中发生意外中断,训练数据将全部丢失,因此基于 Checkpoint 的“断点续训”机制非常关键,我们需要将模型训练过程中的数据周期性地保存到外部持久性存储中,一旦发生中断可以从最后一次保存的参数处重新开始训练,从而节省大量的时间和经济成本。此外,文件存储还用于跟踪记录模型训练过程中的各种指标,包括损失函数的变化、准确率的提升等,以便后续支持可视化的模型训练策略优化分析。保存 checkpoint 和过程文件等操作,主要负载是大文件大 IO 写操作,对文件存储压力不大。

5)模型复制:模型训练完成后,最终的模型权重会被写入到文件存储中保存,用于模型推理或者以 MaaS 的服务模式给外部用户使用。由于对象存储便于对外共享,模型需要从文件存储复制到对象存储上,这个环节 IO 类型以写入大文件为主。

6)模型下载:用户基于自身应用特点,从对象存储下载训练好的模型。

那么,如何系统的去学习大模型LLM?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~ , 【保证100%免费

在这里插入图片描述

篇幅有限,部分资料如下:
👉LLM大模型学习指南+路线汇总👈

💥大模型入门要点,扫盲必看!
在这里插入图片描述
💥既然要系统的学习大模型,那么学习路线是必不可少的,这份路线能帮助你快速梳理知识,形成自己的体系。
在这里插入图片描述

👉大模型入门实战训练👈

💥光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

👉国内企业大模型落地应用案例👈

💥《中国大模型落地应用案例集》 收录了52个优秀的大模型落地应用案例,这些案例覆盖了金融、医疗、教育、交通、制造等众多领域,无论是对于大模型技术的研究者,还是对于希望了解大模型技术在实际业务中如何应用的业内人士,都具有很高的参考价值。 (文末领取)

在这里插入图片描述
💥《2024大模型行业应用十大典范案例集》 汇集了文化、医药、IT、钢铁、航空、企业服务等行业在大模型应用领域的典范案例。

在这里插入图片描述

👉LLM大模型学习视频👈

💥观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。 (文末领取)

在这里插入图片描述

👉640份大模型行业报告👈

💥包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

👉获取方式:
这份完整版的大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/44862.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

setuptools打包-分发-安装-发布

一、定义 学习网址setup.py 编写打包安装开源到PYPI中 二、实现 学习网址 https://python.iswbm.com/c08/c08_15.htmlsetup.py 编写 采用分发工具setuptools进行发布,因此采用setuptools包进行setup.py的编写 demo案例 from setuptools import setup, find_pack…

在Office里面无缝使用任何一家AI大模型,免费的!

昨天一个朋友说他在Word里面,用了一个插件,可以在右侧和AI对话,然后把AI生成的内容载入到左边的文档中。 我当时心理的想法:我这是穿越了吗?这不是我去年2月就实现,然后又扔掉的功能吗? 是的&a…

paddla模型转gguf

在使用ollama配置本地模型时,只支持gguf格式的模型,所以我们首先需要把自己的模型转化为bin格式,本文为paddle,onnx,pytorch格式的模型提供说明,safetensors格式比较简单请参考官方文档,或其它教…

Springboot自习室在线预约系统-计算机毕业设计源码050000

摘 要 远程预约是一种全新的网络租用方式,它通过互联网突破了时间和空间限制,实现了便捷快速的预约与管理功能。在对数据信息有效组织并整合了一定使用功能后,远程预约系统可以方便地实现预约与取消,以及信息查询等功能。经过本人…

2024最适合小白的Midjourney教程,值得收藏!

一、Midjourney 的提示词 1、提示可以包括一个或多个图像 URL、多个文本短语以及一个或多个参数 1)Image Prompts(图像提示):可以将图像 URL 添加到提示中以影响最终结果的样式和内容。图像 URL 始终出现在提示的前面。文件应以.…

爆款文案管理系统设计

设计一个爆款文案管理系统,目标是帮助营销团队高效地创建、管理并分析吸引人的文案,以提升产品或服务的市场吸引力和销售转化率。以下是一些关键功能和设计考量点: 1. 用户友好界面 简洁直观的界面:确保系统界面清晰&#xff0c…

【Win10 JDK环境配置】

1.JDK下载地址 jdk下载1:http://www.kkx.net/zt/jdk.html jdk下载2:https://www.oracle.com/cn/java/technologies/downloads/#jdk17-windows 2.jdk安装:双击.exe文件打开安装器按步骤安装 3.配置环境变量 新建系统变量JAVA_HOME:D:\java11\jdk-11 将J…

intel万兆网卡固件下载方法

客户新安装的机器上含有X710和E810两种万兆网卡,根据vmware的兼容性列表,需要安装对应的驱动和固件,驱动从vmware/broadcom官网下载,固件则需要从intel官网下载。 在intel support页面里,找到网卡的型号: …

uni-app/vue项目如何封装全局消息提示组件

效果图&#xff1a; 第一步&#xff1a;封装组件和方法&#xff0c;采用插件式注册&#xff01; 在项目目录下新建components文件夹&#xff0c;里面放两个文件&#xff0c;分别是index.vue和index.js. index.vue&#xff1a; <template><div class"toast&quo…

【C++报错已解决】Invalid Use of Incomplete Type

&#x1f3ac; 鸽芷咕&#xff1a;个人主页 &#x1f525; 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想&#xff0c;就是为了理想的生活! 文章目录 引言&#xff1a;一、问题描述1.2 报错分析1.3 解决思路 二、解决方法2.1 方法一&#xff1a;完整类型定义2.2 方法二…

算法day03 桶排序 数据结构分类 时间复杂度 异或运算

学数据结构之前 必看_哔哩哔哩_bilibili 1.认识复杂度和简单排序算法_哔哩哔哩_bilibili 桶排序&#xff08;Bucket sort&#xff09;------时间复杂度为O(n)的排序方法&#xff08;一&#xff09;_多桶排序时间复杂度-CSDN博客 桶排序 测试场景&#xff1a;数组中有10000个随…

threeJS 为模型增加精灵图

前言 之前使用css3DRender创建图片弹框&#xff0c;在旋转模型到背面时&#xff0c;弹框也背对模型&#xff0c;这与UI要求的效果有出入。考虑将css3DRender换成css2Drender,但是可能是模型的问题&#xff0c;将弹框加入到模型的子集&#xff0c;旋转模型时弹框发生比较明显的…

deep learning 环境配置

1 NVIDIA驱动安装 ref link: https://blog.csdn.net/weixin_37926734/article/details/123033286 2 cuda安装 ref link: https://blog.csdn.net/qq_63379469/article/details/123319269 进去网站 https://developer.nvidia.com/cuda-toolkit-archive 选择想要安装的cuda版…

研华PCI-1711板卡在WIN10教育版系统无法安装驱动

主要配置&#xff1a;CHIPSET AIMB-705G2、CPU I5-6500、WIN10 教育版、PCI-1711 问题描述&#xff1a;使用官网下载的驱动XNiva&#xff0c;驱动包安装完成后板卡无法正常识别。解决方法&#xff1a;正常安装无法情况下只能尝试强制安装数字签名&#xff0c;步骤如下。 XNiv…

Java研学-Shiro安全框架(四)

六 SpringBoot集成Shiro认证 1 分析 Shiro提供认证授权功能&#xff0c;所以SpringBoot中不需再编写自定义注解&#xff0c;权限拦截&#xff0c;登录拦截&#xff0c;登录登出。Shiro 环境中有三个封装对象Subject &#xff0c;SecurityManager和Realms&#xff0c;SpringBoo…

Java核心技术【二十一】Java的I/O流处理:文件的读写操作

Java的I/O流处理&#xff1a;文件读写操作 【创作】 不易&#xff0c;【点赞】 是情义&#xff0c;【关注】 是动力&#xff0c;【收藏】 是回忆。 示例代码地址&#xff1a;https://gitee.com/code-in-java/csdn-blog.git 在Java编程中&#xff0c;输入/输出&#xff08;I/O&a…

PyTorch实现BERT预训练模型转化指南

huggingface官方的介绍&#xff1a; https://huggingface.co/transformers/converting_tensorflow_models.html 直接用命令行 把箭头处路径改为自己放原有tf版本预训练模型的路径 回车后会有一大堆提示&#xff0c;然后发现路径下多了一个bin文件&#xff0c;加上原本的config…

顺序结构 ( 六 ) —— 顺序结构实例 【互三互三】

&#x1f680;欢迎互三&#x1f449;&#xff1a;程序猿方梓燚 &#x1f48e;&#x1f48e;&#x1f680;所属专栏&#xff1a;C教程&#x1f48e; &#x1f680;关注博主&#xff0c;后期持续更新系列文章 &#x1f680;如果有错误感谢请大家批评指出&#xff0c;及时修改 &am…

iNavFlight飞控固件学习-1《开发环境搭建》

目录 文章目录 目录摘要1.官网2.形成Linux开发环境工具2.1 简介2.2 相关工具2.2.1 Ubuntu / Debian系统配置命令2.2.2 Fedora系统配置命令2.2.3 Fedora系统配置命令 2.3 克隆存储库2.4 构建工具2.5 使用cmake2.6 构建固件2.7 清除2.8 cmake 缓存维护2.9 编译通过ninja2.10 更新…

红酒与未来科技:传统与创新的碰撞

在岁月的长河中&#xff0c;红酒以其深邃的色泽、丰富的口感和不同的文化魅力&#xff0c;成为人类文明中的一颗璀璨明珠。而未来科技&#xff0c;则以其迅猛的发展速度和无限的可能性&#xff0c;领着人类走向一个崭新的时代。当红酒与未来科技相遇&#xff0c;一场传统与创新…