智算中心建设热潮涌动 AI服务器赋能加速

在数字化浪潮汹涌的今天,人工智能新技术新发展日新月异。智算作为数字经济时代的新生产力,正逐步成为推动经济社会高质量发展的新引擎。

智算中心:算力时代的“新基建”

近年来,随着人工智能技术的迅猛发展和广泛应用,智能算力需求持续爆发,推动了智算中心的快速发展。2022年,随着国家“东数西算”工程启动,我国算力地图正式开始,形成八大枢纽、十大算力中心集群。

据中国电信研究院发布的《智算产业发展研究报告(2024)》显示,截至2024年6月,中国已建和正在建设的智算中心已超过250个。近期已有多个智算中心项目接连投产,各地正加速推进智算中心建设。

例如:

  • 国内运营商单集群智算中心:中国移动智算中心(哈尔滨)建设完成并正式投产使用;
  • 超芯智算“三南”人工智能算力中心建成投产;
  • “中贝合肥智算中心”正式上线运行,该项目为安徽首家“低碳AI智算中心”。

这些智算中心一般都建设在一线城市和部分县级城市,而这些智算中心的算力不仅满足本地的算力需求,也推动了当地区域经济数字化发展。这一数字表明,中国在智算中心建设方面取得了显著成果,为数字经济发展提供了有力支撑。

智算中心背后的“宠儿”

筹建智算中心除了场地、机房等基础设施,最重要的还是GPU服务器。当前智算中心最火的无疑是4U高度搭配8张GPU的AI服务器,简称4U8卡服务器。相比于NVlink或者国产OAM模组产品,PCIE形态的4U8卡服务器配置更加灵活、在推理端或者模型参数较小时,性价比更高。今天跟大家聊一下4U8卡产品和不同拓扑之间的区别。

目前4U8卡服务器还是以X86或C86平台为主,主流产品支持PCIE4.0和PCIE 5.0;PCIE5.0相比PCIE4.0带宽翻倍,如图1;随着支持PCIE四五代CPU和内存价格的降低,相信预计到明年年中PCIE5.0将占据大部分的市场份额。

可能很多朋友在选型的时候会遇到一个问题,4U8卡机型代数和拓扑这么多,该如何选型?

先来看一下AMD平台,众所周知,目前AMD的CPU在服务器市场上呈现一个追赶的态势,正在一步步攻占Intel的市场份额,根据第三方机构统计显示最新的市场份额已经达到34%,AMD的上下游生态也日渐繁荣。如图2是AMD霄龙系列CPU的参数列表。

可以看到,主流的三代和四代产品,两颗CPU都能提供256个PCIE资源,针对4U8卡机器,除去给GPU的资源128(X16*8),还能有较多资源给到网卡和NVME以及RAID卡等部件,能够满足智算中心的需求。因此AMD平台的4U8卡均是直通机型,不需要上PCIE Switch芯片,CPU和GPU之间的通信延迟更低,成本更有优势。

适用场景:中小规模AI训练、推理;GPU云平台;HPC。

除此之外,再来看一下Intel,虽然AMD市场份额有较大增长,但是Intel目前还是凭借其良好的生态,占据服务器市场的大部分份额。如图3是Intel至强系列CPU各代规格。

相比AMD,Intel在核心数和PCIE资源数量都较少,比如至强3代,单颗CPU只有64条lane,两颗U也只有128条lane,直通机型无法满足8GPU卡配置。因此8卡机器都是带Switch机型;到了至强4/5代,单U升级到80条lane,可以支持直通8卡机型,但装满8卡后,只剩32条lane的PCIE资源可以使用,一些场景PCIE资源还是不够,因此至强4/5代机型也有多种拓扑可供选择。

Switch芯片与Intel 4/5代的8卡机拓扑

下面介绍下市场主流的Switch芯片和Intel 4/5代的8卡机拓扑。

什么是PCIE Switch?

PCIe Switch 即 PCIe 开关或 PCIe 交换机,主要作用是实现 PCIe 设备互联,PCIe Switch 芯片与其设备的通信协议都是 PCIe。由于 PCIe 的链路通信是一种端对端的数据传输,因此需要 Switch 提供扩展或聚合能力,从而允许更多的设备连接到一个 PCle 端口,以解决 PCIe 通道数量不够的问题。

目前市场主流的三代产品均使用的是88096这款Switch芯片,能够扩展出96条PCIE lane, 四代8卡机器均用的是89104这款Switch芯片,支持PCIE 5.0、能够扩展104条PCIE lane,价格也越昂贵。

主流拓扑有哪些?

A. 直通机型拓扑

拓扑特点:

1、CPU-GPU直通,无需通过PCIe Switch中转,延迟低;

2、GPU与CPU间的并发带宽更高、多卡并行计算性能更优;

3、无PCIE SWitch芯片,价格更有优势。

适用场景:

中小规模AI训练、推理;GPU云平台。

B. 带Switch机型_balance mode

Balance Mode拓扑为Dual root,根据PCIe资源将GPU平均分配到每个对应的CPU上,同一个PCIe Switch下的GPU可以实现P2P通信,不同CPU下挂接的GPU需要跨超级通道互联UPI(Ultra Path Interconnect)才能通信(即跨节点通信)。

拓扑特点:

1、两组GPU分别挂载在两个CPU下,负载均衡,CPU算力较高;

2、对于双精度浮点运算,因GPU计算需要使用处理器与主内存,由于Dual root的拓扑上行带宽与内存使用率提升,其性能会优于Single root的拓扑。

适用场景:

GPU虚拟化、绝大多数加速计算应用场景(AI、HPC)。

C. 带Switch机型_Common mode

Common Mode拓扑中GPU的PCIe资源均来自同一个CPU,同一个PCIe Switch下的GPU可以实现P2P通信,不同PCIeSwitch下挂接的GPU需要跨CPU PCIe Root Port才能实现P2P通信,但通信带宽低于同一个PCIe Switch下的P2P通信。

拓扑特点:

1、所有GPU均挂载在同一CPU下,CPU和GPU间占用两条x16;

2、Common Mode在一定程度上能够满足GPU之间点对点的通信,同时可保障足够的CPU与GPU之间的I/O带宽。

适用场景:

适用于计算量及容量较小的模型数据处理。

D. 带Switch机型_Cascade mode

Cascade Mode拓扑中GPU的PCIe资源均来自同一个CPU PCIe Root Port,PCIe Switch之间为级联拓扑,同一级PCIe Switch下的GPU可以实现P2P通信,第1级PCIe Switch下的GPU和第2级PCIe Switch下的GPU之间可以实现P2P通信,不需要通过CPU PCIe Root Port。

拓扑特点:

1、所有GPU均挂载在同一CPU下,资源不均衡;

2、Cascade Mode只有一条×16链路,但由于GPU 之间通过PCIe Switch串接,提升了点对点的性能,降低了延迟。

适用场景:

适用于计算量及容量较大的模型数据处理。

随着AI应用的快速发展,复杂多变的应用场景对计算架构的选择和设计提出了更高的需求。如何选择最优的PCIe 拓扑结构,实现计算资源的优化配置,加速AI服务器的计算处理能力,对于提升智算中心的整体性能至关重要。

思腾合力结合实际需求进行精准选型,为千行百业提供一站式的AI算力解决方案,助力智算中心发挥最大效能,为推动人工智能与数字经济的高质量发展贡献力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/59603.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue输入中文,获取英文首字母缩写

背景:要求输入中文的时候,系统给出对应的首字母大写,作为拼音。 例如:输入“博客”,输出‘BK’ 等等…… 经查:使用 js-pinyin 这个第三方插件即可实现 1. 下载依赖 npm install js-pinyin 或者 yarn ad…

如何构建一个呼叫中心客服部门

如何构建一个呼叫中心客服部门 作者:开源呼叫中心系统 FreeIPCC,Github地址:https://github.com/lihaiya/freeipcc 一、引言 呼叫中心客服部门是现代企业与客户之间沟通的重要桥梁,其构建不仅关乎企业的客户服务质量&#xff0…

【Python进阶】Python中的网络爬虫策略:高效数据抓取与解析

1、网络爬虫概论与Python环境配置 1.1 网络爬虫基本概念与工作原理 网络爬虫,如同在网络世界中勤劳的蚂蚁,自动地在网络空间里穿梭游走,寻找并收集散布在网络各个角落的信息宝藏。它是一种自动化程序,遵循一定的规则&#xff0c…

【机器学习】随机森林算法

随机森林(Random Forest)是一种集成学习算法,它结合了多个决策树的输出,以提高预测的准确性和稳定性。随机森林被广泛应用于分类和回归任务中,尤其适用于数据特征之间存在非线性关系或噪声的情况。 在本文中&#xff…

十四届蓝桥杯STEMA考试Python真题试卷第二套第三题

来源:十四届蓝桥杯STEMA考试Python真题试卷第二套编程第三题 通过这道字符串处理的解析,重点学习字典的 get() 方法和 map() 函数的应用。我们同时也给出了“一行代码”的实现方案,令人惊叹的是到两种实现方法的代码行数差不多是10:1。这次,我们更推荐一行代码的实现方式,…

数据结构与算法--回溯法

回溯法 1 括号生成分析: 2 解数独分析代码 回溯法本质是的暴力枚举/遍历法,一般用递归实现。 当我们可以把问题分解为若干个步骤,每个步骤都有若干个选择的时候,若需要列出所有解答形式,则采用枚举法。 1 括号生成 数…

数据集收集器0.3

为了进一步完善代码,使其能够识别更多格式的问答对,并且在遇到无法识别的格式时能够跳过并继续处理下一个,我们可以采取以下措施: 增强正则表达式:支持更多的问答对格式。 增加容错处理:在遇到无法识别的格式时,记录错误并继续处理下一个。 多模式匹配:支持多种问答对…

外卖小程序的研究与开发ssm+论文源码调试讲解

2系统关键技术 2.1微信小程序 微信小程序,简称小程序,英文名Mini Program,是一种全新的连接用户与服务的方式,可以快速访问、快速传播,并具有良好的使用体验。 小程序的主要开发语言是JavaScript,它与普通…

花了6000多考下PMP却不会用?你真的懂PMP实际用法吗?

大家都已经下载了PMP的电子版证书吗?虽然拿到了电子证书,但很多人又开始期待纸质版证书。不要着急,考试后需要6-9个月才能拿到纸质版证书,可能还需要等一段时间。 电子证书和纸质证书具有同样的有效性,需要使用证书时…

Spring面向切面编程

目录 1.AOP概述及Spring AOP实现原理 AOP概述 AOP的应用场景 AOP的作用 Spring AOP概述 Spring AOP的实现原理 Spring AOP中Advice的分类 2. 通过xml配置实现AOP 实现步骤: 新增模块: 导入相关依赖: 新增实体类User 新增业务类UserS…

MySQL 和 PostgreSQL 的对比概述

MySQL 和 PostgreSQL 是两种广泛使用的开源关系型数据库管理系统(RDBMS),它们各自有其特点和优缺点。以下将从多个方面对它们进行详细比较。 1. 介绍 MySQL: MySQL 由瑞典公司 MySQL AB 开发,2008 年被 Sun Microsyst…

[C++] GDB的调试和自动化检测

文章目录 GDB基本使用1. bazel的debug过程2. line-tables-only的使用 Reference GDB基本使用 参考文档: https://zhuanlan.zhihu.com/p/655719314 1. bazel的debug过程 需要带--copt-g --copt-ggdb选项进行编译 // bazel build --stripnever --copt-g --copt-ggd…

urllib3.exceptions.Proxyschemeunknown: Proxy URL had no scheme

这个错误信息 urllib3.exceptions.Proxyschemeunknown: Proxy URL had no scheme, should start with http:// or https:// 表示你在使用 urllib3 库设置代理时,提供的代理 URL 没有包含正确的协议方案(scheme)。在 URL 中,方案部…

Javaweb选课系统-开源计划-起源-001-完全免费开源

项目部署,效果视频 https://www.bilibili.com/video/BV1LMDUY8Ef7/?spm_id_from333.880.my_history.page.click&vd_source17d16b2e328f19328e077e9cb07565ef项目地址: https://gitee.com/lucky-six/Javaweb-xuanke

微服务架构面试内容整理-微服务与传统单体架构的区别

微服务和传统单体架构的主要区别在于架构设计和服务管理方式: 1. 架构设计: ● 单体架构:整个应用作为一个整体构建,所有功能模块紧密耦合在一起,通常在一个代码库中管理。 ● 微服务架构:应用被拆分为多个独立的服务,每个服务专注于特定的业务功能,可以独立开发和部署…

【简信CRM-注册安全分析报告】

前言 由于网站注册入口容易被黑客攻击,存在如下安全问题: 暴力破解密码,造成用户信息泄露短信盗刷的安全问题,影响业务及导致用户投诉带来经济损失,尤其是后付费客户,风险巨大,造成亏损无底洞…

SAP 学习文章

SAP PP模块后台表关系图_sap常用表及关系图-CSDN博客 SAP_PP模块流程_sap中pp模组指令-CSDN博客

Linux云计算 |【第五阶段】PROJECT3-DAY1

主要内容: 跳板机(堡垒机)的概念、部署JumpeServer 一、跳板机(堡垒机)的概念 跳板机(Jump Server 或 Bastion Host)是一种网络安全设备或服务器,也称堡垒机,是一类可作…

宠物空气净化器哪个牌子好?希喂、352两款产品吸力、噪音真实测试

我身为养宠博主,这些年用过不少宠物空气净化器,花费了1w,对很多产品都进行过测评。正值双十一,很多朋友都在问我宠物空气净化器到底有没有必要买?答案毫无疑问是有必要! 相比较于其他清理工具,…

Clang-Tidy 是什么?如何让你的代码更干净无瑕

Clang-Tidy:让你的代码更干净,让潜在问题无处遁形 在现代软件开发中,代码质量不再仅仅体现在功能实现上,还包括其可维护性、可读性和潜在问题的检测。clang-tidy 是一款功能强大的静态分析工具,专为 C/C 代码而生&…