AI 驱动的数据中心变革与前景

图片

文章主要探讨了AI计算时代数据中心的转型,涉及计算技术的多样性、规格尺寸和加速器的发展、大型语言模型(LLM)的发展、功耗和冷却趋势、基准测试的重要性以及数据中心的发展等方面。为大家提供深入了解AI基础设施发展的视角。

 计算技术的多样性与应用场景

1. CPU:作为数据中心的传统“主力军”,在推理任务中表现出色,特别是配备充足内存的CPU在处理繁重图像处理任务时具有优势,但在快速计算能力方面不及GPU。

2. GPU:最初设计用于图形处理,随着张量核心的引入,在各种AI应用中广泛使用。

3. FPGA:以流水线指令闻名,适合诸如语音转文本转换等任务。

4. DSA:专注于高效执行矩阵乘法,针对特定工作负载进行高度优化,但难以轻易应用于其他IT任务。

由此可见:

  • 在处理能力和可编程性方面,CPU具有显著灵活性;
  • GPU通过CUDA技术发展提供高性能和可编程性;
  • FPGA高度定制化;
  • DSA针对特定工作负载优化,需要软件调整以实现最佳性能。


 规格尺寸和加速器 

  • 多种规格尺寸的发展:

从M.2和PCI CEM到定制芯片设计,包括Cerebras开创的大型单片晶圆级解决方案,以及Nvidia的Grace Hopper这样的高速缓存一致性CPU/GPU正在崛起,每种设计都针对特定工作负载进行优化。

  • 推理和训练的应用趋势:

在推理任务中,主要看到M.2嵌入式规格尺寸和PCI CEM的广泛应用;在训练方面,逐渐转向使用越来越定制化的GPU。

 大型语言模型(LLM) 

  • 模型规模与算力需求:

随着LLM模型规模的扩大,对算力的需求显著增加,计算需求呈现出大约10倍的增长轨迹,训练作业的最大关键绩效指标取决于训练时间,因此引入不同类型的加速器成为关键。

  • 数据集的组合:

随着视觉元素的加入,文本、视觉和视频等不同数据集的组合在LLM中变得普遍。

 功耗和冷却 

  • 功耗增长趋势:

当前最高功率的GPU大约为700瓦,PCI CEM约为400瓦,未来几代的功耗预计将显著增长,这将对冷却设施产生重大影响。

  • 冷却设施的发展:

冷却基础设施变得至关重要,液体冷却与空气冷却的结合成为主要趋势,液体冷却不会完全取代空气冷却平台,许多数据中心仍然偏好并部署空气冷却基础设施。

 基准测试的重要性

  • MLCommons的发展:

MLCommons起源于基于MLPerf的基准测试,并演进扩展了其范围,涵盖存储、高性能计算以及跨这些领域的多样化基准测试开发。

  • 基准测试与模型的关系:

基准测试往往滞后于LLM快速增长的行业步伐,但像MLCommons和MLPF这样的基准测试覆盖了训练、推理和存储等多个方面,为评估特定加速器提供了一个框架,有助于从芯片的角度评估其性能以及与期望的关键绩效指标(KPI)的对齐情况。

  • 推理和训练领域的基准测试:

在推理方面,关注从数据中心延伸到边缘环境,通过评估不同的模型类别来确定最佳的持续时间和KPI;在训练领域,为模型和基准测试实践在训练和推理领域的一致分类提供了支持。

 数据中心的发展

  • 机架功率趋势:

随着LLM的增长,数据中心的机架功率从历史上的每机架10至20千瓦线性增长至每机架75至100千瓦甚至更高,这可能导致新的绿色数据中心的增加,改造现有的旧数据中心以满足这些需求将是一项挑战。

  • 数据中心层面的视角转变:

从节点级别开始,各种功率、基准测试、规格尺寸和精度的加速器正在涌现,使得数据中心需要从节点级别上升到机架级别,再到数据中心级别进行考虑,冷却变得具有挑战性,液体冷却迅速得到采用,未来液体冷却可能在AI计算场景中占据主导地位。

 AI基础设施的发展 

  • 从节点级别到集群级别的部署:

AI基础设施的发展趋势已不再局限于部署仅配备2到8个GPU的节点来完成任务,将更多地转向集群级别的部署。

  • 2.关键因素:

-网络设计和连接方式:为了使GPU、FPGA或专用加速器等计算单元高效运行,必须认真考虑网络设计,包括如何连接存储、数据的位置以及如何迅速地将数据传输到计算单元中并解决问题。

-机架和数据中心级别的电力预算:到2025年,应该考虑或部署每个机架功率在70到100千瓦的数据中心,需要从机架级别和数据中心级别的电力预算出发,深入思考未来几年内这一特定领域的所有增长趋势。

-与数据中心人员的沟通:所有生成式AI应用程序的部署规模已远超过之前的预测,需要与数据中心人员进行深入的沟通,了解他们的需求,并基于这些需求进行构建,而不是简单地将GPU组装成一个节点。

 行业应用

  • 科技巨头的数据中心转型:

以谷歌、亚马逊、微软等科技利用AI技术优化数据中心的运营和管理,提高能效和计算效率。

  • 金融行业的数据中心应用:

金融机构借助AI驱动的数据中心进行风险评估、欺诈检测和交易处理等业务,以及面临的挑战和解决方案。

  • 医疗行业的数据中心创新:

医疗领域数据中心应用于医学影像分析、疾病预测和个性化医疗等,以及利用AI技术推动医疗行业的发展。

 技术创新

  • 量子计算在数据中心的潜力:

量子计算与传统计算技术相结合,为数据中心带来更高的计算能力和解决复杂问题的能力。

  • 边缘计算与数据中心的协同发展:

边缘计算在数据中心架构中起着重要的作用,边缘计算与数据中心协同工作以提高数据处理的实时性和效率。

  • AI芯片的发展:

当前人工智能芯片市场的竞争强烈,未来芯片技术会向更高的算力、更低的能耗和更好的兼容性而发展。

 展望未来

  • AI 与数据中心的深度融合:

随着AI技术的不断发展,数据中心将更加智能化,能够自动优化资源配置、预测故障并进行自我修复,提高运营效率和可靠性。

  • 新型计算架构的出现:

未来可能会出现一些新型的计算架构,如类脑计算等,这些架构将为数据中心带来更高的性能和更低的能耗。

  • 数据中心的绿色可持续发展:

在全球对环境保护日益重视的背景下,数据中心将朝着绿色可持续的方向发展,采用更多的可再生能源、优化冷却技术以提高能源利用率。

  • 边缘数据中心的崛起:

随着物联网、5G等技术的普及,边缘数据中心将发挥越来越重要的作用,能够更快地处理和分析数据,减少延迟,满足实时性要求较高的应用场景。

  • 数据中心的全球化布局:

为了满足不同地区用户的需求,数据中心将进一步全球化布局,同时也需要应对不同地区的政策、法规和文化差异。

数据中心的未来发展充满着机遇与挑战。技术的不断创新、计算需求的持续增长、对能源效率和可持续性的重视,以及政策法规的影响等因素,都将塑造数据中心的未来格局。

#数据中心#绿色节能#AI#人工智能#高性能计算#HPC#液冷#水冷#AI基础设施#LLM#大语言模型

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/40367.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Ubuntu(通用)—网络加固—ufw+防DNS污染+ARP绑定

1. ufw sudo ufw default deny incoming sudo ufw deny in from any to any # sudo ufw allow from any to any port 5353 protocol udp sudo ufw enable # 启动开机自启 # sudo ufw reload 更改后的操作2. 防ARP欺骗 华为云教程 arp -d删除dns记录arp -a显示arp表 ipconfi…

PTrade常见问题系列3

量化允许同时运行回测和交易的策略个数配置。 量化允许同时运行回测和交易的策略个数在哪里查看? 在量化服务器/home/fly/config/custom_config_conf文件中,其中运行回测的策略个数由backtest_switch(是否限制普通回测个数)及ba…

matlab 绘制高等数学中的二维函数示例

matlab 绘制高等数学中的二维函数示例 绘制高等数学中的二维函数示例绘制结果 绘制高等数学中的二维函数示例 clc,clear,close all; % 定义方程 eqn (x, y) (x.^2 y.^2).^3 - y.^4;% 绘制方程曲线和坐标轴 ezplot(eqn, [-2, 2, -2, 2]) hold on % 在同一图形中保持绘图% 绘…

S7-1200PLC学习记录

文章目录 前言一、S7-12001.数字量输入模块2. PNP接法和NPN接法 二、博图软件1. 位逻辑运算Part1. 添加新设备(添加PLC)Part2. 添加信号模块Part3. 添加信号板中模块Part4. 添加新块Part5. Main编程文件案例1案例2 -( S )- 和 -( R )-完整操作过程&#…

昇思25天学习打卡营第8天|ResNet50迁移学习

一、迁移学习定义 迁移学习(Transfer Learning):在一个任务上训练得到的模型包含的知识可以部分或全部地转移到另一个任务上。允许模型将从一个任务中学到的知识应用到另一个相关的任务中。适用于数据稀缺的情况,可减少对大量标记…

掌握Linux网络:深入理解TC —— 你的流量控制利器

目录 简单概述: qdisc(队列): 举例: Bash 整形队列算法: FIFO (First-In-First-Out) PFIFO (Priority FIFO) SFQ (Stochastic Fair Queuing) RED (Random Early Detection) HTB (Hierarchical Token Bucket) TBF…

谷粒商城笔记-04-项目微服务架构图简介

文章目录 一,网络二,网关1,网关选型2,认证鉴权3,动态路由4,限流5,负载均衡6,熔断降级 三,微服务四,存储层五,服务治理六,日志系统七&a…

在Apache HTTP服务器上配置 TLS加密

安装mod_ssl软件包 [rootlocalhost conf.d]# dnf install mod_ssl -y此时查看监听端口多了一个443端口 自己构造证书 [rootlocalhost conf.d]# cd /etc/pki/tls/certs/ [rootlocalhost certs]# openssl genrsa > jiami.key [rootlocalhost certs]# openssl req -utf8 -n…

你的机器人购物新体验——安全、高效、无忧

如果你跟我一样,对找到那些“恰到好处”的商品充满渴望,那么,让我来告诉你为什么BFT会成为你的下一个购物“心头好”。 BFT的优势 高效安全的支付体系:BFT交易系统保障了交易的安全性和透明性,让你的每一笔消费都安全…

Build a Large Language Model (From Scratch)附录B(gpt-4o翻译版)

来源:https://github.com/rasbt/LLMs-from-scratch?tabreadme-ov-file https://www.manning.com/books/build-a-large-language-model-from-scratch

【宠粉赠书】UML 2.5基础、建模与设计实践

为了回馈粉丝们的厚爱,今天小智给大家送上一套系统建模学习的必备书籍——《UML 2.5基础、建模与设计实践》。下面我会详细给大家介绍这本书,文末留有领取方式。 图书介绍 《UML 2.5基础、建模与设计实践》以实战为主旨,结合draw.io免费软件…

verilog行为建模(三):块语句

目录 1.块语句2.延迟赋值语句 微信公众号获取更多FPGA相关源码: 1.块语句 块语句用来将多个语句组织在一起,使得他们在语法上如同一个语句。 块语句分为两类: 顺序块:语句置于关键字begin和end之间,块中的语句以顺…

鸿蒙‘ohpm‘ 不是内部或外部命令,也不是可运行的程序-解决方案

🔥 博客主页: 小韩本韩! ❤️ 感谢大家点赞👍收藏⭐评论✍️ 在鸿蒙的DevEco Studio的终端下输入 onpm -v 或者 你需要下载第三方ohpm包的时候提示‘ohpm‘ 不是内部或外部命令,也不是可运行的程序- 主要是因为我们…

学习测试1

计算机基础 1、计算机范式:冯诺依曼机 2、存储单元 bit、byte、KB、MB、GB3、网络 ip、域名、ping 域名、 ipconfig测试工作的流程 ------------------------------------------------------------------------------------------- 一 编写测试大纲 罗列测试…

文化创新与社交媒体:探索Facebook的足迹

在过去的十多年里,Facebook从一个简单的校园社交网络发展成为全球最大的社交媒体平台之一。它不仅改变了人们的沟通方式,更在许多方面推动了文化的创新和变革。本文将深入探索Facebook如何通过其平台的演进和功能创新,成为文化创新的重要推动…

Ubuntu / Debian安装FTP服务

本章教程,记录在Ubuntu中安装FTP服务的具体步骤。FTP默认端口:21 1、安装 pure-ftpd sudo apt-get install pure-ftpd2、修改默认配置 # 与 centos 不同,这里需要在 /etc/pure-ftpd/conf 文件夹下执行下列命令,增加对应配置文件: # 创建 /etc/pure-ftpd/conf/PureDB 文件…

【数据结构】(6.2)堆的应用——Top-K问题(C语言)

系列文章目录 文章目录 系列文章目录问题引入一、TopK 问题 是什么?二、TopK 问题解决思路2.1 TopK 思路2.2 随机产生数字2.2 完整代码2.3 验证结果 问题引入 TopK 问题 (在一堆数据里面找到前 K 个最大 / 最小的数)。 一、TopK 问题 是什么? 生活中也…

船舶雷达与导航系统选择7/8防水插座的原因分析

概述 船舶雷达与导航系统在现代航海中扮演着至关重要的角色,它们为船舶提供准确的导航信息,确保航行的安全和效率。在这些系统中,7/8防水插座的使用尤为重要,因为它们能够在恶劣的海上环境中提供稳定的电力和信号连接。接下来&am…

Outlook发送大文件的问题是什么?怎么解决?

Outlook不仅是一款电子邮件客户端,还包括日历、任务、笔记、联系人等功能,同时与Microsoft Office套件中的其他应用程序(如Word、Excel、PowerPoint等)集成紧密,方便用户在不同应用程序之间切换,提高工作效…

LLM - 神经网络的组成

1. 一个神经元的结构:即接受多个输入X向量,在一个权重向量W和一个偏执标量b的作用下,经过激活函数后,产生一个输出。 2. 一层神经网络的结构:该层网络里的每个神经元并行计算,得到各自的输出;计算方式是输入…