AI重塑云基础设施,亚马逊云科技打造AI定制版IaaS“样板房”

AI正在彻底重塑云基础设施。

IDC最新《2025年IDC MarketScape:全球公有云基础设施即服务(IaaS)报告》显示,AI正在通过多种方式重塑云基础设施,公有云IaaS有望继续保持快速增长,预计2025年全球IaaS的整体规模将达到1880亿美元。

那么,为什么这一轮的AI浪潮对于云基础设施变革有如此大的影响力?从全球云计算领导者亚马逊云科技的转变便能一窥究竟。IDC认为,亚马逊云科技在可扩展性方面的卓越表现、成熟的开发者社区以及对AI基础设施的积极投入,使其成为需要先进云能力的企业的首选。

AI从四个方面重塑云基础设施

传统云计算以CPU通用计算为核心,满足于各种应用的存储与计算需求。然而,随着AI大模型近年来的迅速崛起,以及智能体(AI Agent)大量涌现,AI对于AI对GPU、NPU等异构算力的依赖远超预期,并且直接驱动着云基础设施走向变革。

IDC在该报告中指出,AI正通过多种方式重塑云基础设施,主要包括四个方面:

其一、AI带来大量的异构算力需求,直接驱动着亚马逊云科技等所有云服务商对GPU、TPU和FPGA等专用硬件进行大量投资;

其二、AI相关技术正在迅速融入云基础设施日常的管理运维之中,由于云服务商的基础设施规模庞大,借助AI技术能够有效改善基础设施的运营效率和成本;

其三、AI正在推动云安全体系的升级,企业需要以AI驱动型安全工具来响应日益复杂的威胁;

其四、云服务商需要利用AI技术来对需求预测,并优化资源分配,推动开发AI驱动的服务与应用等。

与过去相比,云基础设施的确正在产生一系列的变化,AI对于云基础设施的运维、安全等影响尤为重要。那么,在生成式AI带动的这一轮AI浪潮中,AI的训练、推理乃至应用都需要庞大的算力支撑,企业在未来的数字化转型中,应该如何合理的选择基础设施?又应该如何选择合理的云服务商?

对此,IDC在报告中也给出具体建议。IDC认为,重点需要考虑部署决策的原则、AI功能的集成度以及系统可观测性相关的安全性:工作负载部署决策不能仅局限于成本考量,服务集成度、供应商服务的广度,以及对互操作性和开放标准的支持力度,均至关重要;将AI功能集成到云基础设施中也越来越成为一个关键的差异化因素;建议优先选择具备强大开箱即用安全功能,且对系统可观测性有全面方案的供应商。

亚马逊云科技领跑全球IaaS市场

回顾云计算将近二十年的发展历史,基础设施乃云服务商最为核心的竞争力之一,基础设施的覆盖范围与规模、运维管理能力、资源调度分配能力以及对于现代化应用的支持能力直接决定着云服务商提供各类云服务的质量。

作为云计算一哥,亚马逊云科技自成立以来,就极为重视基础设施的建设、迭代和演进,在基础设施覆盖的范围、以及IaaS领域涵盖的核心服务如计算、网络、安全等多个方面进行持续扩展及创新。

进入到AI时代,亚马逊云科技继续引领云基础设施的变革。今年2月份财报会议,亚马逊宣布将在2025年资本投资投入1000亿美元,其中大部分将用于亚马逊云科技AI基础设施的建设等,其金额大幅领先其他竞争对手,足以表明亚马逊云科技对于AI和云基础设施的重视。

在本次IDC报告中,亚马逊云科技也被评为“领导者”,并且在能力和战略的双维度上均为“领导者”。亚马逊云科技在服务范围方面无可匹敌,丰富的服务种类使亚马逊云科技对需要专业能力、混合基础设施或高度可扩展应用程序的企业具有吸引力。当需要最广泛的云服务组合以及经过验证的可扩展性和创新能力时,可以考虑亚马逊云科技。

仔细分析,亚马逊云科技之所以能够领跑全球IaaS市场,关键在于其基础设施的覆盖度、强大的自研芯片能力、领先的网络架构以及高标准的安全体系,从多个方面建立起业界领先的云基础设施。

首先,亚马逊云科技已经建成全球覆盖规模的基础设施遍及36个地理区域的114个可用区,后续还计划在新西兰和沙特阿拉伯等新建4个区域、12个可用区。为支持AI应用对于基础设施带来的种种挑战,亚马逊云科技持续推动数据中心创新,包括简化电气和机械设计,在冷却、机架设计和控制系统进行创新。简化的电力分配和机械系统能够实现高达99.9999%的基础设施可用性,并将可能受到电气问题影响的机架数量减少89%;更新后的冷却系统将无缝集成空气和液体冷却功能,用于支持AI超级计算解决方案,以最低的成本为客户提供最佳性能和效率。由数据和生成式AI驱动的软件能够精确预测服务器最佳部署方式,以最大化电力使用效率等。

其次,亚马逊云科技一直砸加速“自研芯片”的创新。众所周知,随着AI大模型开始进入到各行各业之中,越来越多用户需要包括推理等各类算力。如何高效、便捷、合理成本地为用户提供各种AI算力需求,就成为云服务商接下来重点角逐的领域。

亚马逊云科技的法宝是坚持“自研芯片”,推出多个系列的自研芯片,包括Amazon Nitro系统、通用处理器芯片Amazon Graviton、机器学习训练芯片Amazon Trainium和推理芯片Amazon Inferentia等一系列自研芯片。在训练方面,Amazon EC2 Trn2实例与当前基于GPU的EC2 P5e和P5en实例相比,性价比提升30-40%;单实例配备16个Trainium2芯片,可提供高达20.8 Petaflops浮点算力的性能,非常适合训练和推理高达数十亿参数的大型语言模型。

第三,AI对于计算带来变革,也驱动着网络不断突破。AI 算力如何更加高效地发挥生产价值,仅仅依靠AI芯片的简单堆砌是万万行不通,AI 计算网的重要性也与日俱增,直接决定着整个AI集群的效率。亚马逊云科技在网络集群的创新也堪称业界典范。

亚马逊云科技第二代UltraCluster网络架构,也称为"10p10u"网络,支持超过20,000个GPU协同工作,带宽达10Pb/s,延迟低于10μs(微秒),这一突破性的性能跃迁将模型训练时间缩短至少15%。同时还推出了兼具中央控制和优化及分布式的速度和弹性的SIDR(Scalable,Intent Driven Routing)全新网络路由协议。相比传统的BGP、OSPF等协议,SIDR在亚马逊云科技的10p10u网络中能在不到1秒内恢复网络,速度比传统方法快10倍,显著提升了分布式AI训练中的可靠性和实时性,确保网络在故障发生时也能保持高效运行。10p10u是亚马逊云科技有史以来扩展最快的网络,在2024年,安装了超过300万条链路。

第四,随着生成式AI崛起,安全态势也在发生深刻变化,攻击侧、防守侧乃至监管侧都在积极探索AI在安全领域的应用,甚至衍生出数据、模型和应用等一系列安全挑战。亚马逊云科技认为“安全是设计出来的”,无论是基础设施还是服务,从设计之初就应该将安全作为首要任务,并嵌入到从架构到操作的各个环节,从而为客户提供灵活、安全的云计算环境。

为此,亚马逊云科技采取的思路是在每个区域的基础设施采用同样最高安全标准进行构建和运营,所有用户均可基于同样安全的基础设施进行创新。此外,亚马逊云科技还不断使用创新技术提升基础设施的安全性,例如亚马逊云科技通过自动推理技术实现以可验证的方式提升系统的可观测性,为关键系统按预期运行提供了严格的数学保证。这些经过自动推理验证的基础设施和云服务,不仅能够提高客户云上构建的安全性,还能更快提供更高性能的代码,并最终节约成本。

综合观察,几年前有人认为云计算正在走向同质化,随着AI的崛起,AI算力需求的持续涌现,云基础设施也迎来了巨大的发展空间,这无疑为亚马逊云科技这样的厂商带来了极大的创新舞台。面向未来,随着千亿美元投资的落地,亚马逊云科技有望成为AI时代的创新高地,帮助各行各业催生新一轮创新浪潮。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/900434.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

高效深度学习lecture01

lecture01 零样本学习(Zero-Shot Learning, ZSL): 模型可以在没有见过某种特定任务或类别的训练样本的情况下,直接完成对应的任务 利用知识迁移 模型在一个任务上训练时学到的知识,能够迁移到其他任务上比如,模型知道“狗”和“…

使用 iPerf 测试内网两台机器之间的传输速度

在现代网络管理中,确保内部网络(内网)的高效运行是至关重要的。为了评估和优化网络性能,我们需要一种可靠的方法来测试内网中不同设备间的传输速率。iPerf 作为一款广泛使用的工具,能够帮助我们准确测量两个节点之间的…

视频设备轨迹回放平台EasyCVR如何搭建公共娱乐场所远程视频监控系统

一、背景介绍 由于KTV、酒吧、足疗店等服务场所人员流动频繁、环境复杂,一直是治安管理的重点区域。为有效打击 “黄赌毒”、打架斗殴、寻衅滋事等违法犯罪的活动,打造安全有序的娱乐消费环境,我国相关部门将加大对这类场所的清查与管控力度…

vue进度条组件

<div class"global-mask" v-if"isProgress"><div class"contentBox"><div class"progresstitie">数据加载中请稍后</div><el-progress class"progressStyle" :color"customColor" tex…

Css:如何解决绝对定位子元素内容被父级元素overflow:hidden属性剪裁

一、问题描述 今天小伙伴提了一个bug&#xff0c;在点击列表项的“…”按钮应该出现的悬浮菜单显示不完整&#xff1a; 二、问题排查 一般这种问题&#xff0c;是由于悬浮菜单采用的是绝对定位&#xff0c;而父级采用了overflow:hidden属性。但需要注意的是&#xff0c;这里的…

JavaScript基础--01-JS简介

字面量&#xff1a;数字、字符串、布尔值 前言JavaScript背景Web前端有三层&#xff1a;发展历史JavaScript的发展&#xff1a;蒸蒸日上 JavaScript介绍JavaScript入门易学性JavaScript是脚本语言JavaScript的组成 JavaScript 的特点特点1&#xff1a;解释型语言特点2&#xff…

[leetcode] 面试经典 150 题——篇9:二叉树(番外:二叉树的遍历方式)

二叉树的遍历是指按照某种顺序访问二叉树中的每个节点。常见的遍历方式有四种&#xff1a;前序遍历&#xff08;Pre-order Traversal&#xff09;、中序遍历&#xff08;In-order Traversal&#xff09;、后序遍历&#xff08;Post-order Traversal&#xff09;以及层序遍历&am…

es基本概念

Elasticsearch 的架构与基本概念 Elasticsearch&#xff08;简称 ES&#xff09;是一个开源的分布式搜索和分析引擎&#xff0c;基于 Apache Lucene 构建。它被广泛用于全文搜索、日志分析、实时数据分析等场景。以下是其架构概述及其基本概念的详细解释。 Elasticsearch 的架…

《星环之城:量子迷雾下的网络安全战记》

点击下面图片带您领略全新的嵌入式学习路线 &#x1f525;爆款热榜 88万阅读 1.6万收藏 序章&#xff1a;星环之陨 公元2145年&#xff0c;人类在火星轨道上建造了“星环之城”——一座由量子网络连接的太空城邦。它的中枢AI“盖娅”掌控着地球与殖民地的数据洪流&#xff…

《全栈+双客户端Turnkey方案》架构设计图

今天分享一些全栈双客户端Turnkey方案的架构与结构图。 1&#xff1a;三种分布式部署方案:网关方案&#xff0c;超级服务器单服方案&#xff0c;直连逻辑服方案 2: 单服多线程核心架构: 系统服务逻辑服服务 3: 系统服务的多线程池调度设计 4:LogicServer Update与ECS架构&…

打破界限:Android XML与Jetpack Compose深度互操作指南

在现有XML布局项目中逐步引入Jetpack Compose是现代Android开发的常见需求。本指南将全面介绍混合使用的最佳实践、技术细节和完整解决方案。 一、基础配置 1.1 Gradle配置 android {buildFeatures {compose true}composeOptions {kotlinCompilerExtensionVersion "1.5.3…

React-narice安卓打包流程

**1. 生成签名密钥 在项目的 android/app 目录下生成签名密钥的步骤&#xff1a; 打开终端或命令提示符&#xff1a;导航到您的 React Native 项目的 android/app 目录。 运行以下命令生成密钥库文件&#xff1a; keytool -genkeypair -v -keystore my-release-key.keystor…

嵌入式AI开源生态指南:从框架到应用的全面解析

嵌入式AI开源生态指南&#xff1a;从框架到应用的全面解析 引言 随着人工智能技术的迅速发展&#xff0c;将AI能力部署到边缘设备上的需求日益增长。嵌入式AI通过在资源受限的微控制器上运行机器学习模型&#xff0c;实现了无需云连接的本地智能处理&#xff0c;大幅降低了延…

深度学习中模型量化那些事

在深度学习中模型量化可以分为3块知识点&#xff0c;数据类型、常规模型量化与大模型量化。本文主要是对这3块知识点进行浅要的介绍。其中数据类型是模型量化的基本点。常规模型量化是指对普通小模型的量化实现&#xff0c;通常止步于int8的量化&#xff0c;绝大部分推理引擎都…

Redis-list类型

这里只是介绍命令使用 列表是用来存储多个有序的字符串 可以用来充当栈和队列的角色 列表特点: 列表中的元素是有序的,可以通过索引下标来获取某个元素或者某个范围的元素 获取和删除有区别 元素可以重复 命令 LPUSH 将一个或者多个元素从左侧放入到list中(头插法) lp…

Business English Certificates (BEC) 高频词汇背诵

Business English Certificates {BEC} 高频词汇背诵 References Cambridge English: Business Certificates, also known as Business English Certificates (BEC), are a suite of three English language qualifications for international business. abandon /əˈbndən/ …

第十四届蓝桥杯省赛真题解析(含C++详细源码)

第十四届蓝桥杯省赛 整数删除满分思路及代码solution1 &#xff08;40% 双指针暴力枚举&#xff09;solution 2&#xff08;优先队列模拟链表 AC&#xff09; 冶炼金属满分代码及思路 子串简写满分思路及代码solution 1&#xff08;60% 双指针&#xff09;solution 2&#xff0…

AI Agent开发大全第二十一课-如何开发一个MCP(从0开发一个MCP Client)

开篇 上一章《AI Agent开发大全第二十课-如何开发一个MCP(从0开发一个MCP Server)》里我们讲了如何从0开始开发一个MCP Server。可以看到文中大量细节为MCP发明者官网Claude都不曾或者是遗漏的,而且还有那么多点遗漏,想要真正要在企业生产级环境使用MCP是需要做分布式开发的…

TypeScript面试题集合【初级、中级、高级】

初级面试题 什么是TypeScript&#xff1f; TypeScript是JavaScript的超集&#xff0c;由Microsoft开发&#xff0c;它添加了可选的静态类型和基于类的面向对象编程。TypeScript旨在解决JavaScript的某些局限性&#xff0c;比如缺乏静态类型和基于类的面向对象编程&#xff0c…

无锡无人机驾驶证培训费用

无锡无人机驾驶证培训费用&#xff0c;随着科技的迅速发展&#xff0c;无人机在众多行业中发挥着举足轻重的作用。从影视制作到农业监测&#xff0c;再到物流运输与城市规划&#xff0c;无人机的应用场景不断扩展&#xff0c;因此越来越多的人开始意识到学习无人机驾驶技能的重…