阿里云推出第八代企业级实例 g8i:AI 推理性能最高提升 7 倍、可支持 72B 大语言模型

云布道师

1 月 11 日,全球领先的云计算厂商阿里云宣布推出第八代企业级通用计算实例 ECS g8i,这也是国内首款搭载第五代英特尔至强可扩展处理器(代号 EMR)的云计算产品。依托阿里云自研的「飞天+CIPU」架构体系,ECS g8i 实例的整机性能最高提升 85%,AI 推理性能最高提升 7 倍,可支撑高达 72B 参数的大语言模型,为 AI 提速,同时新实例还提供了端到端安全防护,为企业构建可信 AI 应用提供强有力的隐私增强算力支撑。

通用算力再提升,整机性能提升 85%

作为企业级通用计算实例,ECS g8i 实例在计算、存储、网络和安全等能力得到了全方位提升。从关键参数上看,ECS g8i 实例的 L3 缓存容量提升到 320MB,内存速率高达 5600MT/s,整机性能提升 85%,单核性能提升 25%;存储方面,ESSD 云盘提供 100万 IOPS,全面搭载 NVMe,存储延迟低至百微秒;网络方面,PPS 高达 3000 万,标配阿里云自研 eRDMA 大规模加速能力,时延低至 8 微秒;安全方面,ECS g8i 实例支持可信计算与加密计算等特性,全球率先支持机密虚拟机 TDX 技术,构建了全面的安全防护。在这里插入图片描述
在 E2E 场景下,ECS g8i 实例可将 MySQL 性能提升最高达 60%,Redis 和 Nginx 的性能分别提升 40% 和 24%,面向游戏、视频直播、电商、金融、医疗、企业服务等行业提供强劲的算力支持,满足其在数据库、大数据、AI 推理等应用场景下对性能的严苛要求。

此外,ECS g8i 实例还提供了多种硬件原生加速能力,包括 QAT 和 IAA 等加速器。阿里云通过自研技术,将硬件加速能力更细颗粒度透传至实例虚拟机,小规格的 ECS g8i 实例也同样具备加速能力。其中,依托于 QAT 原生加解密加速器,ECS g8i 实例在压缩/解压缩场景下性能最大可提升 70 倍,加解密性能提升 4 倍以上。

为 AI 提速,可支撑 72B 参数的大语言模型

生成式 AI 掀起的技术革命,正在推动计算范式发生根本性的变化。当前,AI 大模型推理在算力上依然面临诸多挑战,例如首包延迟受限于并行处理能力与浮点运算能力,吞吐性能则受限于内存带宽和网络延迟。

阿里云 ECS g8i 实例针对这些难题都进行了相当程度的优化,包括内置指令集从AVX512 升级到了 Intel AMX 高级矩阵扩展加速技术,可让生成式 AI 更快地运行。相对于 AVX512 指令集,启用 AMX AI 加速后,ECS g8i 实例在 int 8 矩阵计算的性能最高提升 7 倍。
图片
基于 AMX AI 加速能力,g8i 可更迅速地响应中小规模参数模型,运行知识检索、问答系统及摘要生成等 AI 工作负载时,起建成本相比 A10 GPU 云服务器下降50%。此外,配合阿里云平台的 Spot 抢占式实例,成本优势将进一步凸显,进一步降低 AI 推理成本。

对于超大规模参数的模型来讲,通常会通过模型并行、流水线并行切分到 AI 集群,这个时候网络通讯成了主要的性能瓶颈。基于阿里云自研的 eRDMA 超低延时弹性网络,ECS g8i 实例集群拥有超低延时网络和高弹性优势,可轻松支撑 72B 参数级别的大语言模型分布式推理,推理性能随集群规模接近线性加速,并可支持超过32batchsize 的超大参数规模的 AI 模型负载,运行文生图、AI 生成代码、虚拟助手以及创意辅助工具等 AI 工作负载。
在这里插入图片描述
以阿里云开源的 Qwen-72B 大模型为例,可在 g8i 实例 eRDMA 网络构建的集群实现高效运行,在输入小于 500 字情况下,首包延时小于 3 秒,每秒可生成 7 个Token。

为安全加码,助力企业构建可信 AI 应用

长久以来,云厂商一直在不遗余力提升数据的隐私保护和安全性,AI 时代尤为明显。基于自研的 CIPU,阿里云在全产品线构建了端到端的安全防护,可保障数据存储、数据传输、数据计算的全流程安全。在最底层,基于 CIPU 的安全架构搭载安全芯片 TPM 作为硬件可信根,实现服务器的可信启动,确保零篡改;虚拟化层面,支持虚拟可信能力 vTPM,提供实例启动过程核心组件的校验能力;在实例可信的基础上支持不同平台的机密计算能力,实现了运行态的内存数据隔离和加密的保护。
在这里插入图片描述
值得一提的是,此次升级的 ECS g8i 实例全量支持 Trust Domain Extension TDX 技术能力,业务应用无需更改,即可部署到 TEE 之中,极大降低了技术门槛,并以极低的性能损耗为大模型等 AI 应用提供隐私增强算力,护航大模型的云上数据安全。
在这里插入图片描述
以 Qwen-Chat-7B 模型为例,启用 TDX 后,既确保了模型推理的安全可信,也保护了数据的机密性和完整性。
图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/644363.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

十一、常用API——爬虫

目录 爬虫本地爬虫和网络爬虫贪婪爬取和非贪婪爬取正则表达式在字符串方法中的使用捕获分组和非捕获分组分组捕获分组非捕获分组 爬虫 本地爬虫和网络爬虫 有如下文本,请按照要求爬取数据。(本地爬虫) Java自从95年问世以来,经历…

记录一些多维数组的方法

文章目录 前言一、获取多维数组的数据二、多维数组自带的方法总结 前言 验证过程中,我们经常会用到多维数组存储数据,本文主要记录一下,如何去获取我们需要的数据,以及多维数组自带的一些方法。 一、获取多维数组的数据 获取多维…

排序-睡眠排序

睡眠排序 小故事: 在一个神奇的小村庄里,村长有一群活泼可爱的小动物们,它们分别是兔子、松鼠、乌龟和蜗牛。每天晚上,村长都会安排一场特殊的比赛,让大家各自按照自己的速度去完成一项任务。有一天,村长决定让他们按…

网络通信(17)-C#TcpClient 和 TcpListener的详解

目录 一、概述 二、TcpClient 三、NetworkStream流处理技术 四、 TcpListener 一、概述 支持Http、Tcp和Udp的类组成了TCP/IP三层模型(请求响应层、应用协议层、传输层)的中间层-应用协议层,该层的类比位于最底层的Socket类提供了更高层次的抽象

【js学习之路】遍历数组api之 `filter `和 `map`的区别

👉一、前言 数组是我们在项目中经常使用的数据类型,今天我们主要简述作用于遍历数组的api,filter和map的区别。 👉 二、filter和map的共同点 首先,我们主要阐述一下 filter 和 map 的共同点 api的参数都是回调函数…

山体滑坡监测预警系统-gnss位移监测站

GNSS山体滑坡位移监测站是一种利用全球导航卫星系统(GNSS)进行山体滑坡位移监测的设备。它通过接收和处理GNSS卫星信号,能够实时监测山体的位移变化,并将数据传输到后端系统进行分析和处理。 GNSS山体滑坡位移监测站具有高精度、…

olap/clickhouse keeper 一致性协调服务

在https://www.yuque.com/treblez/qksu6c/ahgvn94c2nh1y34w?singleDoc# 《Redis集群:分布式的less is more》中我提到,无论是啥服务,想要达到操作视角的强一致性,要么使用类似TSO/原子钟的方案,要么有一套一致性协调服务。 click…

Python对Excel文件中不在指定区间内的数据加以去除的方法

本文介绍基于Python语言,读取Excel表格文件,基于我们给定的规则,对其中的数据加以筛选,将不在指定数据范围内的数据剔除,保留符合我们需要的数据的方法。 首先,我们来明确一下本文的具体需求。现有一个Exc…

中国大模型迎来“95后” 百度奖学金发掘百位“未来AI技术领袖”

在人工智能掀起的科技革命和产业变革浪潮下,大模型成为最受关注的研究领域。1月22日,第十一届百度奖学金颁奖典礼在北京举行,来自全球顶尖高校及科研机构的10位“未来AI技术领袖”脱颖而出,他们平均年龄仅27岁,其中8人…

【江科大】STM32:DMA转运

DMA 直接存储器存取(协助CPU完成数据转运,可以直接访问32位内部存储器,内存SRAM,程序存储器Flash,寄存器等) DMA可以提供外设和存储器或者存储器和存储器之间的高速数据传输,无须CPU干预&#…

【C++】入门(二)

前言: c基础语法(下) 文章目录 五、引用5.1 引用概念5.2 引用使用规则5.3 常引用5.4 引用的使用场景5.5 引用和指针的区别 六、内联函数6.1 概念6.2 内联函数的特性 七、auto关键字(C11)7.1 概念7.2 使用规则7.3 用于f…

Qt容器QMap(映射)

插入数据 QMap<QString,QString> infoMap; //第一个是key 第二个是valueinfoMap.insert("王祖蓝","163cm");infoMap.insert("Anglebaby","168cm");infoMap["易烊千玺"] "173cm(成长中)";infoMap["姚…

社区分享|百果园选择DataEase搭档蜜蜂微搭实现企业数据应用一体化

百果园&#xff0c;全称为深圳百果园实业&#xff08;集团&#xff09;股份有限公司&#xff0c;2001年12月成立于深圳&#xff0c;2002年开出中国第一家水果专卖店。截至2022年11月&#xff0c;百果园全国门店数量超过5600家&#xff0c;遍布全国140多个城市&#xff0c;消费会…

5118优惠码vip、svip、专业版和旗舰版使用yhm666

5118大数据平台会员优惠码【yhm666】&#xff0c;结算时勾选“使用优惠码”&#xff0c;然后在优惠码窗口中输入yhm666&#xff0c;然后点确定即可享受特价会员价格。阿腾云atengyun.com分享如下图&#xff1a; 5118会员优惠码【yhm666】 5118会员价格和使用优惠码之后的价格对…

Android 9.0 系统禁用截屏和录屏功能

1.前言 在9.0的系统rom产品开发中,在对于一些产品开发需求中,对系统截屏和录屏功能 要求去掉这些功能,不让用户截屏和录屏 保护 一个app的资源,所以就需要在系统中做限制不让截屏录屏,接下来具体实现相关功能 2.系统禁用截屏和录屏功能的核心类 frameworks\native\service…

C++ max和min函数详细使用指南

0. 前言 C 是一种强大而灵活的编程语言&#xff0c;具有丰富的标准库&#xff0c;其中包括了一系列实用的函数。其中&#xff0c;max 和 min 函数是处理数值的时候经常用到的工具。本文将深入探讨这两个函数的使用方法&#xff0c;以及它们在不同情景下的应用。 1. max 函数的…

ubuntu 20.04 使用 webrtc-streamer自动退出,报错GLIBC 问题解决方法

文章目录 前言Ubuntu 20.4中使用webrtc-streamer报错总结 前言 前端vue2 项目需要播放海康的视频流&#xff0c;本地启动起来了&#xff0c;现在需要的服务器上部署&#xff0c;服务器是Ubuntu 20.04&#xff0c;下面是部署时遇到的问题及解决方法&#xff0c;总耗时2天。 不知…

golang学习笔记——面试题 使用 3 个协程顺序打印 cat、dog、fish 各 100 次

文章目录 面试题 使用 3 个协程顺序打印 cat、dog、fish 各 100 次拓展第一种方法第二种方法 参考资料 面试题 使用 3 个协程顺序打印 cat、dog、fish 各 100 次 编程题&#xff1a;3个函数分别打印cat、dog、fish&#xff0c;要求每个函数都要起一个goroutine&#xff0c;按照…

算法训练营Day46(动态规划8之多重背包)

多重背包 关于 多重背包&#xff0c;力扣上没有相关的题目&#xff0c;所以今天的重点就是回顾一波 自己做的背包题目 本题力扣上没有原题&#xff0c;大家可以去卡码网第56题 (opens new window)去练习 简单介绍 有N种物品和一个容量为V 的背包。第i种物品最多有Mi件可用&…

【GitHub项目推荐--不错的 Java 开源项目】【转载】

1 基于 Java 的沙盒塔防游戏 Mindustry 是一款用 Java 编写的沙盒塔防游戏。玩家需要建造精密的传送带供应链&#xff0c;提供炮塔弹药&#xff0c;生产建筑材料&#xff0c;保护建筑并抵御敌人。也可以在跨平台多人合作游戏中与朋友一起战斗&#xff0c;或组队进行 PVP 比赛。…