HuaWei、NVIDIA 数据中心 AI 算力对比

HuaWei Ascend 910B


Ascend 910B 是 HuaWei 于 2023 年推出的高性能 AI 处理器芯片,其对标产品为 Nvidia A100/A800,其算力表现如下:


  1. 峰值算力:Ascend 910B 的半精度(FP16)算力达到 256 TFLOPS(每秒 256 万亿次浮点运算)。
  2. 整数精度算力:Ascend 910B 的整数精度(INT8)算力达到 512 Tera-OPS。
  3. 单精度算力:Ascend 910B 的单精度(FP32)算力达到 128 TFLOPS。
  4. 能效比:Ascend 910B 的每瓦特性能达到 5.2 TFLOPS/W,相较于英伟达 A100 的每瓦特性能 4.7 TFLOPS/W,Ascend 910B 在能效上更优。
  5. 内存带宽:Ascend 910B 的内存带宽为 768 GB/s。
  6. 互连带宽:Ascend 910B 的芯片间互连带宽为 600GB/s,卡间互连带宽为 PCIe 4.0 x16,理论带宽 31.5GB/s。
  7. 功耗:Ascend 910B 的最大功耗为 350W。
  8. AI 算力对比:科大讯飞与华为联合优化后,在他们的场景中 Ascend 910B 已经达到 NVIDIA A100 的性能。

NVIDIA A100

数据精度A100 80GB PCIeA100 80GB SXM
FP649.7 TFLOPS9.7 TFLOPS
FP64 Tensor Core19.5 TFLOPS19.5 TFLOPS
FP3219.5 TFLOPS19.5 TFLOPS
Tensor Float 32 (TF32)156 TFLOPS312 TFLOPS
BFLOAT16 Tensor Core312 TFLOPS624 TFLOPS
FP16 Tensor Core312 TFLOPS624 TFLOPS
INT8 Tensor Core624 TOPS1248 TOPS
GPU Memory80GB HBM2e80GB HBM2e
GPU Memory Bandwidth1935 GB/s2039 GB/s
TDP 功耗300W400W
插槽类型PCIe 4.0SXM

NVIDIA H100

NVIDIA H100 Tensor Core GPU

数据精度H100 SXMH100 NVL
FP6434 TFLOPS30 TFLOPS
FP64 Tensor Core67 TFLOPS60 TFLOPS
FP3267 TFLOPS60 TFLOPS
TF32 Tensor Core989 TFLOPS835 TFLOPS
BFLOAT16 Tensor Core1979 TFLOPS1671 TFLOPS
FP16 Tensor Core1979 TFLOPS1671 TFLOPS
FP8 Tensor Core3958 TFLOPS3341 TFLOPS
INT8 Tensor Core3958 TOPS3341 TOPS
GPU Memory80GB94GB
GPU Memory Bandwidth3.35TB/s3.9TB/s
TDP 功耗700 W400 W
插槽类型SXMPCIe 5.0

基于 PCIe 的 NVIDIA H100 NVL(带有 NVLink 桥接)利用 Transformer Engine、NVLink 和 188GB HBM3 内存,在任何数据中心提供最佳性能和轻松扩展,使大型语言模型成为主流

NVIDIA H200

NVIDIA H200 Tensor Core GPU

数据精度H200 SXMH200 NVL
FP6434 TFLOPS30 TFLOPS
FP64 Tensor Core67 TFLOPS60 TFLOPS
FP3267 TFLOPS60 TFLOPS
TF32 Tensor Core989 TFLOPS835 TFLOPS
BFLOAT16 Tensor Core1979 TFLOPS1671 TFLOPS
FP16 Tensor Core1979 TFLOPS1671 TFLOPS
FP8 Tensor Core3958 TFLOPS3341 TFLOPS
INT8 Tensor Core3958 TOPS3341 TOPS
GPU Memory141GB141GB
GPU Memory Bandwidth4.8TB/s4.8TB/s
TDP 功耗700 W600 W
插槽类型SXMPCIe 5.0

基于 NVIDIA Hoppe 架构,NVIDIA H200 是首款提供 141GB(吉字节)HBM3e 内存、内存带宽达 4.8TB/s(太字节每秒)的 GPU

NVIDIA GB200 & GB200 NVL72

数据精度GB200 NVL72GB200
Configuration36 Grace CPU : 72 Blackwell GPUs1 Grace CPU : 2 Blackwell GPU
FP4 Tensor Core1440 PFLOPS40 PFLOPS
FP8/FP6 Tensor Core720 PFLOPS20 PFLOPS
INT8 Tensor Core720 POPS20 POPS
FP16/BF16 Tensor Core360 PFLOPS10 PFLOPS
TF32 Tensor Core180 PFLOPS5 PFLOPS
FP326480 TFLOPS180 TFLOPS
FP643240 TFLOPS90 TFLOPS
FP64 Tensor Core3240 TFLOPS90 TFLOPS
GPU MemoryUp to 13.5 TB HBM3eUp to 384 GB HBM3e
GPU Bandwidth576 TB/s16 TB/s
NVLink Bandwidth130TB/s3.6TB/s
CPU Core Count2592 Arm Neoverse V2 cores72 Arm Neoverse V2 cores
CPU MemoryUp to 17 TB LPDDR5XUp to 480GB LPDDR5X
CPU BandwidthUp to 18.4 TB/sUp to 512 GB/s

GB200 NVL72 架构组成:

  • 将 36 个 Grace Blackwell 超级芯片组合在一起,包含 72 个 Blackwell GPU 和 36 个 Grace CPU,通过第五代 NVLink 技术相互连接
  • 每个 Grace Blackwell 超级芯片包含两个高性能的 NVIDIA Blackwell Tensor Core GPU 和一个 NVIDIA Grace CPU,使用 NVIDIA NVLink-C2C 连接

码字不易,若觉得本文对你有用,欢迎点赞 👍、分享 🚀 ,相关技术热点时时看🔥🔥🔥​​​…


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/65101.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2021-04-08 VSC++: 降序折半查找。

void 降序折半查找(int* a, int aa, int aaa) {//缘由https://bbs.csdn.net/topics/399166569int aaaa aaa / 2; bool k 0;if (a[0] aa){cout << 0, cout << ends << "查找&#xff1a;" << aa << endl;k 1;return;}else if (a[aa…

MySQL三层B+树能存多少数据

结论 bigint类型的索引&#xff08;8字节&#xff09;&#xff0c;一条数据假设是1KB的话&#xff0c; 三层B树 能存2000万条数据 该题主要考察数据如何在B树中存储的 计算思路 1.计算叶节点的大小 2.计算子节点的个数&#xff0c;由此算出第三层叶子节点的个数&#xff08;n*n…

win系统B站播放8k视频启用HEVC编码

下载HEVC插件 点击 HEVC Video Extension 2.2.20.0 latest downloads&#xff0c;根据教程下载安装 安装 Random User-Agent 点击 Random User-Agent 安装 配置 Random User-Agent ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/dda0ea75096c42c0a79ef6f6f5521…

中伟视界:AI识别摄像头+AI预警平台在矿山皮带空载监测中的应用

在矿山开采和矿物处理过程中&#xff0c;皮带运输机扮演着举足轻重的角色。它们负责将矿石、煤炭等物料从一处运送到另一处&#xff0c;是矿山生产流程中不可或缺的一环。然而&#xff0c;皮带运输机在运行过程中也面临着一些挑战&#xff0c;其中之一便是皮带空载问题。皮带空…

实训项目-人力资源管理系统-1Company子模块

目录 前言&#xff1a; 用例图设计&#xff1a; 系统设计 开发方式&#xff1a; 技术架构 系统结构&#xff1a; API文档&#xff1a; 工程搭建&#xff1a; 搭建父项目 pom&#xff1a; 创建公共子模块&#xff1a; 返回实体&#xff1a; 分布式id生成器&#xff1a; …

2.5.3 文件使用、共享、保护、安全与可靠性

文章目录 文件使用文件共享文件保护系统安全与可靠性 文件使用 操作系统向用户提供操作级、编程级文件服务。 操作级服务包括目录管理&#xff0c;文件操作&#xff08;复制、删除、修改&#xff09;&#xff0c;文件管理&#xff08;设置文件权限&#xff09;。 编程级服务包括…

路由器转发数据报的封装过程

✍作者&#xff1a;柒烨带你飞 &#x1f4aa;格言&#xff1a;生活的情况越艰难&#xff0c;我越感到自己更坚强&#xff1b;我这个人走得很慢&#xff0c;但我从不后退。 &#x1f4dc;系列专栏&#xff1a;网路安全入门系列 目录 路由器转发数据的封装过程 路由器转发数据的封…

vulnhub matrix-breakout靶机

1.搭建靶机 这样就是装好了 获取靶机IP nmap -O 192.168.47.129/24 2.信息收集 dirb http://192.168.47.128 dirb 首页 81端口一个登录页面 gobuster dir -u http://192.168.152.154 -w /usr/share/wordlists/dirbuster/directory-list-2.3-medium.txt -x php,txt,html gra…

微信小程序 不同角色进入不同页面、呈现不同底部导航栏

遇到这个需求之前一直使用的小程序默认底部导航栏&#xff0c;且小程序默认入口页面为pages/index/index&#xff0c;要使不同角色呈现不同底部导航栏&#xff0c;必须要在不同页面引用不同的自定义导航栏。本篇将结合分包&#xff08;subPackages&#xff09;展开以下三步叙述…

如何通过 Kafka 将数据导入 Elasticsearch

作者&#xff1a;来自 Elastic Andre Luiz 将 Apache Kafka 与 Elasticsearch 集成的分步指南&#xff0c;以便使用 Python、Docker Compose 和 Kafka Connect 实现高效的数据提取、索引和可视化。 在本文中&#xff0c;我们将展示如何将 Apache Kafka 与 Elasticsearch 集成以…

LLaMA-Factory GLM4-9B-CHAT LoRA 微调实战

&#x1f929;LLaMA-Factory GLM LoRA 微调 安装llama-factory包 git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git进入下载好的llama-factory&#xff0c;安装依赖包 cd LLaMA-Factory pip install -e ".[torch,metrics]" #上面这步操作会完成…

view draw aosp15

基础/背景知识 如何理解Drawable&#xff1f; 在 Android 中&#xff0c;Drawable 是一个抽象的概念&#xff0c;表示可以绘制到屏幕上的内容。 它可以是位图图像、矢量图形、形状、颜色等。 Drawable 本身并不是一个 View&#xff0c;它不能直接添加到布局中&#xff0c;而是…

gridcontrol表格某一列设置成复选框,选择多行(repositoryItemCheckEdit1)

1. 往表格中添加repositoryItemCheckEdit1 2. 事件&#xff1a; repositoryItemCheckEdit1.QueryCheckStateByValue repositoryItemCheckEdit1_QueryCheckStateByValue; private void repositoryItemCheckEdit1_QueryCheckStateByValue(object sender, DevExpress.XtraEditor…

重温设计模式--适配器模式

文章目录 适配器模式&#xff08;Adapter Pattern&#xff09;概述适配器模式UML图适配器模式的结构目标接口&#xff08;Target&#xff09;&#xff1a;适配器&#xff08;Adapter&#xff09;&#xff1a;被适配者&#xff08;Adaptee&#xff09;&#xff1a; 作用&#xf…

C语言项目 天天酷跑(上篇)

前言 这里讲述这个天天酷跑是怎么实现的&#xff0c;我会在天天酷跑的下篇添加源代码&#xff0c;这里会讲述天天酷跑这个项目是如何实现的每一个思路&#xff0c;都是作者自己学习于别人的代码而创作的项目和思路&#xff0c;这个代码和网上有些许不一样&#xff0c;因为掺杂了…

公交车信息管理系统:构建智能城市交通的基石

程序设计 本系统主要使用Java语言编码设计功能&#xff0c;MySQL数据库管控数据信息&#xff0c;SSM框架创建系统架构&#xff0c;通过这些关键技术对系统进行详细设计&#xff0c;设计和实现系统相关的功能模块。最后对系统进行测试&#xff0c;这一环节的结果&#xff0c;基本…

MDS-NPV/NPIV

在存储区域网络&#xff08;SAN&#xff09;中&#xff0c;域ID&#xff08;Domain ID&#xff09;是一个用于区分不同存储区域的关键参数。域ID允许SAN环境中的不同部分独立操作&#xff0c;从而提高效率和安全性。以下是关于域ID的一些关键信息&#xff1a; 域ID的作用&…

【网络安全产品大调研系列】1. 漏洞扫描

1. 为什么会出现漏扫技术&#xff1f; 每次黑客攻击事件进行追溯的时候&#xff0c;根据日志分析后&#xff0c;我们往往发现基本都是系统、Web、 弱口令、配置这四个方面中的其中一个出现的安全问题导致黑客可以轻松入侵的。 操作系统的版本滞后&#xff0c;没有更新补丁&am…

验证 Dijkstra 算法程序输出的奥秘

一、引言 Dijkstra 算法作为解决图中单源最短路径问题的经典算法,在网络路由、交通规划、资源分配等众多领域有着广泛应用。其通过不断选择距离源节点最近的未访问节点,逐步更新邻居节点的最短路径信息,以求得从源节点到其他所有节点的最短路径。在实际应用中,确保 Dijkst…

【论文阅读笔记】Learning to sample

Learning to sample 前沿引言方法问题声明S-NET匹配ProgressiveNet: sampling as ordering 实验分类检索重建 结论附录 前沿 这是一篇比较经典的基于深度学习的点云下采样方法 核心创新点&#xff1a; 首次提出了一种学习驱动的、任务特定的点云采样方法引入了两种采样网络&…