常见的GPU性能对比

写这篇博客的目的就是想搞清楚英伟达不同显卡之间的性能差异以及移动端GPU的性能达到了英伟达显卡的哪一代,让自己也让大家明白不同显卡的算力差异。所有的数据均从网络搜索,有不正确的地方欢迎批评指正。同一显卡会有一个首次发布,此外还有一系列的迭代升级版本,我们只考虑首次发布版本的性能。鉴于现在的模型推理大多使用int8来进行推理,所以大家可以着重看一下int8算力那一列。   

1. 英伟达GPU

型号

显存带宽

显存位宽

fp32算力

fp16算力

int8算力

TDP功耗

架构

制程

计算能力

首次发布

GTX1080

320GB/s

256bit

8.9T

138G

35.5T

180W

Pascal

14nm

6.1

2016.05

GTX1080Ti

484GB/s

352bit

11.3T

177G

45.2T

250W

Pascal

14nm

6.1

2017.03

P4

192GB/s

256bit

5T

X

20T

75W

Pascal

14nm

6.1

2016.09

V100 PCIe

900GB/s

4096bit

14T

112T

224T

250W

Volta

12nm

7.0

2018.03

RTX2080

448GB/s

256bit

10T

20T

80T

215W

Turing

12nm

7.5

2018.09

RTX2080Ti

616GB/s

352bit

13.4T

26.9T

108T

250W

Turing

12nm

7.5

2018.09

T4

320GB/s

256bit

8.1T

64.8T

130T

70W

Turing

12nm

7.5

2018.09

A100 PCIe

1935GB/s

5120bit

156T

312T

624T

300W

Ampere

7nm

8.0

2020.05

A100 SXM

2039GB/s

5120bit

312T

624T

1248T

400W

Ampere

7nm

8.0

2020.05

RTX3070

448GB/s

256bit

20T

40T

163T

220W

Ampere

7nm

8.6

2020.10

RTX3080

760GB/s

320bit

30T

60T

238T

350W

Ampere

7nm

8.6

2020.09

RTX3090

936GB/s

384bit

35.6T

71.2T

285T

350W

Ampere

7nm

8.6

2020.09

RTX3090Ti

1008GB/s

384bit

40T

80T

321T

450W

Ampere

7nm

8.6

2022.03

RTX4060

272GB/s

128bit

15.1T

30.2T

242T

115W

Ada Lovelace

5nm

8.9

2023.06

RTX4070

504GB/s

192bit

29.1T

58.2T

466T

200W

Ada Lovelace

5nm

8.9

2023.04

RTX4080

504GB/s

192bit

40.1T

80.2T

780T

320W

Ada Lovelace

5nm

8.9

2022.11

RTX4090

1008GB/s

384bit

82.6T

165.2T

1321T

450W

Ada Lovelace

5nm

8.9

2022.10

H100 SXM

3.35TB/s

5120bit

989T

1929T

3958T

700W

Hopper

4nm

9.0

2022.03

参考:

  1. 不用老黄上场,看我如何用GTX1080来撕谷歌的TPU
  2. RTX2080和GTX1080哪个值得买 GTX1080和RTX2080区别对比评测
  3. NVIDA GPU卡SXM和PCIe之间的差异性,一偏文章帮你分析清楚
  4. NVDIA GPU参数列表: 3090,4090, A40, A30,V100, A100, A800性能参数
  5. Your GPU Compute Capability
  6. NVIDIA T4
  7. List of Nvidia graphics processing units
  8. 巅峰对决:英伟达 V100、A100/800、H100/800 GPU 对比

2. 移动端CPU

移动端CPU的芯片包含GPU和NPU,但是从算力上来讲,NPU的算力要远大于GPU,所以我们更关注NPU的算力。苹果M系列芯片虽然也是用在桌面端的,但是属于CPU内部集成了GPU和NPU,我们也把它放在移动端CPU里。

2.1 高通骁龙系列:

内存带宽

GPU型号

GPU算力

NPU型号

NPU int8算力

TDP功耗

制程

发布时间

845

29.8GB/s

Adreno 630

0.7T

Hexagon 685

3T

9W

10nm

2018Q1

855

34.1GB/s

Adreno 640

0.9T

Hexagon 690

7T

6W

7nm

2019Q1

865

34.1GB/s

Adreno 650

0.9T

Hexagon 698

15T

5W

7nm

2020Q1

870

34.1GB/s

Adreno 650

1T

Hexagon 698

15T

6W

7nm

2021Q1

888

51.2GB/s

Adreno 660

1.3T

Hexagon 780

26T

8W

5nm

2021Q1

888+

51.2GB/s

Adreno 660

1.3T

Hexagon 780

32T

8W

5nm

2021Q3

8gen1

51.2GB/s

Adreno 730

1.7T

Hexagon 790

52T

5.3W

4nm

2021Q4

8+gen1

51.2GB/s

Adreno 730

1.8T

Hexagon 790

52T

6W

4nm

2022Q2

8gen2

67.2GB/s

Adreno 740

2.1T

Hexagon

?

6.3W

4nm

2022Q4

8gen3

76.8GB/s

Adreno 750

2.8T

Hexagon

73T?

6.3W

4nm

2023Q4

参考:

  1. 四大升级!骁龙8 Gen3这下稳了:高通一代神U
  2. List of Qualcomm Snapdragon systems on chips

2.2 联发科天玑系列:

GPU型号

GPU算力

NPU型号

NPU int8算力

制程

发布时间

8100

Mali G610

0.9T

APU 580

5nm

2022Q1

8200

Mali G610

APU 580

4nm

2022Q4

8300

Mali G615

APU 780

4nm

2023Q4

9000

Mali G710

1.6T

APU 590

4nm

2021Q4

9200

Immortali G715

APU 690

4nm

2022Q4

9200+

Immortali G715

APU 690

4nm

2023Q2

9300

Immortali G720

APU 790

4nm

2023Q4

9300+

Immortali G720

APU 790

4nm

2024Q2

搜不到相关信息,欢迎提供资料。

参考:

1. List of MediaTek systems on chips

2.3 苹果A系列:

内存带宽

GPU算力

int8算力

TDP功耗

制程

发布时间

      A11 Bionic

34.1GB/s

0.4T

0.6T

8W

10nm

2017Q3

      A12 Bionic

34.1GB/s

0.6T

5T

6W

7nm

2018Q3      

     A12X Bionic

68.2GB/s

1T

5T

7nm

2018Q4

     A12Z Bionic

68.2GB/s

1.1T

5T

7nm

2020Q1

      A13 Bionic

34.1GB/s

0.7T

5.5T

6W

7nm

2019Q3

      A14 Bionic

34.1GB/s

0.7T

11T

6W

5nm

2020Q4

      A15 Bionic

34.1GB/s

1.7T

15.8T

6W

5nm

2021Q3

      A16 Bionic

51.2GB/s

1.8T

17T

8W

4nm

2022Q3

       A17Pro

51.2GB/s

2.1T

35T

8W

3nm

2023Q3

 

参考:

  1. Apple silicon
  2. Snapdragon 8 Gen 3 vs A17 Pro
  3. Snapdragon 8 Gen 3 vs A16 Bionic

2.4 苹果M系列:

内存带宽

内存位宽

FP32算力

int8算力

制程

发布时间

M1

68GB/s

128bit

2.6T

11T

5nm

2020Q4

M1 Pro

205GB/s

256bit

5.3T

11T

5nm

2021Q4

M1 Max

410GB/s

512bit

10.6T

11T

5nm

2021Q4

M1 Ultra

819GB/s

1024bit

21.2T

22T

5nm

2022Q1

M2

102GB/s

128bit

3.6T

16T

5nm

2022Q2

M2 Pro

205GB/s

256bit

6.8T

16T

5nm

2023Q1

M2 Max

410GB/s

512bit

13.6T

16T

5nm

2023Q1

M2 Ultra

819GB/s

1024bit

27T

32T

5nm

2023Q2

M3

102GB/s

128bit

3.5T

18T

3nm

2023Q4

M3 Pro

153GB/s

192bit

6.4T

18T

3nm

2023Q4

M3 Max

410GB/s

512bit

14T

18T

3nm

2023Q4

M4

120GB/s

128bit

3.7T

38T

3nm

2024Q2

参考:

  1. Apple silicon

3. 一些结论

  1. 目前最强的GPU芯片当属NVIDIA H100,当然很快就会被B100所替代,其他家的芯片难以望其项背,而且差距没有缩小的迹象;
  2. 骁龙8gen3芯片的NPU算力搜不到,大概预估在100T左右,也就刚到18年GTX2080Ti的水准,说明目前的移动端GPU比桌面端GPU要落后6年以上,而且受限于移动端的功耗和尺寸限制,这个差距应该永远无法缩小了。不过也不用太过灰心,18年的时候深度学习已经非常火热,也出现了很多成熟的AI落地,再加上这几年AI的持续进步,所以当下的AI模型在端侧的水准是肯定高于18年的;
  3. 目前英伟达的主流芯片:4090,A100,H100我们该如何选择?有钱有途径那肯定是H100。我们从需求侧来分析,假设你的需求是计算密集型的,4090足够了,它的int8性能比A100高性能版都要强;但是如果你的需求是通信密集型的,还是A100和H100更合适,因为它们的显存带宽会更大;
  4. 苹果手机卖得贵一个原因就是大家认为它的芯片好,但是从NPU的性能上来看,它不值现在的价格,有点被高估。从我们实际做实验的结论来看,苹果的NPU算力确实没有高通骁龙强,不过还是要强于联发科天玑芯片。

4. 一些猜测

  1. 英伟达GPU的性能上限可以到多少?B100还没有上市,但是芯片制程应该是3nm,高性能版的int8算力应该可以达到8P左右。假设芯片制程最低可以到1nm,我们推测GPU芯片的性能还可以继续提升,即使到达瓶颈还可以通过堆叠的方式进一步扩大芯片规模。此外,后续的主流推理可能开始使用int4或者fp4格式,这样就可以使得算力再加倍。我个人推测在未来10年,英伟达的芯片算力会持续提升,int8算力的上限有望达到100p,也即一张卡可以抵100张A100,当然那时的功耗也会比较夸张;
  2. 移动端GPU的性能上限能到多少呢?相比桌面端GPU,我个人持谨慎悲观的态度。单颗芯片的NPU算力上限可能也就到500T以内,达到4070的水平。但是移动端是否也可以通过多卡的方式实现算力的暴增呢,这也说不定;
  3. 很多人说今年是AI PC的元年,我理解真正实现AI PC的推广,算力至少要达到4090这个水准,也即单卡的算力要到1P以上。那么AI手机什么时候真正出现呢,我觉得可能用不了6年那么久(移动端GPU追上当下桌面端GPU性能的时间),随着AI的快速迭代,可能也就3、4年即2027年就会出现真正意义上的AI手机;
  4. 现在我们主要关注的性能指标就是int8推理和显存带宽,再过一年说不定关注的重点就变成int4推理性能和显存带宽了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/50894.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

系统架构:分而治之

系统架构:分而治之 引言“分而治之”在架构中的应用模块化设计分层化架构微服务架构 分而治之的优势降低复杂性提高灵活性和可扩展性增强可维护性促进团队协作 分而治之的劣势复杂性转移性能开销开发和运维的复杂性数据一致性挑战 结论 引言 “分而治之”是一种分析…

wo是如何克服编程学习中的挫折感的?

你是如何克服编程学习中的挫折感的? 编程学习之路上,挫折感就像一道道难以逾越的高墙,让许多人望而却步。然而,真正的编程高手都曾在这条路上跌倒过、迷茫过,却最终找到了突破的方法。你是如何在Bug的迷宫中找到出口的…

5.1、生成树协议stp

一、广播风暴 广播风暴(Broadcast Storm)是网络中的一种现象,通常发生在局域网(LAN)中。当网络中的交换机或路由器配置错误,或环路没有被有效控制时,广播帧会在网络中无限制地传播,…

QT基础知识4

思维导图 项目文件里面要加texttospeech模块 widget.h: #ifndef WIDGET_H #define WIDGET_H#include <QWidget> #include <QTime>//时间类 #include <QTextToSpeech>//语音播报类QT_BEGIN_NAMESPACE namespace Ui { class Widget; } QT_END_NAMESPACEclass…

C:每日一练:单身狗(2.0版本)

前言&#xff1a; 今天在刷题的时候突然看到一道题&#xff0c;疑似一位故题。仔细一看&#xff0c;欸&#xff01;这不是就是单身狗的升级版吗&#xff1f;我想那必须再安排一篇&#xff0c;不过由于本篇文章与上一篇单身狗文章所涉及的知识点基本相同&#xff0c;所以还请大…

K8S 容器调度

在Kubernetes中&#xff0c;容器调度是一个自动化的过程&#xff0c;负责将容器&#xff08;在Kubernetes中称为Pod&#xff09;分配到集群中的合适节点上运行。这一过程由Kubernetes的调度器&#xff08;kube-scheduler&#xff09;控制&#xff0c;它通过一系列算法和策略来确…

流媒体服务器二:2.RTMP协议学习

RTMP协议详解 一.总体介绍 RTMP协议是应⽤层协议&#xff0c;是要靠底层可靠的传输层协议&#xff08;通常是TCP&#xff09;来保证信息传输的可靠性的。在 基于传输层协议的链接建⽴完成后&#xff0c;RTMP协议也要客户端和服务器通过“握⼿”来建⽴基于传输层链接之 上的RT…

(五)Flink Sink 数据输出

经过上面的 Transformation 操作之后,最终形成用户所需要的结果数据集。通常情况下,用户希望将结果数据输出到外部存储介质或者传输到下游的消息中间件中,在 Flink 中,将 DataStream 数据输出到外部系统的过程被定义为 Sink 操作。 目录 (一)基本数据输出 (二)第三方…

滴滴开源新项目Unify:聚焦Flutter与原生通信难题,助力跨端应用落地

引言 在移动开发领域&#xff0c;移动跨端技术因其提效收益&#xff0c;逐渐成为业界趋势之一。Flutter 作为近年来热门的跨端技术&#xff0c;以高性能、自渲染、泛跨端著称&#xff0c;得到广泛应用。在滴滴国际化业务中&#xff0c;我们大量应用 Flutter。目前已在滴滴国际化…

JavaScript typeof

在 JavaScript 中有 5 种不同的可以包含值的数据类型&#xff1a; stringnumberbooleanobjectfunction 有 6 种类型的对象&#xff1a; ObjectDateArrayStringNumberBoolean 以及 2 种不能包含值的数据类型&#xff1a; nullundefined typeof 运算符 您可以使用 typeof …

C语言-使用数组法,指针法实现将一个5X5的矩阵中最大的元素放在中心,四个角分别放四个最小的元素(顺序为从左到右,从上到下,从小到大存放),写一函数实现之。

1.题目要求&#xff1a; 将一个5X5的矩阵中最大的元素放在中心&#xff0c;四个角分别放四个最小的元素&#xff08;顺序为从左到右&#xff0c;从上到下&#xff0c;从小到大存放&#xff09;&#xff0c;写一函数实现之。 2.数组法实现 #define _CRT_SECURE_NO_WARNINGS 1…

python从入门到精通:数据容器

数据容器介绍 一种可以容纳多份数据的数据类型&#xff0c;容纳的每一份数据称之为一个元素&#xff0c;可以是任意类型的数据&#xff0c;如字符串、数字、布尔等。 数据容器根据特点的不同&#xff0c;如&#xff1a; 是否支持重复元素 是否可以修改 是否有序&#xff0…

数据库根据日期统计SQL编写记录

统计每天产生多少数据 SELECT to_char("日期字段",YYYY-MM-dd) time ,count(*) FROM "表名" GROUP BY time;统计每月产生多少数据 SELECT to_char("日期字段",YYYY-MM) time ,count(*) FROM "表名" GROUP BY time;统计每年产生多少数…

Windows下添加开机启动项

三种方式 使用任务管理器&#xff1a;右键点击任务栏&#xff0c;选择“任务管理器”。切换到“启动”选项卡。点击右下角的“打开任务管理器”。在这里&#xff0c;你可以看到已启用和禁用的启动项。右键点击你希望添加的程序&#xff0c;选择“启用” 按Win R&#xff0c;输…

【GitLab】使用 Docker 安装 GitLab 1:配置 SSH 端口

使用 Docker 安装 GitLab 要求修改ssh端口 GitLab 使用 SSH 通过 SSH 与 Git 交互。默认情况下,GitLab 使用端口22。 要在使用 GitLab Docker 映像时使用其他端口,您可以执行以下操作之一: 更改服务器的 SSH 端口(推荐)。 更改 GitLab Shell SSH 端口。 更改服务器的 SSH …

C++(week17): C++提高:(七)workflow

文章目录 一、Http协议二、Nginx1.概念2.nginx的安装和部署(1)安装nginx(2)使用nginx服务器部署静态资源 3.HTTP服务器架构(1)基于进程、基于线程&#xff1a;APache(2)事件驱动模型&#xff1a;Nginx(3)反向代理(4)负载均衡 三、workflow异步事件引擎 (异步回调模型)1.服务器底…

【SVN(Subversion)是一个版本控制系统】

Question SVN所有命令 Answer SVN&#xff08;Subversion&#xff09;是一个版本控制系统&#xff0c;用于管理和跟踪文件和目录的更改。以下是一些常用的SVN命令&#xff1a; 检出&#xff08;Checkout&#xff09; svn checkout URL从版本库中检出一个工作副本。 更新&am…

Qt找不到QSound头文件,头文件QSoundEffect

目录 Qt找不到QSound头文件 CMake qmke 可能版本不同更新&#xff0c; 找不到QSound头文件 Qt找不到QSound头文件 #include <QSound> CMake 可以看一下这篇来自网上的文章 CMake中添加Qt模块的合理方法 - wjbooks - 博客园 (cnblogs.com) qmke 打开.pro文件&am…

[linux#39][线程] 详解线程的概念

线程&#xff1a;是进程内的一个执行分支。线程的执行粒度比进程要细 什么是线程&#xff1f; • 在一个程序里的一个执行路线就叫做线程&#xff08;thread&#xff09;。更准确的定义是&#xff1a;线程 是“一个进程内部的控制序列” • 一切进程至少都有一个执行线程 • …

前端宝典之六:React源码解析之lane模型

本文主要内容&#xff1a; 介绍lane模型 一、 lane模型 lane模型就是react优先级的机制&#xff0c;可以用来 可以表示优先级的不同可能同时存在几个同优先级的更新&#xff0c;所以还得能表示批的概念方便进行优先级相关计算 1、表示优先级不同 lane模型使用31位的二进制…