GPU(国内外发展,概念参数(CUDA,Tensor Core等),类别,如何选型,NPU,TPU)

目录

前言

1.国内外GPU发展简述

2.GPU概念参数和选择标准

2.1 CUDA

2.2 Tensor Core

2.3 显存容量和显存位宽

2.4 精度

2.5 如何选择GPU

3.常见GPU类别和价格

3.1 GPU类别

3.2 GPU价格(部分)

3.3 GPU云服务器收费标准(以阿里云为例)

3.4 国内外GPU对比

4.延深(NPU和TPU)

4.1 NPU

4.2 TPU

4.3 其他PU

参考文献


前言

      从目前的市场看,人工智能(大模型)发展的快慢主要取决于算力,其次是算法。而算力又受限于GPU。

1.国内外GPU发展简述

       预计到2030年,GPU市场将从现在的几百亿美元规模成长至数千亿美元规模。而当下GPU市场全面被国外垄断,其中桌面级GPU市场被英伟达、AMD和英特尔所垄断,移动级GPU市场被Arm、Imagination和高通所垄断。

       随着国际对抗加剧,美国亚脱钩政策频频,2022年8月,美国政府出台新政策,禁止美国公司向中国出高端GPU和其他制造设备。国内现在买不到如NVIDIA的A100 H100等高端GPU。英伟达针对禁令做了应对措施,推出了A100/H100的阉割版本,A800、H800 GPU,主要是在NVLink模式下的带宽从600GB/s下降到400GB/s,其他参数均保持致。我今年3月份问价A800服务器价格在110万/台,6月现货价格在135万/台,期货130万每台,还需要全款后2月内交付。三季度又放出A800停止发货消息,芯片之争愈演愈烈。

       在此背景下,国内也加快了国产替代进程,但目前相比主流产品,国产GPU还处于起步阶段。受限于工艺制程、EDA等技术封锁,国内厂商目前在自主研发领域的成果与国际一流水平还有着很大的差距。但随着国内自研GPU的领军企业景嘉微、壁仞科技、芯动科技等逐渐崭露头角,各厂家已发展出了一系列的产品线,并且均采用国内成熟制程工艺及自主架构。

      GPU的研发并不是立竿见影,我们要做好苦战的准备,也要避免好高骛远,夸大宣传。科工力量曾指出,为了在宣传中超越英伟达,国产GPU存在田忌赛马式比拼,如某款标榜超越国际旗舰级算力的GPU,却不支持双精度浮点运算,只能用于人工智能方向,短期选择局部突破或是无奈之举,长远而言,还是应该全面超越。。

      从短期来看,人工智能的快速发展离不开高端GPU算力的支持,美国的限制政策给予我国一定压力,但长远来看,只有攻克芯片行业,才能不受制于人,真正在人工智能的革命中站稳脚步、引领潮流。

2.GPU概念参数和选择标准

概念:GPU又叫做图形处理器,专门设计用于处理计算机图形和图像的处理器。它可以加速计算机图形渲染和处理操作,提高计算机图形和图像的性能和质量。此外,理解GPU指的是负责处理各种任务的那颗芯片,显卡指的是把GPU芯片、显存、接口等集合在一起的那张板卡。

GPU和CPU:GPU具有更多的处理单元和更高的并行处理能力,因此可以更快地处理大量的图形和图像数据。但GPU无法单独工作,需要依赖CPU控制调用。参考

2.1 CUDA

      2006年NVIDIA推出以CUDA为核心的GPU,拉开了一个时代的序幕。CUDA是一种通用并行计算架构,而深度学习,强化学习需要大量且复杂的计算,CUDA的架构大大提高了运算速率,而且CUDA核心数量越多并行计算的能力越大,简单理解,之前需要一年的计算量,CUDA推出之后仅需一天。

2.2 Tensor Core


      2017年引入Tensor Core,为大模型的出现奠定了坚实的基础,这也是专为深度学习所设计。深度学习所采用的核心计算主要由张量和矩阵组成,而Tensor Core为了他们专门设计了执行单元,Tensor Core在训练方面能够提供高达12倍的teraflops(兆亿浮点计算) 峰值,而在推理方面则可提供6倍的leraflops(兆亿浮点计算)峰值。每个Tensor Core在每个时钟周期可执行64次浮点混合乘加 (FMA) 运算。Tensor Core使用的计算能力要比Cuda Core高得多。

            补充:FLOPS,即每秒浮点运算次数(亦称每秒峰值速度)是每秒所执行的浮点运算次数,被用来评估电脑性能,尤其是在使用到大量浮点运算的科学计算领域中。

图1  CUDA和Tensor Core计算区别

2.3 显存容量和显存位宽

显存容量:其主要功能就是暂时储存GPU要处理的数据和处理完毕的数据。显存容量决定了我们一次读入显卡进行运算的数据多少(batch size)和我们能够搭建的模型大小(网络层数、单元数),是对深度学习研究人员来说很重要的指标

显存位宽:显存在一个时钟周期内所能传送数据的位数,位数越大则瞬间所能传输的数据量越大,这是显存的重要参数之一。

2.4 精度

半精度:如果对运算的精度要求不高,那么就可以尝试使用半精度浮点数进行运算。这个时候,Tensor核心就派上了用场。Tensor Core专门执行矩阵数学运算,适用于深度学习和某些类型的HPC。Tensor Core执行融合乘法加法,其中两个4*4 FP16矩阵相乘,然后将结果添加到4*4 FP16或FP32矩阵中,最终输出新的4*4FP16或FP32矩阵。NVIDIA将Tensor Core进行的这种运算称为混合精度数学,因为输入矩阵的精度为半精度,但乘积可以达到完全精度。Tensor Core所做的这种运算在深度学习训练和推理中很常见。

单精度: Float32 是在深度学习中最常用的数值类型,称为单精度浮点数,每一个单精度浮点数占用4Byte的显存。

双精度:双精度适合要求非常高的专业人士,例如医学图像,CAD。

2.5 如何选择GPU


卷积网络和Transformer:Tensor核心数>单精度浮点性能>显存位宽>半精度浮点性能
循环神经网络:显存位宽>半精度浮点性能>Tensor核心数>单精度浮点性能

其他配置选择参考(CPU,硬盘):地址

3.常见GPU类别和价格

3.1 GPU类别

      NVIDIA将其产品定位三类,GeFore用于家庭娱乐,Quadro用于工作站,而Tesla系列用 于服务器。Tesla的k型号卡为了高性能科学计算而设计。

Quadro: Quadro系列显卡一般用于特定行业,比如设计、建筑等,图像处理专业显卡,比如CAD、Maya等软件。

      Quadro常见系列

            NVIDIA RTX Series系列: RTX A2000、RTX A4000、RTX A4500、RTX A5000、RTX A6000

            Quadro RTX Series系列: RTX 3000、RTX 4000、RTX 5000、RTX 6000、RTX 8000

     

GeForce: 这个系列显卡官方定位是消费级,常用来打游戏。但是它在深度学习上的表现也非常不错,很多人用来做推理、训练,单张卡的性能跟深度学习专业卡Tesla系列比起来其实差不太多,但是性价比却高很多。

      GeForce常见系列:

            Geforce 10系列: GTX 1050、GTX 1050Ti、GTX 1060、GTX 1070、GTX 1070Ti、GTX 1080、GTX 1080Ti

            Geforce 16系列:GTX 1650、GTX 1650 Super、GTX 1660、GTX 1660 Super、GTX 1660Ti

            Geforce 20系列:RTX 2060、RTX 2060 Super、RTX 2070、RTX 2070 Super、RTX 2080、RTX 2080 Super、RTX 2080Ti

            Geforce 30系列: RTX 3050、RTX 3060、RTX 3060Ti、RTX 3070、RTX 3070Ti、RTX 3080、RTX 3080Ti、RTX 3090 RTX 3090Ti

            暂未添加40系列。

       补充1GTX 到RTX:RTX20显卡采用的“图灵”架构引入了RT计算单元,使其光线追踪性能超越上一代显卡的六倍,拥有了即时处理游戏光追的条件,NVIDIA认为这是一个划时代的进化,于是把沿用多年的“GTX”改名为“RTX”。 

       补充2:GeForce的显卡型号是不同的硬件定制,越往后时钟频率越高显存越大,也就越能充分发挥其计算性能,其G/GS<GT<GTS<GTX<RTX。

Tesla: Tesla系列显卡定位并行计算,一般用于数据中心,具体点,比如用于深度学习,做训练、推理等。Tesla系列显卡针对GPU集群做了优化,像那种4卡、8卡、甚至16卡服务器,Tesla多块显卡合起来的性能不会受>很大影响,但是Geforce这种游戏卡性能损失严重,这也是Tesla主推并行计算的优势之一

      Tesla常见系列:

            A-Series系列: A10、A16、A30、A40、A100

            T-Series系列: T4

            V-Series系列: V100

            P-Series系列: P4、P6、P40、P100

            K-Series系列: K8、K10、K20c、K20s、K20m、K20Xm、K40t、K40st、K40s、K40m、K40c、K520、K80
       补充Geforce系列,也就是RTX序列目前并无Tensor Core,主流Tesla系列有Tensor Core

3.2 GPU价格(部分)

3.3 GPU云服务器收费标准(以阿里云为例)

      因为服务器和GPU价格不菲,在做一些小模型时,常考虑使用云服务器,国内大厂都有这项服务。本文以阿里云为例,价格如下所示,可月租也可时租。地址

3.4 国内外GPU对比

图片来源:地址

4.延深(NPU和TPU)

      简单理解CPU和GPU是通用芯片,其他PU是专用芯片。

4.1 NPU


       神经网络处理器,是一种专门用于进行深度学习计算的芯片。思路是,模仿人的大脑神经网络,使之具备智能,NPU工作原理是在电路层模拟人类神经元和突触,并且用深度学习指令集直接处理大规模的神经元和突触,一条指令完成一组神经元的处理。相比于CPU和GPU,NPU通过突触权重实现存储和计算一体化,从而提高运行效率。NPU处理器最明显的优势就是信息处理能力块采用“数据驱动并行计算”的架构(颠覆了冯诺依曼计算机架构),特别擅长处理视频、图像类的海量多媒体数据。

       NPU的典型代表有国内的寒武纪芯片和IBM的TrueNorth。

4.2 TPU


       全称是Tensor Processing Unit,即张量处理器。谷歌希望更好发挥它们的深度学习框TensorFlow的性能,所以希望找到更好的硬件,而GPU是一种通用芯片,于是针对谷歌的深度学习框架TensorFlow专门定制TPU芯片,TPU与同期的CPU和GPU相比,可以提供15-30倍的性能提升,以及30-80倍的效率(性能/瓦特)提升。据称Google提供的服务,都使用了Google的TPU加速计算
 

4.3 其他PU

APU — Accelerated Processing Unit, 加速处理器,AMD公司推出加速图像处理芯片产品。

BPU — Brain Processing Unit, 地平线公司主导的嵌入式处理器架构。

CPU — Central Processing Unit 中央处理器, 目前PC core的主流产品。

DPU — Deep learning Processing Unit, 深度学习处理器,最早由国内深鉴科技提出;另说有Dataflow Processing Unit 数据流处理器, Wave Computing 公司提出的AI架构;Data storage Processing Unit,深圳大普微的智能固态硬盘处理器。

FPU — Floating Processing Unit 浮点计算单元,通用处理器中的浮点运算模块。

GPU — Graphics Processing Unit, 图形处理器,采用多线程SIMD架构,为图形处理而生。

HPU — Holographics Processing Unit 全息图像处理器, 微软出品的全息计算芯片与设备。

IPU — Intelligence Processing Unit, Deep Mind投资的Graphcore公司出品的AI处理器产品。

MPU/MCU — Microprocessor/Micro controller Unit, 微处理器/微控制器,一般用于低计算应用的RISC计算机体系架构产品,如ARM-M系列处理器。

NPU — Neural Network Processing Unit,神经网络处理器,是基于神经网络算法与加速的新型处理器总称,如中科院计算所/寒武纪公司出品的diannao系列。

RPU — Radio Processing Unit, 无线电处理器, Imagination Technologies 公司推出的集合集Wifi/蓝牙/FM/处理器为单片的处理器。

TPU — Tensor Processing Unit 张量处理器, Google 公司推出的加速人工智能算法的专用处理器。目前一代TPU面向Inference,二代面向训练。

VPU — Vector Processing Unit 矢量处理器,Intel收购的Movidius公司推出的图像处理与人工智能的专用芯片的加速计算核心。

WPU — Wearable Processing Unit, 可穿戴处理器,Ineda Systems公司推出的可穿戴片上系统产品,包含GPU/MIPS CPU等IP。

XPU — 百度与Xilinx公司在2017年Hotchips大会上发布的FPGA智能云加速,含256核。

ZPU — Zylin Processing Unit, 由挪威Zylin 公司推出的一款32位开源处理器。

   

参考文献

1.GPU基本介绍与各GPU性能、价格比较_gpu型号-CSDN博客

2.免费GPU汇总及选购_colab gpu型号-CSDN博客

3.GPU型号那么多,该如何选择呢? - 知乎 

4.国产GPU的发展历程及芯片性能详解_Finovy Cloud 的博客-CSDN博客 

5.什么是GPU?GPU和显卡的关系?GPU国产化布局?_张巧龙的博客-CSDN博客 

6.国产高端GPU,国产替代加速(附国产厂家汇总)_gpu芯片_huzia的博客-CSDN博客 

7.阿里云GPU服务器收费标准、学生价格及一个小时费用大全-CSDN博客 

8.主流国产GPU产品及规格概述(2023)_架构师技术联盟(Hardy)的博客-CSDN博客 

9.CPU、GPU、TPU、NPU区别_tpu和npu区别_大囚长的博客-CSDN博客 

10(转)CPU/GPU/TPU/NPU傻傻分不清楚_npu原理_夜灼华的博客-CSDN博客 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/96510.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

五.docker+jenkins自动部署项目

一.敏捷开发相关概念 1.微服务的痛点 再来看一下我们的微服务架构 &#xff0c; 每个组件都需要服务器去部署&#xff0c;加起来可能需要几十个甚至上百个服务器。这样的微服务项目在部署上会遇到什么问题&#xff1f; 需要很多很多的服务器&#xff0c;服务器的采购安装&am…

Day-06 基于 Docker 安装 Nginx 镜像

1.去官方公有仓库查询nginx镜像 docker search nginx 2.拉取该镜像 docker pull nginx 3. 启动镜像&#xff0c;使用nginx服务&#xff0c;代理本机8080端口(测试是不是好使) docker run -d -p 8080:80 --name nginx-8080 nginx docker ps curl 127.0.0.1:8080

微服务保护(Sentinel)

&#x1f353; 简介&#xff1a;java系列技术分享(&#x1f449;持续更新中…&#x1f525;) &#x1f353; 初衷:一起学习、一起进步、坚持不懈 &#x1f353; 如果文章内容有误与您的想法不一致,欢迎大家在评论区指正&#x1f64f; &#x1f353; 希望这篇文章对你有所帮助,欢…

云安全之等级保护详解

等级保护概念 网络安全等级保护&#xff0c;是对信息系统分等级实行安全保护&#xff0c;对信息系统中使用的安全产品实行按等级管理&#xff0c;对信息系统中发生的信息安全事件分等级进行响应、处置。 网络安全等级保护的核心内容是&#xff1a;国家制定统一的政策、标准&a…

横向AlGaN/GaN基SBD结构及物理模型数据库的开发

GaN基功率器件凭借其临界电场高、电子饱和漂移速度大、热导率高等优良性能在大功率快充、充电桩、新能源汽车等领域具备广泛应用空间。为进一步助推半导体高频、高功率微电子器件的发展进程&#xff0c;天津赛米卡尔科技有限公司技术团队依托先进的半导体TCAD仿真平台成功开发出…

计算机网络八股

1、请你说说TCP和UDP的区别 TCP提供面向连接的可靠传输&#xff0c;UDP提供面向无连接的不可靠传输。UDP在很多实时性要求高的场景有很好的表现&#xff0c;而TCP在要求数据准确、对速度没有硬件要求的场景有很好的表现。TCP和UDP都是传输层协议&#xff0c;都是为应用层程序服…

【Java 进阶篇】深入了解JDBCTemplate:简化Java数据库操作

数据库操作是几乎所有现代应用程序的一部分。从存储和检索数据到管理业务逻辑&#xff0c;数据库操作是不可或缺的。在Java应用程序中&#xff0c;JDBCTemplate是一种强大的工具&#xff0c;可帮助开发人员轻松进行数据库操作。本文将深入探讨JDBCTemplate&#xff0c;了解它的…

最新Uniapp软件社区-全新带勋章源码

测试环境&#xff1a;php7.1。ng1.2&#xff0c;MySQL 5.6 常见问题&#xff1a; 配置好登录后转圈圈&#xff0c;检查环境及伪静态以及后台创建好应用 上传图片不了&#xff0c;检查php拓展fileinfo 以及public文件权限 App个人主页随机背景图&#xff0c;在前端uitl文件夹里面…

string类的使用方式的介绍

目录 前言 1.什么是STL 2. STL的版本 3. STL的六大组件 4.STL的缺陷 5.string 5.1 为什么学习string类&#xff1f; 5.1.1 C语言中的字符串 5.2 标准库中的string类 5.3 string类的常用接口的使用 5.3.1 构造函数 5.3.2 string类对象的容量操作 5.3.3 string类对象…

2023年中国资产数字化监控运维管理系统行业分析:产品应用领域不断拓展[图]

资产监控运维管理是一门紧密结合生产实际的工程科学&#xff0c;是实现资产有效运营维护的重要手段。资产监控运维管理技术起源于美国和欧洲等国家和地区&#xff0c;经过几十年的理论研究和实际应用&#xff0c;资产监控运维管理技术为提高重大设备资产和系统的可靠性和安全性…

java Spring Boot 手动启动热部署

好 接下来 我们讲一个对开发非常重要的东西 热部署 因为 我们在开发过程中总会希望快点看到效果 或者 你的企业项目一般很大很复杂&#xff0c;重启是一件非常麻烦的事 或者你在和前端同事联调&#xff0c;有一点小问题 你改完就要重启 前端还得等你&#xff0c;非常不友好 那…

PbootCMS SQL注入漏洞

漏洞复现 访问漏洞url 数据库是mysql 构造payload&#xff0c;条件为假时&#xff0c;未查到任何数据 http://x.x.x/index.php?search 1select 0页面回显 构造payload&#xff0c;条件为真时&#xff0c;查询到数据 1select1文笔生疏&#xff0c;措辞浅薄&#xff0c;望各…

SpringMVC系列-4 参数解析器

背景&#xff1a; 本文作为SpringMVC系列的第四篇&#xff0c;介绍参数解析器。本文讨论的参数解析表示从HTTP消息中解析出JAVA对象或流对象并传参给Controller接口的过程。 本文内容包括介绍参数解析器工作原理、常见的参数解析器、自定义参数解析器等三部分。其中&#xff0…

【前段基础入门之】=>CSS3的新增特性!

文章目录 CSS3概述CSS3私有前缀常见浏览器私有前缀 新增盒模型相关属性怪异盒模型拖拽调整盒子大小盒子阴影不透明度 新增背景属性background-originbackground-clipbackground-size多背景图backgorund 复合属性 新增边框属性边框圆角边框外轮廓 新增文本属性文本阴影文本换行文…

NPM 常用命令(九)

目录 1、npm link 1.1 使用语法 1.2 描述 2、npm login 2.1 描述 3、npm logout 3.1 描述 4、npm ls 4.1 使用语法 4.2 描述 5、npm org 5.1 使用语法 5.2 示例&#xff1a; 6、npm outdated 6.1 使用语法 6.2 描述 6.3 示例 7、npm owner 7.1 使用语法 7.2…

ipv6跟ipv4如何通讯

IPv6的128位地址通常写成8组&#xff0c;每组为四个十六进制数的形式。比如:AD80:0000:0000:0000:ABAA:0000:00C2:0002 是一个合法的IPv6地址。这个地址比较长&#xff0c;看起来不方便也不易于书写。零压缩法可以用来缩减其长度。如果几个连续段位的值都是0&#xff0c;那么这…

免费 AI 代码生成器 Amazon CodeWhisperer 初体验

文章作者&#xff1a;浪里行舟 简介 随着 ChatGPT 的到来&#xff0c;不由让很多程序员感到恐慌。虽然我们阻止不了 AI 时代到来&#xff0c;但是我们可以跟随 AI 的脚步&#xff0c;近期我发现了一个神仙 AI 代码生产工具 CodeWhisperer &#xff0c;它是一项基于机器学习的服…

众佰诚:抖音开网店新手怎么做才能做起来

抖音作为国内最热门的短视频平台&#xff0c;其商业价值也日渐凸显。许多商家和个体经营者开始在抖音上开设网店&#xff0c;以此为新的销售渠道。那么&#xff0c;对于新手来说&#xff0c;如何才能在抖音上成功运营网店呢? 首先&#xff0c;明确经营定位。每个电商平台都有其…

小谈设计模式(16)—抽象工厂模式

小谈设计模式&#xff08;16&#xff09;—抽象工厂模式 专栏介绍专栏地址专栏介绍 抽象工厂模式结构抽象工厂&#xff08;AbstractFactory&#xff09;具体工厂&#xff08;ConcreteFactory&#xff09;抽象产品&#xff08;AbstractProduct&#xff09;具体产品&#xff08;C…

FPGA project : fifo_sum

实验目标&#xff1a; col(列) 4 &#xff1b;line(行) 5。相邻三行&#xff0c;按列求和。输出新的数据流。 实现方法&#xff1a; 通过rs232通信协议&#xff0c;输入数据流。第一行存进fifo1&#xff0c;第二行存进fifo2.当输入第三行第一个数据的时候&#xff0c;从fif…