英伟达GPU型号与架构介绍

1、AI驱动下,英伟达数据中心业务蓬勃发展

英伟达是GPU的发明创造者。1999年,英伟达在纳斯达克挂牌上市,并于同年提出了GPU概念,发布了GeForce 256。这被业界视为现代计算机图形技术的开端。

最初,GPU主要应用于PC游戏和主机游戏(如Sega、Xbox和PS3),能够通过硬件支持T&L(多边形转换与光源处理)。T&L在3D图像渲染中扮演重要角色,计算多边形的3D位置和处理动态光线效果,提供细致的3D物体和高级的光线特效。由于3D图像渲染中的任务是并行计算的,各区域之间没有联系或依赖关系,因此可以轻松拆分成独立的并行任务,提高计算速度。

这种并行计算能力让GPU意外成为AI计算的硬件基础设施。在AI计算中,深度学习是最常见的任务。深度学习模型需要进行大量的矩阵计算,而GPU擅长同时执行大量的矩阵运算,加速了深度学习模型的训练和推理过程。

英伟达作为全球GPU市场的巨头,目前占据主导地位,并在AI时代迎来新的发展机遇。由于芯片产业的赢家通吃效应,英伟达在数据中心领域的GPU应用获得广泛认可,并在各行业的AI项目中广泛采用。随着人工智能应用的兴起和需求的增加,英伟达的数据中心业务有望持续高增长。

2、算力领域的架构创新

英伟达不断改进芯片架构以满足高算力需求。每1到2年推出新的架构,适应计算需求的升级。历年来的架构创新包括:

Kepler架构(2012年)引入了GPUDirect技术,实现了本机和其他机器GPU之间的直接数据交换。
Pascal架构(2016年)除了支持深度学习和DP unit外,还引入了NVLink来实现单机内多GPU的点到点通信,带宽达到160GB/s。
Volta架构(2017年)以Deep Learning为核心,引入了Tensor Core。
Ampere架构(2020年)提高了FP32着色器操作数量、RT Cores的光线/三角形相交测试吞吐量,并加速稀疏神经网络处理速度。
Hopper架构(2022年)引入了新一代流式多处理器的FP8 Tensor Core,加速AI训练和推理,并提供高速的Transformer引擎,在大型NLP模型上提供高达9倍的AI训练速度和30倍的AI推理速度。

3、NVIDIA常见的产品线

Quadro类型:Quadro系列显卡一般用于特定行业,比如设计、建筑等,图像处理专业显卡,比如CAD、Maya等软件。
GeForce类型:这个系列显卡官方定位是消费级,常用来打游戏。但是它在深度学习上的表现也非常不错,很多人用来做推理、训练,单张卡的性能跟深度学习专业卡Tesla系列比起来其实差不太多,但是性价比却高很多。
Tesla类型:Tesla系列显卡定位并行计算,一般用于数据中心,具体点,比如用于深度学习,做训练、推理等。Tesla系列显卡针对GPU集群做了优化,像那种4卡、8卡、甚至16卡服务器,Tesla多块显卡合起来的性能不会受>很大影响,但是Geforce这种游戏卡性能损失严重,这也是Tesla主推并行计算的优势之一。
TITAN系列:主要应用于高性能计算领域,如机器学习、超级计算机等。代表产品包括TITAN RTX、V或者X等。

以及Jetson系列:Jetson系列是基于NVIDIA Tegra处理器平台的嵌入式系统模块,专为物联网、自动驾驶、机器人等应用而设计。其中包括Jetson Nano和Jetson Xavier NX等产品。Drive AGX:Drive AGX是英伟达推出的自动驾驶平台,采用了先进的深度学习技术,可为自动驾驶车辆提供视觉感知、决策和控制等方面的支持。

Quadro类型分为如下几个常见系列
NVIDIA RTX Series系列: RTX A2000、RTX A4000、RTX A4500、RTX A5000、RTX A6000
Quadro RTX Series系列: RTX 3000、RTX 4000、RTX 5000、RTX 6000、RTX 8000

GeForce类型分为如下几个常见系列
Geforce 10系列: GTX 1050、GTX 1050Ti、GTX 1060、GTX 1070、GTX 1070Ti、GTX 1080、GTX 1080Ti
Geforce 16系列:GTX 1650、GTX 1650 Super、GTX 1660、GTX 1660 Super、GTX 1660Ti
Geforce 20系列:RTX 2060、RTX 2060 Super、RTX 2070、RTX 2070 Super、RTX 2080、RTX 2080 Super、RTX 2080Ti
Geforce 30系列: RTX 3050、RTX 3060、RTX 3060Ti、RTX 3070、RTX 3070Ti、RTX 3080、RTX 3080Ti、RTX 3090 RTX 3090Ti

Tesla类型分为如下几个常见系列:
在Tesla系列中,标识分为三个部分,分别是产品代号、产品等级和计算能力。以Tesla V100为例,V100为产品代号,V为产品等级,100代表计算能力,其性能越高,数字越大。
A-Series系列: A10、A16、A30、A40、A100
T-Series系列: T4
V-Series系列: V100
P-Series系列: P4、P6、P40、P100
K-Series系列: K8、K10、K20c、K20s、K20m、K20Xm、K40t、K40st、K40s、K40m、K40c、K520、K80

安培架构不兼容低版本cuda
需要注意3060、3060Ti,3090、3090Ti、3080Ti、A5000等Ampere(安培)架构的GPU需要cuda11.x版本才能使用,请使用较高版本的框架。 如果代码需要使用 cuda9、cuda10 等版本,请使用RTX5000,V100S,V100,P100,T4,2080Ti等非Ampere(安培)架构的GPU。

4、GPU CPU选择

选择GPU

显卡性能主要根据如下几个参数来判断:

显存: 显存即显卡内存,显存主要用于存放数据模型,决定了我们一次读入显卡进行运算的数据多少(batch size)和我们能够搭建的模型大小(网络层数、单元数),是对深度学习研究人员来说很重要的指标,简述来讲,显存越大越好。

架构:在显卡流处理器、核心频率等条件相同的情况下,不同款的GPU可能采用不同设计架构,不同的设计架构间的性能差距还是不小的,显卡架构性能排序为:Ampere > Turing > Volta > Pascal > Maxwell > Kepler > Fermi > Tesla

CUDA核心数量:CUDA是NVIDIA推出的统一计算架构,NVIDIA几乎每款GPU都有CUDA核心,CUDA核心是每一个GPU始终执行一次值乘法运算,一般来说,同等计算架构下,CUDA核心数越高,计算能力会递增。

Tensor(张量)核心数量:Tensor 核心是专为执行张量或矩阵运算而设计的专用执行单元,而这些运算正是深度学习所采用的核心计算函数,它能够大幅加速处于深度学习神经网络训练和推理运算核心的矩阵计算。Tensor Core使用的计算能力要比Cuda Core高得多,这就是为什么Tensor Core能加速处于深度学习神经网络训练和推理运算核心的矩阵计算,能够在维持超低精度损失的同时大幅加速推理吞吐效率。

半精度:如果对运算的精度要求不高,那么就可以尝试使用半精度浮点数进行运算。这个时候,Tensor核心就派上了用场。Tensor Core专门执行矩阵数学运算,适用于深度学习和某些类型的HPC。Tensor Core执行融合乘法加法,其中两个44 FP16矩阵相乘,然后将结果添加到44 FP16或FP32矩阵中,最终输出新的4*4 FP16或FP32矩阵。NVIDIA将Tensor Core进行的这种运算称为混合精度数学,因为输入矩阵的精度为半精度,但乘积可以达到完全精度。Tensor Core所做的这种运算在深度学习训练和推理中很常见。

单精度: Float32 是在深度学习中最常用的数值类型,称为单精度浮点数,每一个单精度浮点数占用4Byte的显存。

双精度:双精度适合要求非常高的专业人士,例如医学图像,CAD。
具体的显卡使用需求,还要根据使用显卡处理的任务内容进行选择合适的卡,除了显卡性能外,还要考虑CPU、内存以及磁盘性能,关于GPU、CPU、内存、磁盘IO性能。

对于不同类型的神经网络,主要参考的指标是不太一样的。下面给出一种指标顺序的参考:
卷积网络和Transformer:Tensor核心数>单精度浮点性能>显存带宽>半精度浮点性能
循环神经网络:显存带宽>半精度浮点性能>Tensor核心数>单精度浮点性能
大模型:大模型尤其需要关注nvlink为代表的数据互通的速度,因为大模型涉及到多机多卡的协作以及卡之间的数据流通。

选择CPU

在load数据过程中,就需要用到大量的CPU和内存,如果CPU主频较低或者CPU核心较少的情况下,会限制数据的读取速度,从而拉低整体训练速度,成为训练中的瓶颈。

建议选择核心较多且主频较高的的机器,每台机器中所分配的CPU核心数量可以通过创建页面查看,也可以通过CPU型号去搜索该CPU的主频和睿频的大小。

CPU的核心数量也关系到num_workers参数设置的数值,num_worker设置得大,好处是寻batch速度快,因为下一轮迭代的batch很可能在上一轮/上上一轮…迭代时已经加载好了。坏处是内存开销大,也加重了CPU负担(worker加载数据到RAM的进程是CPU进行复制)。num_workers的经验设置值是 <= 服务器的CPU核心数。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/175440.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python的Re模块学习

本文初步介绍 正则表达式的定义&#xff0c;分类的组成部分。并举例编码 一、什么是正则表达式 答&#xff1a;在unix系统中&#xff0c;用来表示规则的字符串。在开发语言中需要处理大量的字符串&#xff0c;引入了这个规则。 字符串的处理&#xff1a; 1. 过滤字符串&…

力扣101. 对称二叉树

递归 思路&#xff1a; 克隆这棵树&#xff0c;递归比较左右子树互为镜像&#xff1b;终止条件为&#xff1a; 都为nullptr&#xff0c;则返回 true&#xff1b;有一个为 nullptr&#xff0c;则返回 false&#xff1b;&#xff08;形状不一致&#xff09;形状一致情况下&#…

零基础学编程轻松学编程,分享一款中文编程工具,编程构件简介

零基础学编程轻松学编程&#xff0c;分享一款中文编程工具&#xff0c;编程构件简介 中文编程开发语言工具编辑区界面截图如上图。 给大家分享一款中文编程工具 零基础轻松学编程&#xff0c;不需英语基础&#xff0c;编程工具可下载。 这款工具不但可以连接部分硬件&#…

数据库应用:Ubuntu 20.04 安装MongoDB

目录 一、理论 1.MongoDB 二、实验 1.Ubuntu 20.04 安装MongoDB 三、问题 1.Ubuntu Linux的apt 包管理器更新安装软件报错 2.Ubuntu20.04安装vim报错 3.Ubuntu20.04如何更换阿里源 4.Ubuntu22.04如何更换阿里源 一、理论 1.MongoDB &#xff08;1&#xff09;概念 …

6、Qt使用Log4Qt日志

一、知识点 1、Log4Qt有三部分 logger&#xff1a;负责捕获日志信息 layout&#xff1a;负责使用不同的样式输出日志 appender&#xff1a;负责输出信息到不同的目的地&#xff0c;比如数据库、文件、控制台等等 2、 日志级别如下&#xff0c;从上往下依次递增 ALL&#xff1a;…

Day34| Leetcode 1005. K 次取反后最大化的数组和 Leetcode 134. 加油站 Leetcode 135. 分发糖果

Leetcode 1005. K 次取反后最大化的数组和 题目链接 1005 K 次取反后最大化的数组和 本题目一开始我认为直接排序&#xff0c;让最小的取反回来就直接结束&#xff0c;我太天真了&#xff0c;一个反例直接猝死&#xff0c;下面上贪心的思路&#xff1a; 本题一共用到了两个贪…

css之svg 制作圆及旋转

1.代码 <template><div class"loading-box"><div class"circle-container"><svg width"75" height"75" class"move-left-to-right"><circle cx"37.5" cy"37.5" r"26&…

高端影像仪:打破微小产品测量局限

在现代工业生产中&#xff0c;影像仪以CCD数位影像为基石&#xff0c;将计算机屏幕测量技术与空间几何运算的能力融为一体&#xff0c;可以用于测量微小产品的各种尺寸和形状&#xff0c;为生产过程中的质量控制提供重要的参考依据。 影像仪产品内置高精度光学电动双倍镜头&am…

什么是动态住宅IP?它有什么用途?

随着网络的迅速发展&#xff0c;许多人对代理IP已经有了比较深刻的认识&#xff0c;并且广泛地运用到了各自的业务中&#xff0c;尤其在跨境的相关业务中表现尤其卓越。对于代理IP的类别&#xff0c;也需要根据自己的业务类型具体选择最合适的&#xff0c;那么今天IPFoxy就给大…

网页设计--第5次课后作业

1、快速学习JavaScript的基本知识第1-10章 JavaScript入门 - 绿叶学习网 2、使用所学的知识完成以下练习。需求如下3个&#xff1a; 1&#xff09;点亮灯泡 2&#xff09;将所有的div标签的标签体内容后面加上&#xff1a; very good 3&#xff09;使所有的复选框呈现被选…

【javaWeb】HTTP协议

HTTP (全称为 “超文本传输协议”) 是一种应用非常广泛的应用层协议 HTTP 是一个文本格式的协议. 可以通过 Chrome 开发者工具或者 Fiddler 抓包, 分析 HTTP 请求/响应的细节. 上图是通过Fiddler对访问百度搜索页时抓取的一个http协议的包。 观察抓包结果,可以看到,当前 http…

myAGV 2023 Pi 全新升级!

Introduction 在高速发展的自动化和机器人技术领域&#xff0c;我们的公司一直致力于提供高效、灵活且可靠的轻量级机械臂解决方案。然而&#xff0c;我们也深知&#xff0c;传统的机械臂需要固定在一个地方&#xff0c;这在一定程度上限制了其在空间上的应用范围。为了突破这一…

【论文阅读】ActiveNeRF:通过不确定性估计候选新视图

【论文阅读】ActiveNeRF: Learning where to See with Uncertainty Estimation Abstract1 Introduction3 Background4 NeRF with Uncertainty Estimation5 ActiveNeRF5.1 Prior and Posterior Distribution5.2 Acquisition Function5.3 Optimization and Inference 6 Experimen…

ECharts配置项手册了解及使用

1&#xff1a;点击文档然后选择配置项手册或者&#xff1a;Documentation - Apache ECharts 2&#xff1a;

中间件安全:Weblogic 漏洞.(使用工具可以利用多种类型漏洞)

中间件安全&#xff1a;Weblogic 漏洞.&#xff08;使用工具可以利用多种类型漏洞&#xff09; WebLogic 是美国 Oracle 公司出品的一个 application server&#xff0c;确切的说是一个基于 JAVA EE 架构的中间件&#xff0c;WebLogic 是用于开发、集成、部署和管理大型分布式…

达梦数据库ddl锁等待时间太短?解决方法

在日常工作中&#xff0c;一般不会允许停业务来进行DDL维护操作&#xff0c;因为停止业务的代价会比较高&#xff0c;对于复杂的系统&#xff0c;停机维护更是充满了不可控的隐患和危险。DM数据库可以采用延长锁超时的时间&#xff0c;以及开启快速加列、修改列、删除列提高DDL…

亚信科技AntDB数据库与库瀚存储方案完成兼容性互认证

近日&#xff0c;亚信科技AntDB数据库与苏州库瀚信息科技有限公司自主研发的RISC-V数据库存储解决方案进行了产品兼容测试。经过双方团队的严格测试&#xff0c;亚信科技AntDB数据库与库瀚数据库存储解决方案完全兼容、运行稳定。除高可用性测试外&#xff0c;双方进一步开展TP…

Django二转day01

web应用 cs/bs 架构 # c/s mysql c和s装在同一台机器上 -c链接s&#xff1a; cmd窗口中 mysql -h 127.0.0.1 -P 3306 -uroot -p密码 -网络协议&#xff1a;一般情况&#xff0c;都是软件自定制协议---》基本都是基于TCP # b/s 浏览器--服务端 -咱们写的djan…

基于springboot-“有光”摄影分享网站系统(2023年☆全网唯一)【附源码|数据库|表结构|万字文档(LW)|技术文档|说明文档】

主要功能 前台登录&#xff1a; 注册用户&#xff1a;用户账号、密码、姓名、手机号、身份证号、性别、邮箱 用户&#xff1a; ①首页、公告资讯展示、图片素材展示、活动展示、视频素材展示、查看更多 ②论坛、发布帖子、活动、活动标题、活动类型、公告资讯、公告标题、公告…

C#,数值计算——插值和外推,径向基函数插值(RBF_interp)的计算方法与源程序

1 文本格式 using System; namespace Legalsoft.Truffer { /// <summary> /// 径向基函数插值 /// Object for radial basis function interpolation using n points in dim /// dimensions.Call constructor once, then interp as many times as desir…