GPU 张量核心(Tensor Core)技术解读

3b4395b6f273ce44309bb13cae1571c0.jpeg

 一文理解 GPU 张量核心(Tensor Core)

引言

最新一代Nvidia GPU搭载Tensor Core技术,本指南深度解读其卓越性能,为您带来极致体验。

Nvidia最新GPU微架构中的核心技术——Tensor Core,自Volta起每代均获突破,其专门处理子单元在自动混合精度训练的加持下,显著提升了GPU性能,为计算领域带来革新动力。

本文精要概述NVIDIA Volta、Turing及Ampere系列GPU中Tensor Core的卓越能力。深入解析不同GPU核心的功能,揭示Tensor Core在深度学习混合精度训练中的工作原理。我们还将对比各微架构Tensor Core的性能,助您快速识别基于Tensor Core的GPU。一文在手,NVIDIA GPU的Tensor Core能力尽在掌握!

什么是CUDA核心?

深入Tensor Core架构与实用性前,先聚焦CUDA核心。CUDA,即计算统一设备架构,是NVIDIA独家打造的并行处理平台与GPU API。CUDA核心,作为NVIDIA图形卡的标准浮点单元,近十年已成为每款NVIDIA GPU不可或缺的核心特征,更是GPU微架构的标志性元素,引领着计算性能的新纪元。

fecfb07fcbc02ab9e101344946d2dd54.jpeg

CUDA核心具备计算能力,每核每时钟周期可执行乘加操作。尽管单核性能略逊于CPU,但CUDA核心通过并行执行,在深度学习中显著加速计算过程,实现高效能。

Tensor Core发布前,CUDA核心曾是深度学习加速的基石,但受限于其单一计算能力,GPU性能受限于CUDA核心数量和时钟速度。为打破这一桎梏,NVIDIA创新研发Tensor Core,引领深度学习硬件性能飞跃。

什么是 Tensor Core?

Tensor Core是专为混合精度训练设计的核心,其第一代通过乘加融合计算,实现4x4 FP16矩阵相乘并高效整合至4x4 FP16或FP32矩阵,显著提升计算效率。

混合精度计算得名于其特性:输入矩阵虽为低精度FP16,但输出仍为FP32,精度损失极小。此技术极大加速计算,几乎不影响模型最终效果。更先进的微架构已将其扩展到更低精度数字格式,提升计算效率。

05bf55f9300e63a82e392e6316351d47.jpeg

Tensor Core伴随Volta微架构的V100问世,每代更新都激活更多计算机数字精度格式,助力新GPU微架构计算力升级。接下来,我们将深入探讨各代微架构如何不断革新Tensor Core的功能与性能,引领计算新纪元。

Tensor Core如何工作?

e24698262b3b62db3133f3056b4e4408.jpeg

每一代GPU微架构均革新Tensor Core性能,拓展其能力以支持多种计算机数字格式。这一变革显著提升了每代GPU的吞吐量,展现了GPU技术的持续进化与卓越性能。

第一代

Pascal与Volta计算可视化:对比带Tensor Core与不带Tensor Core的性能差异。

cb8ffd44f91f2d14124bf3d6ca96cd59.jpeg

Tensor Core与Volta GPU微架构一同诞生,凭借FP16数字格式实现混合精度训练,其潜在吞吐量较之前提升高达12倍,以teraFLOPs计算。旗舰V100搭载的640个Tensor Core,相较于Pascal GPU,性能飙升5倍,展现出无与伦比的计算优势。

第二代

带有 Pascal 和 Turing 计算的可视化,比较不同精度格式的速度

81b09c4a6aa26d200c4e0683d8654243.jpeg

随着Turing GPU的问世,第二代Tensor Core惊艳亮相。它支持FP16、Int8、Int4及Int1等多种精度,为混合精度训练注入了新动力。这一革新使得GPU性能吞吐量飙升,相比Pascal GPU,性能提升高达惊人的32倍!

Turing GPU不仅继承了第二代GPU的卓越性能,更搭载了光线追踪核心,精准计算3D环境中的图形可视化属性。借助Paperspace的RTX Quadro GPU,这些核心将为您的游戏和视频创作带来前所未有的升级体验。

第三代

Ampere系列GPU搭载第三代Tensor Core,相比FP16精度,性能卓越,堪称史上最强版本。

34ecd1899c54f5085e6d70b89923c536.jpeg

Ampere GPU架构在Volta与Turing微架构的基础上,创新性地支持FP64、TF32和bfloat16精度,显著加速深度学习训练和推断。TF32与FP32相似,却实现高达20倍的速度飞跃,无需代码改动。自动混合精度技术的引入,更使每行代码额外提速2倍,全面释放计算潜能,助力深度学习飞速前行。

第四代

第四代Tensor Core随Hopper微架构发布,H100于2022年3月宣布,新增FP8精度格式处理功能。NVIDIA宣称,这一突破将大幅提升大型语言模型训练速度,较上一代快达30倍,开启AI计算新纪元。

82fe316f3a17816d31f15802dc99a3a1.jpeg

NVIDIA全新NVLink技术可连接高达256个H100 GPU,为数据工作者提供前所未有的计算规模优势,助力其实现更高效的数据处理。

Paperspace GPU云精选五代GPU,涵盖Maxwell、Pascal、Volta、Turing及最新Ampere微架构,满足您不同计算需求,助您轻松驾驭高性能计算时代。

Maxwell与Pascal微架构先于Tensor Core与光线追踪核心问世。深度学习基准测试揭示,在相似规格下(如内存),新型微架构显著优于旧款,这种性能差异在硬件构成上尤为明显,凸显了技术革新的重要性。

V100,Paperspace上独享Tensor Core技术的GPU,虽无光线追踪核心,仍堪称深度学习领域的佼佼者。作为首款搭载Tensor Core的数据中心GPU,V100因设计较旧,在深度学习性能上已略逊于现代工作站GPU如A6000,但其在业界的地位与实力依旧不容忽视。

Paperspace平台推荐工作站GPU RTX4000与RTX5000,为深度学习提供卓越预算方案。特别地,RTX5000凭借第二代Tensor Core的增强功能,在批处理与完成时间上几乎媲美V100,是您深度学习的明智之选。

Ampere GPU系列搭载第三代Tensor Core与第二代光线追踪核心,引领吞吐量飞跃至1555 GB/s的新高度,远超V100的900 GB/s,展现无与伦比的性能提升,为您带来前所未有的计算体验。

Paperspace的Ampere GPU工作站线除A100外,还涵盖A4000、A5000和A6000。这些产品凭借卓越的吞吐量和强大的Ampere微架构,在更经济的价格点上展现了出色的性能。

H100搭载Hopper微架构,将GPU性能提升至A100最大峰值的6倍。据Nvidia CEO黄仁勋在GTC 2022演讲中透露,这款性能卓越的H100将于2022年三季度后正式上市,为科技界带来全新革命。


-对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/42761.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C语言求10进制转2进制(除2取余法)

1.思路:除2取余法,也就是说用除以2取余来将10进制数转换为二进制 2.两种代码实现,这里用了两,一个递归一个非递归。 递归是一种编程技术,其中一个函数直接或间接地调用自己。递归通常用于解决那些可以被分解为更小的、…

Check if a fine-tuned OpenAI model was successfully deleted

题意:检查微调后的OpenAI模型是否已成功删除 问题背景: I am doing some work with the OpenAI API with Python. Im working with fine-tuning and I am working on deleting an existing model and starting over again. I want to be able to check …

“四大水刊”水出新境界!仅一本剔除,飞升1区,IF3.8,1个月录用依然吊打!

本周投稿推荐 SCI • 能源科学类,1.5-2.0(来稿即录25天) • 计算机类,2.0-3.0(纯正刊29天录用) EI • 各领域沾边均可(2天录用) 知网 • 7天录用-检索(急录友好&a…

我可能要和低价官网建设说拜拜了。

最近和团队商议,要不要放弃低价官网建设业务,大部分人要求放弃,我有点不舍,毕竟从公司开始就是靠网站建设业务存活和起价的。 对于设计师来说,对于美与体验的追求是无止境的,你让他搞个高大上网站&#xf…

《C++20设计模式》命令模式思考

文章目录 一、前言二、分析 拆解1、经典命令模式2、撤销操作3、关于Invoker类 三、实现 一、前言 哎!只要是书上写的和经典设计模式不同,我就会很伤脑筋。😩 命令模式到底是干什么的? 答:命令的发送者和接收者完全解…

28个常用的损失函数介绍以及Python代码实现总结

28个常用的损失函数介绍以及Python代码实现总结 最近在做多分类的研究,总是遇到这么多损失函数,应该挑选哪一个损失函数呢?这样的问题。于是心血来潮便想着对损失函数进行总结。 以下是一个预览总结: 损失函数名称问题类型L1范…

80+ ChatGPT 文献综述指令

进行文献综述通常似乎是一项艰巨的任务。它是学术和研究工作的重要组成部分,涉及对先前发表的与特定主题相关的研究进行全面和批判性分析。目标是深入了解该主题的知识状况,找出差距,并为进一步研究奠定基础。 传统上,文献综述是…

STL复习-序列式容器和容器适配器部分

STL复习 1. 常见的容器 如何介绍这些容器,分别从常见接口,迭代器类型,底层实现 序列式容器 string string严格来说不属于stl,它是属于C标准库 **底层实现:**string本质是char类型的顺序表,因为不同编译…

3-一元函数微分学

看到高次求导0---->立即想到奇偶性

STM32智能无人机控制系统教程

目录 引言环境准备智能无人机控制系统基础代码实现:实现智能无人机控制系统 4.1 数据采集模块 4.2 数据处理与飞行控制 4.3 通信与导航系统实现 4.4 用户界面与数据可视化应用场景:无人机应用与优化问题解决方案与优化收尾与总结 1. 引言 智能无人机控…

复旦微JFMVU3P-2FFVC1517 FPGA+AI全国产化人工智能数据处理平台,适用于雷达与中频信号采集、视频图像采集

板载FPGA实时处理器:JFMVU3P-2FFVC1517支持1个FMC(HPC)扩展接口支持2路QSFP光纤接口支持x8 Gen3 PCIE主机接口,系统带宽>5GByte/s支持1个R45自适应千兆以太网口支持1个GPIO/RS422接口 基于复旦微16nm工艺JFM9VU3P FPG…

C语言 -- 深入理解指针(二)

C语言 -- 深入理解指针(二) 1. 数组名的理解2. 使用指针访问数组3. 一维数组传参的本质4. 冒泡排序5. 二级指针6. 指针数组7. 指针数组模拟二维数组8. 字符指针变量9. 数组指针变量2.1数组指针变量是什么?2.2 数组指针变量怎么初始化 10. 二维…

SQLServer的系统数据库用别的服务器上的系统数据库替换后做跨服务器连接时出现凭证、非对称金钥或私密金钥的资料无效

出错作业背景: 公司的某个sqlserver服务器要做迁移,由于该sqlserver服务器上数据库很多,并且做了很多的job和维护计划,重新安装的sqlserver这些都是空的,于是就想到了把系统4个系统数据库进行替换,然后也把…

Android进入Recovery模式 显示无命令 / no command

问题: 进入 recovery 模式后就显示no command,倒地机器人 解决: 在此界面按住电源键不放,再按一下音量

Git 查看、新建、删除、切换分支

Git 是一个版本控制系统,软件开发者用它来跟踪应用程序的变化并进行项目协作。 分支的诞生便于开发人员在彼此独立的环境中进行开发工作。主分支(通常是 main 或 master)可以保持稳定,而新的功能或修复可以在单独的分支中进行开发…

MySQL之表的约束(上)

目录 空属性(NULL) 实例建表 插入操作 默认值(default) 建表 插入操作 NULL与default的结合 列描述 建表 zerofill 建表 插入操作 主键 建表 插入 主键的增加与去掉 去掉 增加 复合主键 插入的影响 真正约束字段的是数据类型,但是数据类型约束很单一&a…

2 ECMAScript

JavaScript 概述 JavaScript 编程语言允许你在 Web 页面上实现复杂的功能;如果你看到一个网页不仅仅显示静态的信息,而是显示依时间更新的内容,或者交互式地图,或者 2D/3D 动画图像,或者滚动的视频播放器,等等——你基本可以确定,这需要 JavaScript 的参与 JavaScript 编程语言…

gams103作业1含提高部分

第一部分 检测碰撞 首先需要对所有点进行碰撞检测,判断是否与平面发生碰撞 这里碰撞检测根据读入给定的表面点和表面的法向量求点积判断是否小于0,如果是则证明两个的方向相反,发生碰撞。 同时判断是否速度方向和法线方向相反。 当同时满…

我国静止无功发生器(SVG)市场规模逐渐扩大 高压SVG为主流产品

我国静止无功发生器(SVG)市场规模逐渐扩大 高压SVG为主流产品 静止无功发生器(SVG)又称为静止同步补偿器、先进静止补偿器、静止调相机等,是利用全控型功率器件组成的桥式变流器来实现动态无功调节的一种先进无功自动补…

Table 表格--分页序号自增

代码: import { Space, Table, Tag } from antd; import type { ColumnsType } from antd/es/table; import React, { useState } from react;interface DataType {key: string;name: string;age: number;address: string;tags: string[]; }const data: DataType[]…