深度学习中的数据类型介绍:FP32, FP16, TF32, BF16, Int16, Int8 ...

文章目录

    • 0. 前言
    • 1. 数据的存储方式
    • 2. 不同数据类型介绍
      • 2.1 深度学习中常用的数据类型
      • 2.2 BF16 类型的优势
      • 2.3 不同数据类型的使用场景

0. 前言

相比于 CPU,GPU 在架构设计时将更多的晶体管用于数据处理,而不是数据缓存和流量控制,因此可以高度实现并行计算。具体可以参考 GPU 并行计算入门

由于深度学习是基于大量矩阵运算实现的,因此我们往往使用 GPU 训练深度学习网络。GPU 的计算能力和显存大小决定了计算速度和可运行的网络的大小,但除了 GPU 本身的性能外,网络训练/推理的性能还与我们使用的数据类型有关。在大模型时代,低精度和混合精度的使用非常常见。

1. 数据的存储方式

float 和 double 类型的数据在内存中以二进制方式存储,由三部分组成:

  • 符号位 S(Sign): 0 代表正数,1 代表负数
  • 指数位 E(Exponent): 用于存储科学计数法中的指数部分,决定了数据的范围
  • 尾数位 M(Mantissa): 用于存储尾数(小数)部分,决定了数据的精度

int 类型只包括符号位和指数位,没有尾数位。

如 float 9.125 在计算机中分别按照整数和尾数的二进制进行存储,9 的二进制为 1001,0.125 的二进制为 0.001;所以 9.125 表示为 1001.001,其二进制的科学计数法表示为 1.001001 × 2 3 1.001001 \times 2^3 1.001001×23

在计算机中,任何一个数都可以表示为 1. x x x × 2 n 1.xxx \times 2^n 1.xxx×2n 的形式,其中 n n n 是指数位, x x x xxx xxx 是尾数位。

指数位决定了该数据类型的数值动态范围:指数位越多,可表示的数值范围越大。
尾数位决定了该数据类型的数值精度:尾数位越多,可表示的数值精度越高。

下面是 FP16 和 FP32 (float) 的存储示例图:
        

        

以 FP16为例,其指数位 E 为 5 bits,由于 00000 和 11111 是特殊数据,所以 E 的范围为 00001~11110,即 1~30;尾数位 M 为 10 bits,范围为 0~1023

(1)计算 FP16 可以表示的数据范围

FP16 可以表示的数据大小为: ( − 1 ) S ∗ 2 E − 15 ∗ ( 1 + M 2 1024 ) (-1)^S*2^{E-15}*(1+\frac{M}{2^{1024}}) (1)S2E15(1+21024M)

因此 FP16 可以表示的最大的正数为: 0 11110 1111111111 = ( − 1 ) 0 ∗ 2 30 − 15 ∗ ( 1 + 1023 1024 ) = 65504 0 \ 11110 \ 1111111111=(-1)^0*2^{30-15}*(1+\frac{1023}{1024})=65504 0 11110 1111111111=(1)023015(1+10241023)=65504

可以表示的最小的负数为: 1 11110 1111111111 = ( − 1 ) 1 ∗ 2 30 − 15 ∗ ( 1 + 1023 1024 ) = − 65504 1 \ 11110 \ 1111111111=(-1)^1*2^{30-15}*(1+\frac{1023}{1024})=-65504 1 11110 1111111111=(1)123015(1+10241023)=65504

所以 FP16 可以表示的数据范围为 [ − 65504 , 65504 ] [-65504,65504] [65504,65504]

与 FP16 相比,FP16 可以表示的数据范围为 [ − 3.4 × 1 0 38 , 3.4 × 1 0 38 ] [-3.4\times10^{38},3.4\times10^{38}] [3.4×1038,3.4×1038]

(2)特殊情况分析

在指数位 E 为 00000 或 11111 时:

  • E = 00000 E=00000 E=00000时,FP16 可以表示的数据大小为: ( − 1 ) S ∗ 2 1 − 15 ∗ ( 0 + M 2 1024 ) (-1)^S*2^{1-15}*(0+\frac{M}{2^{1024}}) (1)S2115(0+21024M)
  • E = 11111 E=11111 E=11111时,若 M 全为 0,表示 ± inf;若 M 不全为 0,表示 NAN

(3)分析 FP16 的数值精度

由于尾数位的限制,任何数据类型表示的数都是有精度的,即 FP16 并不是可以表示 [ − 65504 , 65504 ] [-65504,65504] [65504,65504] 内的任意数字。

FP16 可以表示的最小的正数为: 0 00001 0000000000 = ( − 1 ) 0 ∗ 2 1 − 15 ∗ ( 1 + 0 1024 ) = 6.10 × 1 0 − 5 0 \ 00001 \ 0000000000 =(-1)^0*2^{1-15}*(1+\frac{0}{1024})=6.10\times10^{-5} 0 00001 0000000000=(1)02115(1+10240)=6.10×105

FP16 的数值精度为 0.001,即两个不同 FP16 数值的最小间隔为 0.001,这是由于十进制和二进制之间的数值转换决定的,具体分析可见 LLM大模型之精度问题(FP16,FP32,BF16)详解与实践

用 PyTorch 验证一下:

import torch
print(torch.finfo(torch.float16))
# finfo(resolution=0.001, min=-65504, max=65504, eps=0.000976562, smallest_normal=6.10352e-05, tiny=6.10352e-05, dtype=float16)

本节参考:

float在内存中的存储

LLM大模型之精度问题(FP16,FP32,BF16)详解与实践

彻底搞懂float16与float32的计算方式

2. 不同数据类型介绍

最早的 GPU 默认使用 FP32 类型进行运算,但随着模型越来越大,FP32 类型占内存/显存资源大且运算速度慢的问题逐渐暴露了出来。为了降低模型的大小使得在固定显存的 GPU 上可以运行更大(参数量更多)的模型,且提升模型的训练和推理速度,各种低精度的数据类型被提出。

2.1 深度学习中常用的数据类型

深度学习中常用的数据类型如下:

数据类型bits符号位 S指数位 E尾数位 M数值范围数值精度设计原理说明
FP32321823 − 3.4 × 1 0 38 -3.4\times10^{38} 3.4×1038 ~ 3.4 × 1 0 38 3.4\times10^{38} 3.4×1038 1 0 − 6 10^{-6} 106大部分CPU/GPU/深度学习框架中默认使用FP32,FP32可以作为精度 baseline
FP16161510 − 65504 -65504 65504 ~ 65504 65504 65504 1 0 − 3 10^{-3} 103
TF32191810 − 3.4 × 1 0 38 -3.4\times10^{38} 3.4×1038 ~ 3.4 × 1 0 38 3.4\times10^{38} 3.4×1038 1 0 − 3 10^{-3} 103TF32 的 E 与 FP32 相同,具有与 FP32 相同的数值范围;M 与 FP16 相同,具有与 FP16 相同的数值精度。TF32 (TensorFloat) 是 Nvidia 在 Ampere 架构的 GPU 上推出的用于 TensorCore 的数据格式,在 A100 上使用 TF32 的运算速度是在 V100 上使用 FP32 CUDA Core 运算速度的 8 倍。
BF1616187 − 3.39 × 1 0 38 -3.39\times10^{38} 3.39×1038 ~ 3.39 × 1 0 38 3.39\times10^{38} 3.39×1038 1 0 − 2 10^{-2} 102BF16 以 16bits 存储,但其 E 与 FP32 一致,因此其数值范围与 FP32 一致;即其数值范围大于 FP32,但精度低于 FP16BF16 (bfloat16, brain floating point 16)是由Google Brain开发的,是一种最适合大模型训练的数据类型,但目前只适配于 Ampere 架构的 GPU(如A100)。
Int3232131 − 2.15 × 1 0 9 -2.15\times10^{9} 2.15×109 ~ 2.15 × 1 0 9 2.15\times10^{9} 2.15×109 1 1 1
Int1616115 − 32768 -32768 32768 ~ 32767 32767 32767 1 1 1
Int8817 − 128 -128 128 ~ 127 127 127 1 1 1

PyTorch验证:

import torch
print(torch.finfo(torch.float32))
# finfo(resolution=1e-06, min=-3.40282e+38, max=3.40282e+38, eps=1.19209e-07, smallest_normal=1.17549e-38, tiny=1.17549e-38, dtype=float32)
print(torch.finfo(torch.float16))
# finfo(resolution=0.001, min=-65504, max=65504, eps=0.000976562, smallest_normal=6.10352e-05, tiny=6.10352e-05, dtype=float16)
print(torch.finfo(torch.bfloat16))
# finfo(resolution=0.001, min=-65504, max=65504, eps=0.000976562, smallest_normal=6.10352e-05, tiny=6.10352e-05, dtype=float16)
print(torch.iinfo(torch.int32))
# iinfo(min=-2.14748e+09, max=2.14748e+09, dtype=int32)
print(torch.iinfo(torch.int16))
# iinfo(min=-32768, max=32767, dtype=int16)
print(torch.iinfo(torch.int8))
# iinfo(min=-128, max=127, dtype=int8)

2.2 BF16 类型的优势

BF16 类型的优势:

  • BF16 只有 2bytes 的内存,但其数值范围与 4bytes 的 FP32 相同。
    在深度学习领域,数值范围的作用远高于数值精度;即数据类型的指数位的作用大于尾数位的作用。采用梯度下降法的网络权重的更新方式为: w n e w = w o l d − l r ⋅ g r a d w_{new}=w_{old}-lr \cdot grad wnew=woldlrgrad 由于梯度 g r a d grad grad 和学习率 l r lr lr 通常较小,往往会出现很小的数值,因此必须使用能够表达较大范围的数据类型。使用 FP16时往往会出现 underflow(下溢)的情况,即小于 − 6.55 × 1 0 4 -6.55\times10^{4} 6.55×104 的数值被截断为 0 ,导致梯度无法更新。所以 BF16 具有比 FP16 更优异的性能。
  • BF16 与 FP32 的转换很容易。
    使用混合精度计算时,需要频繁得对 BF16/FP32 和 FP32 进行转换。BF16 基本上可以看作成一个“截断”版的 FP32, 两者之间的转换是非常直接,其实现电路也会非常简单。相比于 FP16,BF16的使用能有效的降低电路的面积。

2.3 不同数据类型的使用场景

对于不同的任务和使用场景,最适用的数据类型也是不同的。

(1)不用任务使用不同的数据类型

  • 例1:相比于目标检测,分类任务对于数据类型就没有那么敏感了,可能使用 FP16 和 Int8 获得的精度并没有差多少,但使用 Int8 能够显著提升训练和推理性能。
  • 例2:由于图像往往是 Int8 格式,因此在 CV 的推理任务中以 Int8 为主;但在 NLP任务中应以 FP16 为主。

(2)训练和推理的不同

  • FP32 往往只是作为精度基线 (baseline),比如要求使用 FP16 获得的精度达到 FP32 baseline 的 99% 以上。但通常不会使用 FP32 进行训练,尤其对于大模型来说。
  • 训练往往使用 FP16, BF16 和 TF32,以降低内存占用,缩写训练时间,降低训练资源(较少耗电)。
  • 推理 CV 任务以 Int8 为主,NLP任务以 FP16 为主,大模型可以使用 Int8/FP16 混合推理。

本节参考:int8/fp16/bf16/tf32在AI芯片中什么作用?【AI芯片】AI计算体系06

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/133974.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

致:CSGO游戏搬砖人的一封信

最近大家还在坚持操作CSGO游戏搬砖项目不? 这个项目虽是稳赚项目,但也有行情好和行情不好的时候,平台的大中小各种活动的举办,都会对我们的项目造成一定影响。行情的上下波动势必然会影响卡价的波动,影响选品的快慢&a…

棱镜七彩亮相工控中国大会,以软件供应链安全助力新型工业化高质量发展

2023年11月1日-3日,2023第三届工控中国大会在苏州国际会议中心举办,本届大会由中国电子信息产业发展研究院、中国工业经济联合会、国家智能制造专家委员会、国家产业基础专家委员会、江苏省工业和信息化厅、江苏省国有资产监督管理委员会、苏州市人民政府…

HTML 表格

<!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>表格标签</title>/* <style>.yun {widt…

C++学习 --函数

目录 1&#xff0c; 函数定义 1-1&#xff0c; 有返回值 1-2&#xff0c; 无返回值 2&#xff0c; 函数声明 3&#xff0c; 函数分文件编写 3-1&#xff0c; 创建自定义头文件 3-2&#xff0c; 创建源文件 3-3&#xff0c; 自定义头文件中编写函数声明 3-4&#xff0c…

北京陪诊小程序|陪诊系统开发|陪诊小程序未来发展不可小觑

近几年随着互联网快速发展&#xff0c;各行业领域都比较注重线上服务系统&#xff0c;通过陪诊小程序开发可以满足更多用户使用需求&#xff0c;同时还能提高用户使用体验。现在陪诊类的软件应用得到全面推广&#xff0c;在医疗行业当中陪诊小程序更贴近用户生活&#xff0c;可…

【漏洞复现】Apache_Tomcat7+ 弱口令 后台getshell漏洞

感谢互联网提供分享知识与智慧&#xff0c;在法治的社会里&#xff0c;请遵守有关法律法规 文章目录 1.1、漏洞描述1.2、漏洞等级1.3、影响版本1.4、漏洞复现1、基础环境2、漏洞扫描3、漏洞验证 说明内容漏洞编号漏洞名称Tomcat7 弱口令 && 后台getshell漏洞漏洞评级高…

掌动智能:功能测试及拨测主要功能

在企业中对于功能测试及拨测而言&#xff0c;用户只需提供应用包和产品文档&#xff0c;由资深测试专家设计并执行测试&#xff0c;覆盖核心场景&#xff0c;包含特定业务流程以及行业通用特殊场景&#xff0c;支持需求定制。 执行过程严格监控&#xff0c;依据应用功能和业务需…

8年资深测试总结,接口自动化框架的设计与实现,一文打通...

目录&#xff1a;导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09; 前言 1、自动化测试框架…

Ionic 模块组件的理解

1 Ionic4.x 文件分析 1.1 app.module.ts 分析 Ionic 是一个基于 Angular 的移动应用开发框架&#xff0c;能帮助开发者使用 Web 技术&#xff08;HTML5、CSS3、JavaScript&#xff09;创建跨平台的应用程序。在 Ionic 应用程序中&#xff0c;app.module.ts 文件是整个应用程序的…

基于javaweb+mysql的jsp+servlet学生成绩管理系统(管理员、教师、学生)

博主24h在线&#xff0c;想要源码文档部署视频直接私聊&#xff0c;9.9元拿走&#xff01; 基于javawebmysql的jspservlet学生成绩管理系统(管理员、教师、学生)(javajspservletjavabeanmysqltomcat) 运行环境 Java≥8、MySQL≥5.7、Tomcat≥8 开发工具 eclipse/idea/myecl…

UE5 c++将自定义UserWdiget添加到对应菜单栏

前言&#xff1a; 为了实现与UserWidget一致的右键添加&#xff0c;便有了此章 注&#xff1a;这里使用的是UE5.3 目标内容&#xff1a; 这里可以参考UserWidget的源码&#xff0c;拷贝一份属于自己的就ok&#xff08;本篇章只是全改成了属于自己的CommonUserWidget&#xff…

Android 使用.9图 NinePatchDrawable实现动态聊天气泡

最近一段时间&#xff0c;在做一个需求&#xff0c;需要实现一个聊天气泡的动画效果&#xff0c;如下图所示&#xff1a; GitHub源码demo &#xff0c;建议下载demo&#xff0c;运行查看。 动态聊天气泡动画 静态聊天气泡 经过一段时间调研&#xff0c;实现方案如下: 实现方…

栈(定义,基本操作,顺序存储,链式存储)

目录 1.栈的定义1.重要术语2.特点 2.栈的基本操作3.栈的顺序存储1.顺序栈的定义2.基本操作1.初始化2.进栈3.出栈4.读栈顶 3.共享栈 4.栈的链式存储 1.栈的定义 栈( Stack&#xff09;是只允许在一端进行插入或删除操作的线性表。 一种受限的线性表&#xff0c;只能在栈顶进行插…

高校为什么需要大数据挖掘平台?

目前数据挖掘已经成为各种应用领域的重要技术&#xff0c;大学数据挖掘课程的开放已经出现。数据挖掘课程整合了多门学科知识。该课程包括各种理论知识&#xff0c;也离不开相关的实用技术。整个教学过程是培养和提高学生全面创新和解决问题的能力。过去&#xff0c;教学过程理…

Vscode禁止插件自动更新

由于电脑的vscode版本不是很新。2022.10月份的版本1.7.2&#xff0c;电脑vscode的python插件装的也是2022年4月份的某个版本&#xff0c;但插件经常自动更新&#xff0c;导致python代码无法Debug,解决办法&#xff1a; 点设置&#xff0c;搜autoUpdate, 把红色框选成无

MicroStation二次开发问题记录(1):打开项目时自动加载dll文件

环境配置 Windows10 MicroStation CE Update16 Visual Studio 2019 前言 开发好的dll文件若每次都需要在打开MS时单独加载&#xff0c;则过于繁琐&#xff0c;因此可以在确定的工程项目文件中进行一次设置&#xff0c;在打开该文件时自动加载 一、加载dll文件 1. 点击File—Se…

ROS学习笔记(5):ros_control

1.ros_control简介 ros_control - ROS Wiki ros_control是为ROS提供的机器人控制包&#xff0c;包含一系列控制器接口、传动装置接口、控制器工具箱等,有效帮助机器人应用功能包快速落地&#xff0c;提高开发效率。 2.ros_control框架 ros_control总体框架&#xff1a; 针对…

【微服务 Spring Cloud 6】服务如何拆分?使用微服务的注意事项?

目录 一、前言二、单体服务的弊端三、微服务化四、服务如何拆分&#xff1f;1、拆分原则2、拆分时机和拆分方法3、拆分实践 五、使用微服务的注意事项1、确保相关业务和利益相关者的支持2、确定微服务的拆分粒度3、遵循微服务架构的原则4、确保接口的稳定性5、关注数据一致性6、…

百数低代码与AI:实现业务智能化的新途径

今年6月&#xff0c;咨询机构麦肯锡发布了的一份题为《生成式人工智能的经济潜力》的研究报告&#xff0c;在报告中&#xff0c;分析师们通过对47个国家及地区的850种职业&#xff08;全球80%以上劳动人口&#xff09;的研究&#xff0c;探讨了在AI成指数级发展背后&#xff0c…

PostgreSQL简介及安装步骤

PostgreSQL简介 PostgreSQL是一款开源的关系型数据库管理系统&#xff0c;具有强大的扩展性、高度的可定制性和可靠的稳定性&#xff0c;因此在企业级应用和开发领域中得到了广泛的应用。本文将介绍PostgreSQL的基本概念以及在各种操作系统上的安装步骤。 安装步骤 1. Window…