【量化】量化原理浅析

前言

模型在端侧运行时,会追求模型保持原有精度的同时,让模型的运行速度更快。基本方向为模型压缩和加速,着力于减少网络参数量、降低计算复杂度。可通过以下方式实现:

  • 针对网络结构本身进行改进,常用的3x3的卷积的叠加代替大卷积;average-pooling 代替 full-connection layers; MobileNets中使用的 depth-wise convolution 代替传统的卷积方式;等。
  • 剪枝:除去神经网络结构中不重要的部分
    量化:调整网络结构中的权重和激活值的表达精度
    蒸馏:把复杂网络结构的只是转移到较小网络结构上
  • 推理框架上的优化:成熟的轻量化框(TensorRT、TF-lite、NCNN、MNN)。这些框架能够实现编译优化、缓存优化、算子优化、稀疏存储与计算、加速指令集应用等,能够显著的提升模型推理速度
  • 硬件层级:硬件厂商通常会为特定深度学习任务或者框架做针对性设计优化,使得模型在匹配的硬件平台上获得最大的加速效果。目前主流的硬件平台有GPU、FPGA、ASIC等。
    GPU通用性好,计算能力强,但功耗较大,主要 用在云端训练和推理;
    ASIC这种定制程度较高的芯片通用性较低,但在专属任务上性能较高,主要用于前端计算设备上。TPU和NPU属于ASIC的范畴。

本篇博客主要记录量化的原理

1 量化简介

在信号处理领域中,量化是指将连续的信号近似为有限多个离散值的过程。
在深度学习领域中,模型量化是指:将高比特的权重和特征值用更低比特来表示 的方法。当量化后的数值是2的幂次时(如1/2/4/8 bit等),量化也可以成为定点化。量化后的值成为定点值。
在深度模型训练和推理过程中,最常使用的是32bit浮点型精度。但高比特意味着模型的体积更大,推理速度更慢,硬件资源消耗更多。这对于部署在计算和存储资源有限的边缘设备上是很不友好的。通过使用更低比特的精度,在尽量保持元模型效果的同时,获得尺寸更小、推理速度更快、硬件资源占用更少的模型是目前研究的重点方向。

2 量化基本原理

模型量化方法本质上是函数映射。建立了高精度的浮点数据 和量化后低精度的定点数据 之间的数据映射。
根据映射函数是否为线性,将其分为线性量化和非线性量化。

  • 线性量化:8bit量化(又分为对称量化、非对称量化)
  • 非线性量化:二值量化 (1 bit量化)、聚类量化、对数量化

其中最常用的是8bit量化,已在工业界中成熟使用。


2.1 线性量化

浮点模型参数与定点模型参数之间如何转换呢?

  • 浮点转定点(量化)公式为: Q = r o u n d ( R S + Z ) Q=round (\frac{R}{S}+Z) Q=round(SR+Z)定点转浮点(反量化)公式为: R = ( Q − Z ) ∗ S R=(Q-Z)*S R=(QZ)S【R】原始的浮点数据
    【Q】量化后的定点数据
    【Z】偏移量(或零点/最小值对应的量化数值),又被称为 Zero Point
    【S】缩放系数,又被成为Scale

那S和Z如何获取呢?

  • 可以知道浮点和定点参数的最值 R m a x 、 R m i n 、 Q m a x 、 Q m i n R_{max}、R_{min}、Q_{max}、Q_{min} RmaxRminQmaxQmin,则有:
    S = R m a x − R m i n Q m a x − Q m i n S=\frac{R_{max}-R_{min}}{Q_{max}-Q_{min}} S=QmaxQminRmaxRmin Z = Q m a x − R m a x S Z=Q_{max} - \frac{R_{max}}{S} Z=QmaxSRmax
2.1.1 8bit量化

(对上面的公式分情况细化)
8bit量化是目前工程上应用最为成熟的方案。该方案非常好的平衡了推理速度和精度之间的矛盾。Google的Tensorflow采用的是非对称量化,NVIDIA采用的是堆成量化。
对称量化和非对称量化,都属于线性量化,具有相同的量化公式和反量化公式(如上公式)。
但对于量化时的 S 、 Z S、Z SZ,可将其计算方式具体化。

  • 【对称量化】
    在这里插入图片描述
    操作:如上图所示,对称量化将输入数据映射到 [-128,127] 的范围内,但在实际使用中使用的是 [-127,127]。
    问题:如果将输入数据中存在偏离正常分布的较远离群点,则会导致较大的量化精度损失。
    解决:实际使用中,通常会选择介于127和 m a x ( ∣ x f ∣ ) max(|x_f|) max(xf) 之间的一个阈值T 对输入数据进行截断,以免离群点对量化精度的影响。即 量化的输入区间从 [ − m a x ( ∣ x f ∣ ) , m a x ( ∣ x f ∣ ) ] [-max(|x_f|), max(|x_f|)] [max(xf),max(xf)] 变为 [ − ∣ T ∣ , + ∣ T ∣ ] [-|T|, +|T|] [T,+T]

    对称量化需要保证【原始的输入数据中零点】通过映射公式后仍对应 [-127, 127] 区间的零点。所以Z=0,且Q=0时恰好有R=0。则整个计算过程如下,其中 R ′ R^{'} R为反量化结果
    Z = 0 S = ∣ R m a x ∣ ∣ Q m a x ∣ Q = r o u n d ( R S ) Q = c l i p ( Q , − 127 , 127 ) R ′ = Q ∗ S \begin{aligned} Z&=0 \\ S&=\frac{|R_{max}|}{|Q_{max}|} \\ Q&=round (\frac{R}{S}) \\ Q&=clip(Q, -127, 127) \\ R^{'}&=Q*S\\ \end{aligned} ZSQQR=0=QmaxRmax=round(SR)=clip(Q,127,127)=QS

  • 【非对称量化】
    在这里插入图片描述
    如上图所示,非对称量化将输入数据映射到[0,255] 的范围内。此时 Z = Q m a x − R m a x S = Q m i n Z=Q_{max}-\frac{R_{max}}{S}=Q_{min} Z=QmaxSRmax=Qmin。则整个计算过程如下,其中 R ‘ R^{`} R为反量化结果
    S = R m a x − R m i n Q m a x − Q m i n = 255 Q m a x − Q m i n Z = Q m a x − R m a x S = Q m i n Q = r o u n d ( R S + Z ) Q = c l i p ( Q , − 128 , 127 ) R ′ = ( Q − Z ) ∗ S \begin{aligned} S&=\frac{R_{max}-R_{min}}{Q_{max}-Q_{min}}=\frac{255}{Q_{max}-Q_{min}} \\ Z&=Q_{max}-\frac{R_{max}}{S}=Q_{min}\\ Q&=round (\frac{R}{S}+Z) \\ Q&=clip(Q, -128, 127) \\ R^{'}&=(Q-Z)*S\\ \end{aligned} SZQQR=QmaxQminRmaxRmin=QmaxQmin255=QmaxSRmax=Qmin=round(SR+Z)=clip(Q,128,127)=(QZ)S


2.2 线性量化步骤

当前支持神经网络模型的芯片,都会提供一整套方案,其中就包括模型转换时的量化,使用者只需要按照相应文档进行操作即可。但若自己代码实现线性量化,具体过程:

  • 选择合适的量化方法,确定选用对称量化或非对称量化;
  • 统计输入数据的数值区间[min_value, max_value];
  • 根据量化方式,以及输入区间计算量化参数:零点值Z和缩放系数S;
  • 根据转换公式,对输入的float32 精度的数据转换为int8精度的数据

2.3 非线性量化

2.3.1 二值量化(1bit)

二值量化是目前压缩率最高的量化方法。有两种方法实现权重的二值化。一种是使用符号函数: w b = { + 1 i f w ⩾ 0 − 1 o t h e r w i s e w_b=\left\{\begin{matrix} +1 &if \,\,\,\,w\geqslant0 & \\ -1 & \,\,\,\, otherwise& \end{matrix}\right. wb={+11ifw0otherwise另一种是以一定概率随机量化,如下公式: w b = { + 1 w i t h p r o b a b i l i t y p = σ ( w ) − 1 w i t h p r o b a b i l i t y 1 − p w_b=\left\{\begin{matrix} +1 & \,\,\,\,with\,\,probability\,\,p=\sigma(w) & \\ -1 & \,\,\,\, with\,\,probability\,\,1-p& \end{matrix}\right. wb={+11withprobabilityp=σ(w)withprobability1p其中,概率的计算方式如下: σ ( x ) = c l i p ( x + 1 2 , 0 , 1 ) = max ⁡ ( 0 , min ⁡ ( 1 , x + 1 2 ) ) \sigma(x)=clip(\frac{x+1}{2},0,1)=\max(0,\min(1,\frac{x+1}{2})) σ(x)=clip(2x+1,0,1)=max(0,min(1,2x+1))
为了保持精度,权重在前向传播和反向传播计算的时候进行二值化,但是在进行参数更新的时候使用浮点类型。
虽然二值量化的效率非常高,但是模型精度非常大,落地困难。

2.3.2 聚类量化

典型代表,MIT的Deep Compression,这篇论文中综合使用了剪枝、量化、编码等技术实现模型的轻量化。其中量化这一部分的基本操作如下图所示
在这里插入图片描述
如上图所示,

  • 确定参数范围:4x4的矩阵中,所有权值大小在[-1.08,2.12] 之间
  • 聚类:如果以-1,0,1,2 这几个离散整数作为聚类中心,然后对矩阵中所有的权值进行聚类,并把同一类的所有权值四舍五入为聚类中心的值。
  • 同一类的权值梯度相加作为量化后聚类中心的梯度用于更新权重,图中相同颜色的权值表示属于同一聚类组

    作者采用 Kmeans聚类方法,把原始的m个权重 w = { W 1 , W 2 , . . . , W m } w=\{W_1,W_2,...,W_m\} w={W1,W2,...,Wm}量化为k个聚类中心 C = { C 1 , C 2 , . . . , C m } C=\{C_1,C_2,...,C_m\} C={C1,C2,...,Cm}。聚类算法最小化组内误差,目标函数: arg ⁡ min ⁡ C ∑ i = 1 k ∑ w ∈ c i ∣ w − c i ∣ 2 \arg \min_C \sum^{k}_{i=1}\sum_{w\in c_i}|w-c_i|^2 argCmini=1kwciwci2K-means 的初始聚类中心的选择非常关键。常用初始方法:均匀初始化、随机初始化、按密度初始化。论文中推荐使用均匀初始化,具体方法时统计权值的最小值和最大值,并把数值区间平分为 K 份,以每一份的分界点处的权值作为聚类的中心。
2.3.3 对数量化

INCREMENTAL NETWORK QUANTIZATION中有提出,对数量化后的定点值为2的幂次方,即两个临近点数值之间是以2为底的对数域上均匀分布的。如量化定点值为 2 − 1 , 2 − 2 , 2 − 3 2^{-1}, 2^{-2}, 2^{-3} 21,22,23,在对数域上的分布为-1,-2,-3。这种量化特性使得模型在推理时可以通过移位运算来实现快速的计算。
下图展示了对数量化的一种方式,权重矩阵中的权值量化到2的幂次的定点值上。与聚类量化方法不同的是,对每层的权重采用分批量化,而不是一次量化整个权重。这样分批量化的方式能够让部分权重保持高精度,更方便的进行训练优化。
在这里插入图片描述

3 训练感知量化、训练后量化

  • 训练感知量化:量化不可避免带来模型的精度损失,为了能够尽量保持原模型的精度,通常会对量化后模型做fine tuning,或者进行重新训练,这个方式称作为"训练感知量化"。
  • 训练后量化:如果模型量化的精度满足使用需求,则可以忽略finetuning和重训练过程,这种方式称作为"训练后量化"。若模型规模较小,有可能会导致无法使用。

3.1 训练感知量化主要流程:


3.2 训练后量化主要流程:

  • 准备Calibration Data,用于对量化模型进行量化参数校正。
  • 以训练好的高精度模型为基准,使用校正数据集对其进行量化
  • 统计权重和激活值的数值范围,确定量化参数
    • 权重量化:对模型中的weights进行量化。由于网络权重在训练结束后都是确定的值,因而通过对每一层权重统计就可以得到量化参数。此时不需要Calibaration Data参与的,既Data Free
    • 激活量化:对网络的激活值进行量化,既卷积权重的输出,可以能是激活函数后的输出。由于feature的数值范围需要动态的获取,因而就需要Calibaration Data作为数据输入,通过前向推理产生的各层的feature统计量化参数。
  • 使用量化参数对模型进行量化
    对激活值量化时,需要根据输入的Calibration Data动态的统计量化参数。通常会采用一些策略来确定更有效的量化参数:
    1. 统计每个batch的量化参数,通过指数平滑方法更新参数值。
    2. 统计量化参数时,需要去除偏离数据正常分布较远的离群点,以免造成大的量化误差。
    3. 使用KL散度评估模型量化产生的信息损失,选用KL散度最小时的量化参数来量化模型。如TensorRT使用该方法度量INT8的信息损失

3.3 总结


性能表现

  • 在CPU上,8bit量化推理能够获取2~3倍的速度提升。在专为低精度向量计算优化过的特定处理器上,如支持HVX的小龙DSP,和原浮点型模型推理速度相比能够加速10倍。
  • 使用线性量化可以在基本保持精度不变的情况下缩小4倍的模型大小。使用非线性量化则能够实现更高的压缩比,比如K-means聚类量化。

模型结构和量化关系

  • 模型大小和压缩率之间存在明确的这种关系。模型规模越大对量化误差的容忍程度越高
  • 对于某一个模型结构,可以在特征数量(权重激活数量)和量化之间进行折中,使用越多的特征数量参与量化,则卷积核可以相应支持更低的比特位宽
  • 训练过程中不约束激活函数的输出范围,而是直接对输出进行量化,这样能进一步提升精度。

参考:https://laiye.com/tech-blog/2391

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/89394.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Docker-如何获取docker官网x86、ARM、AMD等不同架构下的镜像资源

文章目录 一、概要二、资源准备三、环境准备1、环境安装2、服务器设置代理3、注册docker账号4、配置docker源 四、查找资源1、服务器设置代理2、配置拉取账号3、查找对应的镜像4、查找不同版本镜像拉取 小结 一、概要 开发过程中经常会使用到一些开源的资源,比如经…

基于体系结构-架构真题2022(四十一)

给定关系模式R(U,F),其中U为属性集,F是U上的一组函数依赖,那么函数依赖的公理系统中分解规则是指()为F所蕴含。 解析: 伪传递是x到y,wy到z,则xw到z 传递是z…

【C/C++笔试练习】——printf在使用%的注意事项、for循环语句的三个条件、运算符优先级、删除公共字符

文章目录 C/C笔试练习1.%符号在printf用作格式说明符的注意事项(1)输出%5.3s(2)判断%中小数点含义 2.for循环语句的三个条件(3)判断循环次数(4)判断循环次数 3.运算符优先级&#xf…

计算机专业毕业设计项目推荐08-英语在线点读平台(SpringBoot+Vue+MongoDB)

英语在线点读平台(SpringBootVueMongoDB) **介绍****系统总体开发情况-功能模块****各部分模块实现** 介绍 本系列(后期可能博主会统一为专栏)博文献给即将毕业的计算机专业同学们,因为博主自身本科和硕士也是科班出生,所以也比较了解计算机专业的毕业设…

【Linux】【网络】传输层协议:UDP

文章目录 UDP 协议1. 面向数据报2. UDP 协议端格式3. UDP 的封装和解包4. UDP 的缓冲区 UDP 协议 UDP传输的过程类似于寄信。 无连接:知道对端的IP和端口号就直接进行传输,不需要建立连接。不可靠:没有确认机制,没有重传机制&am…

钉钉h5微应用调试 整理

钉钉 H5微应用整理 1.申请H5微应用2.登录3.调试 1.申请H5微应用 https://open.dingtalk.com/ 登录钉钉开发平台。 应用appId、CorpId都可以在网站上自行查找 应用首页地址(指手机端显示地址) pc端首页地址(指电脑端显示地址) 我这…

工业交换机常见的故障有哪些?

通常情况下,工业交换机出现故障可以分为两类:软件性能故障和硬件物理故障。软性能故障通常指工业交换机在研发设计阶段出现的问题。 物理层故障主要指交换机本身的硬件故障以及连接交换机的物理线路故障。安防专用工业交换机的交换是根据通信双方传输信…

基于遗传算法解决的多仓库多旅行推销员问题(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

NSS [HXPCTF 2021]includer‘s revenge

NSS [HXPCTF 2021]includer’s revenge 题目描述&#xff1a;Just sitting here and waiting for PHP 8.1 (lolphp). 题目源码&#xff1a;&#xff08;index.php&#xff09; <?php ($_GET[action] ?? read ) read ? readfile($_GET[file] ?? index.php) : inclu…

【TCP】三次握手 与 四次挥手 详解

三次握手 与 四次挥手 1. 三次握手2. 四次挥手三次握手和四次挥手的区别 在正常情况下&#xff0c;TCP 要经过三次握手建立连接&#xff0c;四次挥手断开连接 1. 三次握手 服务端状态转化&#xff1a; [CLOSED -> LISTEN] 服务器端调用 listen 后进入 LISTEN 状态&#xff…

基于Xilinx UltraScale+ MPSOC(ZU9EG/ZU15EG)的高性能PCIe数据预处理平台

PCIE707是一款基于PCIE总线架构的高性能数据预处理FMC载板&#xff0c;板卡具有1个FMC&#xff08;HPC&#xff09;接口&#xff0c;1路PCIe x4主机接口、1个RJ45千兆以太网口、2个QSFP 40G光纤接口。板卡采用Xilinx的高性能UltraScale MPSOC系列FPGA作为实时处理器&#xff0c…

工具篇 | WSL使用入门教程以及基于WSL和natApp内网穿透实践 - 对比VMWare

介绍 在开发工具中&#xff0c;Windows Subsystem for Linux (WSL) 和 VMWare 它们都可以实现了在 Windows 上运行 Linux系统。 文章概览 WSL Vs VMWare 我们将简单比对 WSL 和 VMWare&#xff0c;在性能、资源消耗等方面的差异&#xff0c;以协助您做出更加明确的选择。 …

ATA-8000系列射频功率放大器——应用场景介绍

ATA-8000系列是一款射频功率放大器。其P1dB输出功率500W&#xff0c;饱和输出功率最大1000W。增益数控可调&#xff0c;一键保存设置&#xff0c;提供了方便简洁的操作选择&#xff0c;可与主流的信号发生器配套使用&#xff0c;实现射频信号的放大。 图&#xff1a;ATA-8000系…

Android 编译插桩操纵字节码

本文讲解如何编译插桩操纵字节码。 就使用 ASM 来实现简单的编译插桩效果&#xff0c;通过插桩实现在每一个 Activity 打开时输出相应的 log 日志。实现思路 过程主要包含两步&#xff1a; 1、遍历项目中所有的 .class 文件​ 如何找到项目中编译生成的所有 .class 文件&#…

基于C#的AE二次开发之IQueryFilter接口、ISpatialFilter接口、IQueryDef 接口的查询接口的介绍

一、开发环境 开发环境为ArcGIS Engine 10.2与Visual studio2010。在使用ArcEngine查询进行查询的时候主要使用三种查询接口IQueryFilter&#xff08;属性查询&#xff09; 、ISpatialFilter&#xff08;空间查询&#xff09; 、IQueryDef &#xff08;多表查询&#xff09; 那…

leetcode 133. 克隆图

leetcode 133. 克隆图 给你无向 连通 图中一个节点的引用&#xff0c;请你返回该图的 深拷贝&#xff08;克隆&#xff09;。 图中的每个节点都包含它的值 val&#xff08;int&#xff09; 和其邻居的列表&#xff08;list[Node]&#xff09;。 class Node { public int val;…

PHP自动识别采集何意网址文章正文内容

在做PHP采集内容时&#xff0c;用过querylist采集组件&#xff0c;但是这个插件采集页面内容时&#xff0c;都必须要写个采集选择器。这样比较麻烦&#xff0c;每个文章页面都必须指定一条采集规则 。就开始着手找一个插件可以能自动识别任意文章url正文内容并采集的&#xff0…

小黑下班品尝网红团结湖四川麻辣烫,吃的特别撑,支付宝抽到3元红包,耳机找到,开始接触强化学习的leetcode之旅:LCR 188. 买卖芯片的最佳时机

小黑代码 class Solution:def bestTiming(self, prices: List[int]) -> int:# 数组长度n len(prices)if n < 2:return 0# 结果变量profit 0# 记录第i天之前的股票价格最小值min_ prices[0]for i in range(1, n):if prices[i]-min_ > profit:profit prices[i]-min…

简易磁盘自动监控服务

本文旨在利用crontab定时任务(脚本请参考附件)来监控单个服务节点上所有磁盘使用情况&#xff0c;一旦超过既定阈值则会通过邮件形式告警相关利益人及时介入处理。 1. 开启SMTP服务 为了能够成功接收告警信息&#xff0c;需要邮件接收客户都安开启SMTP服务。简要流程请参考下…

Fortinet 2023上半年全球威胁态势研究报告:勒索软件检测成下降趋势,针对性攻击持续升温

近日&#xff0c;专注于推动网络与安全融合的全球网络安全领导者Fortinet&#xff08;NASDAQ&#xff1a;FTNT&#xff09;&#xff0c;发布《2023上半年全球威胁态势研究报告》。报告显示&#xff0c;2023 年上半年勒索软件检出数量继续下降、高级持续性威胁&#xff08;APT&a…