如何学习大型语言模型中的量化

前言

图片来自作者:Flow 展示了量化的必要性。(笑脸和生气脸图片来自Yan Krukau)


在我解释上面的图表之前,让我先介绍一下您将在本文中学习的重点内容。

  1. 首先,您将了解量化是什么以及为什么量化。
  2. 接下来,您将深入了解如何通过一些简单的数学推导来实现量化。
  3. 最后,我们将在 PyTorch 中一起编写一些代码来执行 LLM 权重参数的量化和反量化

让我们一起来一一解开吧。


1. 什么是量化?为什么需要它?

量化是一种将较大尺寸的模型(LLM 或任何深度学习模型)压缩为较小尺寸的方法。量化的主要目的是量化模型的权重参数和激活。让我们进行一个简单的模型大小计算来验证我们的陈述。

作者提供的图片:左图:以 GB 为单位的基本模型大小计算,右图:以 GB 为单位的量化模型大小计算


在上图中,基础模型 Llama 3 8B 的大小为 32 GB。经过 Int 8 量化后,大小减小到 8Gb(减少了 75%)。通过 Int4 量化,大小进一步减小到 4GB(减少了约 90%)。这是模型大小的大幅减少。这确实很神奇!不是吗?这要归功于量化论文的作者,我对数学的力量深表赞赏。

现在您已经了解了什么是量化,让我们继续讨论为什么。

让我们看一下图 1,作为一名有抱负的 AI 研究人员、开发人员或架构师,如果您想对数据集或推理执行模型微调,很可能由于内存和处理器的限制,您将无法在机器或移动设备上执行此操作。

可能和我一样,您也会像选项 1b 一样怒气冲冲。这将我们带到了选项 1a,您可以让云提供商为您提供所需的所有资源,并且可以轻松地使用任何您想要的模型完成任何任务。

但这会花费您很多钱。如果你能负担得起,那就太好了。但如果您的预算有限,好消息是您还有选项 2 可用。在这里,您可以执行量化方法来减小模型的大小并方便地在您的用例中使用它。如果您的量化做得好,您将获得与原始模型大致相同的准确度。

注意:如果您想将模型投入生产,一旦您在本地机器上对模型完成微调或其他任务,我建议您将模型托管在云中,以便为您的客户提供可靠、可扩展和安全的服务。ParagogerAI训练营 2img.ai

2. 量化是如何实现的?一个简单的数学推导。

从技术上讲,量化将模型的权重值从较高精度(例如 FP32)映射到较低精度(例如 FP16|BF16|INT8)。虽然有许多量化方法可用,但在本文中,我们将学习一种广泛使用的量化方法,即线性量化方法。线性量化有两种模式:A.非对称量化B.对称量化。我们将逐一了解这两种方法。

A.非对称线性量化:非对称量化方法 将原始张量范围(Wmin,Wmax)中的值映射到量化张量范围(Qmin,Qmax)中的值。

作者图片:非对称线性量化


  • Wmin、Wmax:原始张量的最小值和最大值(数据类型:FP32,32 位浮点数)。大多数现代 LLM 中权重张量的默认数据类型为 FP32。
  • Qmin、Qmax:量化张量的最小值和最大值(数据类型:INT8,8 位整数)。我们还可以选择其他数据类型(如 INT4、INT8、FP16 和 BF16)进行量化。我们将在示例中使用 INT 8。
  • 比例值(S):在量化过程中,比例值会缩小原始张量的值,得到量化张量。在反量化过程中,比例值会放大量化张量的值,得到反量化值。比例值的数据类型与原始张量相同,均为 FP32。
  • 零点 (Z):零点是量化张量范围内的非零值,直接映射到原始张量范围内的值0。零点的数据类型为 INT8,因为它位于量化张量范围内。
  • 量化:图表的“ A ”部分显示了量化过程,将 [Wmin, Wmax] 映射到 [Qmin, Qmax]。
  • 反量化:图的“B”部分显示了反量化过程,该过程映射 [Qmin, Qmax] -> [Wmin, Wmax]。

那么,我们如何从原始张量值导出量化张量值呢?这很简单。如果你还记得高中数学,你可以轻松地理解下面的推导。让我们一步一步来(我建议你在推导方程时参考上面的图表,以便更清楚地理解)。

我知道你们中的许多人可能不想经历下面的数学推导。但相信我,它肯定会帮助你理清概念,并在后期为量化编码时节省大量时间。我在研究这个问题时也有同样的感受。




  • 潜在问题 1:如果 Z 的值超出范围该怎么办?解决方案:使用简单的 if-else 逻辑,如果 Z 的值小于 Qmin,则将其更改为 Qmin;如果 Z 的值大于 Qmax,则将其更改为 Qmax。下图 4 中的图 A 对此进行了很好的描述。
  • 潜在问题 2:如果 Q 值超出范围该怎么办?解决方案:在 PyTorch 中,有一个名为clamp 的函数,它会调整值以保持在特定范围内(在我们的示例中为 -128, 127)。因此,如果 Q 值低于 Qmin,则 clamp 函数会将 Q 值调整为 Qmin;如果 Q 值高于 Qmax,则将 Q 值调整为 Qmax。问题解决了,让我们继续。

作者的图片:零点和量化张量超出范围


附注:对于 INT8(有符号整数数据类型),量化张量值的范围为 (-128, 127)。如果量化张量值的数据类型为 UINT8(无符号整数),则范围为 (0, 255)。

B. 对称线性量化:在对称方法中,原始张量范围中的 0 点映射到量化张量范围中的 0 点。因此,这被称为对称。由于 0 在范围的两侧都映射到 0,因此对称量化中没有 Z(零点)。整体映射发生在原始张量范围的 (-Wmax, Wmax) 和量化张量范围的 (-Qmax, Qmax) 之间。下图显示了量化和去量化情况下的对称映射。

作者图片:对称线性量化

由于我们已经定义了非对称段中的所有参数,因此这里也同样适用。让我们进入对称量化的数学推导。

非对称量化和对称量化之间的区别:


现在您已经了解了线性量化是什么、为什么和如何,这将引导我们进入文章的最后一部分,即编码部分。ParagogerAI训练营 2img.ai

3. 在PyTorch中编写代码来执行LLM权重参数的量化和反量化。

正如我之前提到的,量化也可以在模型的权重、参数和激活上进行。但是,为了简单起见,我们将在编码示例中仅量化权重参数。在开始编码之前,让我们快速看一下 Transformer 模型中量化后权重参数值的变化情况。我相信这会让我们的理解更加清晰。

作者提供的图片:Transformer 架构中权重参数的量化


当我们仅对 16 个原始权重参数从 FP32 量化到 INT8 后,内存占用就从 512 位减少到了 128 位(减少了 25%)。这证明对于大模型的情况,减少会更加显著。

下面,您可以看到 FP32、Signed INT8 和 Unsigned UINT8 等数据类型在实际内存中的分布。我已经以 2 的补码进行了实际计算。您可以自行练习计算并验证结果。

作者提供的图片:FP32、INT8、UINT8 数据类型分布及计算示例


现在,我们已经介绍了开始编码所需的一切。我建议您继续学习以熟悉推导。

A.非对称量化代码:我们一步一步来编码。

步骤 1:我们首先为原始权重张量分配随机值(大小:4x4,数据类型:FP32)# !pip install torch; 如果尚未安装 torch 库,请先安装
# import torch library
import torch

original_weight = torch.randn(( 4 , 4 ))
print (original_weight)


FP32 中的 original_weight 张量


第 2 步:我们将定义两个函数,一个用于量化,另一个用于反量化。def asymmetric_quantization(original_weight):
# define the data type that you want to quantize. In our example, it's INT8.
quantized_data_type = torch.int8

# Get the Wmax and Wmin value from the orginal weight which is in FP32.
Wmax = original_weight.max().item()
Wmin = original_weight.min().item()

# Get the Qmax and Qmin value from the quantized data type.
Qmax = torch.iinfo(quantized_data_type).max
Qmin = torch.iinfo(quantized_data_type).min

# Calculate the scale value using the scale formula. Datatype - FP32.
# Please refer to math section of this post if you want to find out how the formula has been derived.
S = (Wmax - Wmin)/(Qmax - Qmin)

# Calculate the zero point value using the zero point formula. Datatype - INT8.
# Please refer to math section of this post if you want to find out how the formula has been derived.
Z = Qmin - (Wmin/S)
# Check if the Z value is out of range.
if Z < Qmin:
Z = Qmin
elif Z > Qmax:
Z = Qmax
else:
# Zero point datatype should be INT8 same as the Quantized value.
Z = int(round(Z))

# We have original_weight, scale and zero_point, now we can calculate the quantized weight using the formula we've derived in math section.
quantized_weight = (original_weight/S) + Z

# We'll also round it and also use the torch clamp function to ensure the quantized weight doesn't goes out of range and should remain within Qmin and Qmax.
quantized_weight = torch.clamp(torch.round(quantized_weight), Qmin, Qmax)

# finally cast the datatype to INT8.
quantized_weight = quantized_weight.to(quantized_data_type)

# return the final quantized weight.
return quantized_weight, S, Z

def asymmetric_dequantization(quantized_weight, scale, zero_point):
# Use the dequantization calculation formula derived in the math section of this post.
# Also make sure to convert quantized_weight to float as substraction between two INT8 values (quantized_weight and zero_point) will give unwanted result.
dequantized_weight = scale * (quantized_weight.to(torch.float32) - zero_point)

return dequantized_weight


步骤 3:我们将通过调用asymmetric_quantization函数来计算量化权重、比例和零点。您可以在下面的屏幕截图中看到输出结果,请注意,quantized_weight 的数据类型为 int8,scale 为 FP32,zero_point 为 INT8。quantized_weight, scale, zero_point = asymmetric_quantization(original_weight)
print(f"quantized weight: {quantized_weight}")
print("\n")
print(f"scale: {scale}")
print("\n")
print(f"zero point: {zero_point}")


量化的重量、尺度和零点值


步骤 4:现在我们已经有了量化权重、比例和零点的所有值。让我们通过调用 asymmetric_dequantization 函数来获取反量化权重值。请注意,反量化权重值为 FP32。dequantized_weight = asymmetric_dequantization(quantized_weight, scale, zero_point)
打印(dequantized_weight)

去量化权重值


步骤5:让我们通过计算它们之间的量化误差来找出最终的去量化权重值与原始权重张量相比的准确度。quantization_error = (dequantized_weight - original_weight).square().mean()
print(quantization_error)

输出结果:quantization_error 少了很多。因此,我们可以说非对称量化方法做得很好。


B. 对称量化代码:我们将使用与非对称方法相同的代码。对称方法唯一需要做的改变是始终确保 zero_input 的值为 0。这是因为在对称量化中,zero_input 值始终映射到原始权重张量中的 0 值。我们无需编写额外代码即可继续操作。



就这样!

我们到了这篇文章的结尾。我希望这篇文章能帮助你对量化建立坚实的直觉,并清楚地理解数学推导部分。

我最后的想法是……

  • 在这篇文章中,我们涵盖了参与任何 LLM 或深度学习量化相关任务所需的所有必要主题。
  • 虽然,我们已经成功地对权重张量进行了量化,并且也取得了良好的精度。在大多数情况下,这已经足够了。但是,如果你想对更大的模型应用更高精度的量化,你需要执行通道量化(量化权重矩阵的每一行或列)或组量化(在行或列中分成更小的组并分别量化它们)。这些技术更复杂。我将在即将发布ParagogerAI训练营 2img.ai中介绍它们。

欢迎你分享你的作品到我们的平台上. http://www.shxcj.com 或者 www.2img.ai 让更多的人看到你的才华。

创作不易,觉得不错的话,点个赞吧!!!


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/40338.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

回文数(leetcode)

题目描述&#xff1a; 给你一个整数 x &#xff0c;如果 x 是一个回文整数&#xff0c;返回 true &#xff1b;否则&#xff0c;返回 false 。 回文数 是指正序&#xff08;从左向右&#xff09;和倒序&#xff08;从右向左&#xff09;读都是一样的整数。 示例&#xff1a; …

the problem when using langchain chat openai model and crewai same llm models

题意&#xff1a; when i am using langchain chat openai model and invoking method its working but when using in crewai same llm models it gives invalid api key 当你提到在使用 langchain 的 chatopenai 模型并调用方法时一切正常&#xff0c;但在 crewai 中使用相…

MySQL中使用PROFILING来查看SQL执行流程

在MySQL中&#xff0c;PROFILING功能提供了一种方式来分析SQL语句的执行时间&#xff0c;包括查询执行的各个阶段&#xff0c;如发送、解析、优化、执行等。这对于诊断性能问题非常有用。然而&#xff0c;需要注意的是&#xff0c;从MySQL 5.7.7版本开始&#xff0c;PROFILING功…

Java 线程池之FixedThreadPool

引言 在并发编程中&#xff0c;线程池是一种常用的资源管理模式&#xff0c;用于限制并发线程的数量&#xff0c;优化系统性能和资源使用。Java 提供了多种类型的线程池&#xff0c;其中 FixedThreadPool 是一种固定大小的线程池&#xff0c;适用于需要固定数量线程执行任务的…

小程序 npm 支持

使用 npm 包 目前小程序已经支持使用 npm 安装第三方包&#xff0c;因为 node_modules 目录中的包不会参与小程序项目的编译、 上传和打包&#xff0c;因此在小程序 项目中要使用的 npm 包&#xff0c;必须走一遍构建 npm 的过程。在构建成功以后&#xff0c;默认 会在小程序目…

【keil5问题】keil5中突然debug调试不能全速运行的问题

1、问题现象&#xff1a; 原本的项目工程是正常debug单步调试&#xff0c;然后突然出现是点击左上角的run全速运行&#xff0c;也全速运行不了&#xff0c;出现如下图的情况&#xff0c;点一次一步走的现象 2、问题解决&#xff1a; 2-1、问题分析&#xff1a; 点击reset、…

关于pytorch的加载数据,cpu init, cpu getitem, gpu init

文章目录 一. (cpu,init)图像加载到CPU内存&#xff0c;是在 __init__中函数中全部数据, 然后在item中取图像二.(cpu,get_item)是图像在 get_item函数中&#xff0c;载入图像到CPU三(gpu,init)是将图像加载到GPU, 在init函数中 跑多光谱估计的代码&#xff0c;参考&#xff1a;…

如何使用 uni-app 快速集成聊天会话能力?

移动互联网时代&#xff0c;即时通讯&#xff08;IM&#xff09;功能是许多app不可或缺的一部分&#xff0c;然而在即时通讯app开发时&#xff0c;开发者常常面临着选择困难&#xff1a;是为每个平台单独开发应用&#xff0c;还是有限开发某个平台&#xff1f;uni-app的出现&am…

BLOB视频技术原理,如何将Blob视频转换为MP4格式?

BLOB视频的制作涉及将视频数据转换为二进制大对象&#xff08;BLOB&#xff09;格式&#xff0c;然后对其进行编码、分割、封装和传输。在目标设备上&#xff0c;BLOB数据被解析、解码和播放&#xff0c;同时可能需要进行实时的优化以适应播放条件。这种制作方式旨在提供一种高…

linux监控服务器磁盘、内存空间使用率到达90%发送邮件脚本

以下是一个使用Python编写的Linux监控服务器磁盘、内存空间使用率并在达到90%时发送邮件的脚本&#xff1a; import os import smtplib from email.mime.text import MIMEText from email.header import Header# 设置阈值 DISK_THRESHOLD 90 MEMORY_THRESHOLD 90# 获取磁盘使…

7月11日云技术研讨会 | 车载信息安全全流程实施方案

伴随着汽车的智能网联化发展&#xff0c;网络攻击也逐渐渗透漫延至汽车领域&#xff0c;汽车行业面临着重大的信息安全挑战。此外&#xff0c;UNECE WP.29 R155和ISO/SAE 21434等标准也对汽车的信息安全提出了规范化要求&#xff0c;旨在分阶段将产品全生命周期中由信息安全威胁…

中介子方程四十二

XXFXXuXXWXXuXXdXXrXXαXXuXpXXKXηXiXXnXXyXηXuXXrXXaXnXXαXLXyXXWXuXeXuXWXXyXLXαXXnXaXXrXXuXηXyXXnXXiXηXKXXpXuXXαXXrXXdXXuXWXπXXWXeXyXeXbXπXpXXNXXqXeXXrXXαXXuXpXXKXηXiXXnXXyXηXuXXrXXaXnXXαXLXyXXWXuXeXuXWXXyXLXαXXnXaXXrXXuXηXyXXnXXiXηXKXXpXuXXα…

JavaScript中的this指向

1. 全局环境下的this 在全局环境中&#xff08;在浏览器中是window对象&#xff0c;在Node.js中是global对象&#xff09;&#xff0c;this指向全局对象。 console.log(this window); // 在浏览器中为true console.log(this.document ! undefined); // true&#xff0c;因为…

opencv编译报错OpenCV does not recognize MSVC_VERSION “1940“

具体如下: CMake Warning at cmake/OpenCVDetectCXXCompiler.cmake:182 (message):OpenCV does not recognize MSVC_VERSION "1940". Cannot set OpenCV_RUNTIME Call Stack (most recent call first):CMakeLists.txt:174 (include) 打开源码\opencv\sources\cmak…

如何加密U盘?U盘加密软件推荐

U盘是我们最常用的移动存储设备&#xff0c;可以帮助我们随身携带大量数据。为了避免U盘数据泄露&#xff0c;我们需要加密保护U盘。那么&#xff0c;U盘该如何加密呢&#xff1f;下面小编就为大家推荐两款专业的U盘加密软件。 U盘超级加密3000 U盘超级加密3000是一款优秀的U盘…

大模型概述-定义/分类/训练/应用

大模型概述 随着时代的发展, 大模型各个领域的应用正在不断扩大. 本文尽力梳理各种材料, 将从概念定义, 类型分类, 训练以及应用等方面对大模型进行一个简要的概述. 如果你想了解大模型但是却缺乏基础的知识或者觉得无从下手, 那么阅读该文章可能对你有所帮助. 如果想了解更多…

react antd表格翻页时记录勾选状态

在Ant Design的React表格&#xff08;Table&#xff09;组件中&#xff0c;如果需要在翻页时记住勾选状态&#xff0c;可以通过以下步骤实现&#xff1a; 使用rowSelection属性来控制勾选状态&#xff0c;并添加preserveSelectedRowKeys: true以保留 key。 设置rowKey属性。 …

Django任意URL跳转漏洞(CVE-2018-14574)

目录 Django介绍 URL跳转漏洞介绍 Django任意URL跳转漏洞介绍 环境搭建 防御方法 前段时间在面试时&#xff0c;问到了URL跳转漏洞&#xff0c;我没有回答好&#xff0c;下午把URL跳转漏洞学习了&#xff0c;发现也不难&#xff0c;看来还需要学习的东西很多呀&#xff0c…

cadence symbol修改之一

cdaence virtuoso 复制cell&#xff0c;或者拷贝symbol之后&#xff0c;再次调用的时候&#xff0c;symbol还是跟随原来的cell名字 解决办法 打开对应的symbol 修改partName为 cellName

把前端打包放到Eladmin框架中运行

再resuorces目录创建static文件夹&#xff0c;然后把前端文件放进来 然后修改 ConfigurerAdapter文件&#xff0c;如下图所示 这样就可以通过ip端口/index.html 这样访问啦&#xff01;