一个小技巧轻松提升量化精度!IntactKV:保持关键词元无损的大语言模型量化方法

目录

  • 摘要
  • 关键词元(Pivot Tokens)
  • 方法概述
  • 实验验证
    • 1. 权重量化
    • 2. KV Cache 量化
    • 3. 权重和激活值量化
  • 参考文献

本文介绍我们针对大语言模型量化的工作 IntactKV,可以作为插件有效提升 GPTQ、AWQ、QuaRot 等现有主流量化方法效果。论文作者来自清华大学、华为诺亚、中科院自动化所和香港中文大学。论文代码已经开源,欢迎大家使用!

  • 论文链接:IntactKV: Improving Large Language Model Quantization by Keeping Pivot Tokens Intact
  • 开源代码:https://github.com/ruikangliu/IntactKV

在这里插入图片描述

摘要

  • 大语言模型(LLM)在自然语言处理的各项任务上都取得了出色的表现,但其庞大的参数量也给实际部署带来了新的挑战。模型量化是一种常用的模型压缩方法,可以通过将模型权重和激活值压缩到低比特来有效降低模型推理时的算力和内存开销,然而量化往往伴随着模型的精度损失。对此,我们提出了一种新的量化方法 IntactKV。我们发现 LLM 中存在关键词元(pivot tokens),这些关键词元的表征上存在极大的离群值,这会导致模型将大量自注意力得分分配到这些词元上,而模型量化会使得这些关键词元表征受损,严重损害了量化模型精度。IntactKV 通过预先缓存关键词元的无损 KV cache 来保证量化模型中关键词元表征无损,理论推导证明这能有效降低模型的量化误差上界。此外,缓存的无损 KV cache 还可以作为模型的额外参数做进一步校准,进一步弥补量化误差
  • IntactKV 实现简单并且与 GPTQ[1]、AWQ[2]、QuaRot[3] 等当前主流的 LLM 量化方法正交,实验表明,IntactKV 可以作为插件有效提升现有量化模型精度,同时不会带来额外的推理开销,在权重量化和权重激活值量化上均取得了当前的 SOTA 精度

图1 IntactKV示意图

关键词元(Pivot Tokens)

  • 现有研究[3][4][5]发现,LLM 激活值的特定通道上存在离群值,这些离群值往往出现在所有词元的激活值上,使得 LLM 的激活值难以量化。而我们发现 LLM 中还存在另一种特殊的离群值,如图 2 所示,它只存在于 LLM 输入的首词元 [BOS] 以及开头的一些特定词元上(如 “,”、“.” 等标点符号),并且这类离群值比特定通道上的离群值还要大得多。更为重要的是,这类特定词元上的离群值会导致 LLM 将大量的自注意力得分分配到这些词元上,形成 Attention Sink[6],因此我们将这些特定词元称为关键词元(pivot tokens)。由于汇聚了大量自注意力得分,关键词元的表征对 LLM 来说至关重要。类似的现象也在同期工作 Massive Activations[7] 中被发现并得到了更为细致的研究。然而,还没有其他研究针对这一现象对于量化模型的影响做深入探索

图2 关键词元示意图

方法概述

  • 我们发现,模型量化会不可避免地导致关键词元表征受损,进而严重影响模型精度,因此如果能保证关键词元的表征,也就是其 KV cache 无损,就能有效降低量化误差。为此,我们提出使用 IntactKV — 先使用全精度模型生成关键词元的无损 KV cache 并将其缓存下来(i.e., IntactKV),量化模型在推理时就能直接使用无损的关键词元表征,从而有效提升量化模型精度。如图 3 所示,IntactKV 包含了从首词元 [BOS] 开始的若干词元,随着 IntactKV 包含词元数的增加,量化误差也不断降低,尤其是当 IntactKV 包含关键词元时,量化误差会得到明显下降,这也进一步验证了关键词元的重要性
    图3 保证关键词元表征无损能有效降低量化误差
  • 然而,模型在每次推理时的输入序列各不相同,这意味着我们并不能使用任意长度的 IntactKV,否则在每次量化模型推理前都必须调用全精度模型来生成对应输入的 IntactKV,这会带来额外的推理开销。对此,我们利用了 LLM 推理时的公共前缀,如果 IntactKV 只包含公共前缀,那么全精度模型在生成 IntactKV 后就可以被释放,不会给之后量化模型的推理带来任何额外开销。对于预训练 LLM,输入序列前一般都会加上 [BOS] 词元作为公共前缀,因此可以使用只包含 [BOS] 词元的长度为 1 的 IntactKV,称为 IntactKV_[B]。如图 3 所示,由于首词元总为关键词元,因此使用 IntactKV_[B] 就可以明显地降低量化误差。而对于 SFT 模型,输入序列前一般会包含一段系统提示词作为公共前缀,因此可以使用长度为系统提示词的 IntactKV,称为 IntactKV_[P]。由于使用了更长的 IntactKV,IntactKV_[P] 能覆盖更多关键词元,进一步降低量化误差。我们在实验中发现,对于 Vicuna 模型,长度为 34 的系统提示词就足以覆盖全部关键词元
  • 此外,缓存的 IntactKV 还可以作为模型的额外参数做校准来进一步弥补量化误差。具体来说,我们在大小为128的校准集上做了轻量化训练,可学习参数仅为缓存下来的 IntactKV,损失函数采用量化模型和全精度模型输出的 MSE loss:
    L ( Θ ) = 1 2 ∑ l = 1 L ∥ f l ( w , x ) − f l ( w ^ , x ; Θ ) ∥ 2 2 \mathcal L(\Theta)=\frac{1}{2}\sum_{l=1}^L\|f_l(\mathbf w, \mathbf x)-f_l(\hat{\mathbf w}, \mathbf x; \Theta)\|_2^2 L(Θ)=21l=1Lfl(w,x)fl(w^,x;Θ)22其中, Θ \Theta Θ 为 IntactKV, f l f_l fl 为第 l l l 个 Transformer 层的映射函数, L L L 为 LLM 中 Transformer 层的层数, x \mathbf x x 为输入激活值, w , w ^ \mathbf w,\hat{\mathbf w} w,w^ 分别为全精度权重和量化权重

实验验证

1. 权重量化

  • 我们首先在 PPL 任务上进行了实验。如表 1 所示,IntactKV 能很好地与 GPTQ、OmniQuant、AWQ 等主流量化方法结合,无需任何训练或额外推理开销即可在 LLaMA 系列的各种不同模型上有效提升量化模型精度,其中 AWQ+IntactKV 在各个模型上都达到了最优效果
    表1 权重量化 PPL 任务实验结果
  • 我们基于 Vicuna 模型,在 MMLU 和 QA 任务上做了进一步实验。如表 2 所示,实验结论与 PPL 任务基本一致
    表2 权重量化 MMLU 和 QA 任务实验结果
  • 我们对量化模型的生成质量也进行了评估,通过 GPT-4 对模型生成回答进行打分来衡量量化模型的生成能力。如表 3 所示,IntactKV_[P] 已经能明显提升量化模型的回复得分,对 IntactKV 的轻量化校准则进一步提升了模型的回复质量
    表3 权重量化MT-bench任务实验结果

2. KV Cache 量化

  • 为了将 IntactKV 用于 KV cache 量化,我们采用混合精度量化策略,将 IntactKV 保存为全精度,其余 KV cache 量化到低比特。对于 KV cache 量化,由于模型仍然需要先将量化的 KV cache 反量化为全精度才能进行自注意力计算,因此上述混合精度方案在推理时只需要将 IntactKV 和反量化后的 KV cache 重新拼接到一起即可,并不会带来额外的推理开销。如图 4 所示,IntactKV 在不同的量化比特设置下均可以有效提升 AWQ 量化模型精度,尤其是在低比特时提升更加明显。目前,IntactKV 已经被集成到了 SOTA KV cache 量化方法 KVQuant[8] 中
    图4 权重和 KV Cache 量化 MMLU 任务实验结果

3. 权重和激活值量化

  • 对于权重激活值量化,KV cache 需要全部量化到低比特才能有效利用低比特矩阵乘进行运算加速。我们发现,关键词元的 KV cache 表征明显比其余 KV cache 表征更加平坦,就算直接将 IntactKV 量化到低比特也只会带来极少的精度损失,因此对于激活值量化,我们选择将 IntactKV 进一步压缩到低比特以免引入额外的推理开销。如表 4 所示,IntactKV 能有效提升当前SOTA量化方法精度,进一步缩小了 W4A4 量化模型与原始模型间的精度损失
    表4 权重和激活值量化 PPL 任务实验结果

参考文献

  • [1] Frantar, Elias, et al. “OPTQ: Accurate quantization for generative pre-trained transformers.” The Eleventh International Conference on Learning Representations. 2022.
  • [2] Lin, Ji, et al. “Awq: Activation-aware weight quantization for llm compression and acceleration.” arXiv preprint arXiv:2306.00978 (2023).
  • [3] Ashkboos, Saleh, et al. “Quarot: Outlier-free 4-bit inference in rotated llms.” arXiv preprint arXiv:2404.00456 (2024).
  • [4] Dettmers, Tim, et al. “Gpt3. int8 (): 8-bit matrix multiplication for transformers at scale.” Advances in Neural Information Processing Systems 35 (2022): 30318-30332.
  • [5] Xiao, Guangxuan, et al. “Smoothquant: Accurate and efficient post-training quantization for large language models.” International Conference on Machine Learning. PMLR, 2023.
  • [6] Xiao, Guangxuan, et al. “Efficient Streaming Language Models with Attention Sinks.” The Twelfth International Conference on Learning Representations. 2023.
  • [7] Sun, Mingjie, et al. “Massive Activations in Large Language Models.” arXiv preprint arXiv:2402.17762 (2024).
  • [8] Hooper, Coleman, et al. “KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization.” arXiv preprint arXiv:2401.18079 (2024).

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/19237.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

海外社媒账号如何运营安全稳定?

由于设备与网络原因,通常一个海外社媒账号尤其是多账号的稳定性都有一定限制,错误的操作或者网络都可能使得账号被封,前功尽弃。本文将为大家讲解如何通过IP代理来维持账号稳定与安全,助力海外社媒矩阵的搭建。 一、社媒账号关联…

深入理解计算机系统 家庭作业4.52

练习题4.3 p.254 \sim\seq\seq-full.hcl文件内已经说的很清楚了哪些不能更改,哪些是题目要求更改的控制逻辑块. 依据家庭作业4.51的答案,在seq-full.hcl文件内更改对应的HCL描述即可 以下答案注释了#changed的就是更改部分 #/* $begin seq-all-hcl */ ######################…

Redis 中 Set 数据结构详解

用法 Redis 中的 Set 是一个无序,不重复集合(里面的元素为字符串),支持常用的集合操作。 常见命令 1. 增 添加一个或多个元素到 set 中 SADD key member [ member ... ] 返回值: 添加成功的元素个数 将一个元素移到…

数据结构(1):线性表

1 线性表的顺序实现 创建的新项目是cpp类型哦&#xff01; 1.1 初始化 1.1.1 静态分配 #define _CRT_SECURE_NO_WARNINGS#include <stdio.h> #define MaxSize 10 //定义顺序表的长度 typedef struct {int data[MaxSize];//用静态的数组存放元素&#xff01;int lengt…

【UE5.1 角色练习】08-物体抬升、抛出技能 - part2

目录 前言 效果 步骤 一、让物体缓慢的飞向手掌 二、向着鼠标方向发射物体 前言 在上一篇&#xff08;【UE5.1 角色练习】08-物体抬升、抛出技能 - part1&#xff09;的基础上继续完成角色将物体吸向手掌&#xff0c;然后通过鼠标点击的方向来发射物体的功能。 效果 步骤…

【Linux 网络编程】网络的基础知识详解!

文章目录 1. 计算机网络背景2. 认识 "协议" 1. 计算机网络背景 网络互联: 多台计算机连接在一起, 完成数据共享; &#x1f34e;局域网&#xff08;LAN----Local Area Network&#xff09;: 计算机数量更多了, 通过交换机和路由器连接。 &#x1f34e; 广域网WAN: 将…

uniapp通过Canvas绘制网格(心电图,坐标纸等可用)

本篇文档是Canvas绘制心电图的第一个部分&#xff0c;想了解详情的可以关注后学习交流。 心电图的最底层需要一个网状底层&#xff0c;来方便进行数据的测量。 一、白底分大、中、小三个区域的网格 1、首先是HTML部分 <!DOCTYPE html> <html lang"en">…

【贪心算法】C++解决回文串、增减字符串匹配、分发饼干、跳跃游戏、加油站问题

1. 前言 贪心算法&#xff08;Greedy Algorithm&#xff09;是一种在每一步选择中都采取当前状态下最优决策的算法。贪心算法通常用来解决最优化问题&#xff0c;其核心思想是通过局部最优解逐步推导出全局最优解。 在贪心算法中&#xff0c;我们并不总是考虑到未来可能发生的…

代理注册湖北武汉投资管理公司流程和条件

我公司代理注册湖北武汉投资管理公司&#xff0c;现在大家都知道全国的投资管理公司已经停批了&#xff0c;很多需要收购的老板都是通过收购现成的投资管理公司经营的&#xff0c;现在我告诉大家一个好消息&#xff0c;我们有渠道办理湖北武汉资产管理公司&#xff0c;详情致电…

521源码-免费源码下载-免费学习网站教程-宝塔面板ssl网站证书到期后弹出无法续期错误提示

宝塔面板如果从老版本升级到8.10后&#xff0c;当点站证书过期续期时会弹出错误&#xff1a; 排查文件是找不到问题出在哪里&#xff0c;导致续期错误。 解决办法&#xff1a;通过摸索&#xff0c;最简单的就是删除站点&#xff0c;注意&#xff1a;只是删除&#xff0c;不是把…

亚马逊VC账号产品热销,在美国哪些智能小家电产品最好卖?

亚马逊VC账号产品在美国市场的热销&#xff0c;反映了消费者对于特定智能小家电产品的强烈需求。智能小家电产品因其实用性、便捷性和科技感&#xff0c;近年来在美国市场备受追捧。 以下是一些在亚马逊VC账号上热销的智能小家电产品&#xff1a; 智能扫地机器人 这类产品在美…

[vue3后台管理一]vue3下载安装及环境配置教程

[vue3后台管理二]vue3下载安装element plus 一、vue3下载安装element plus cnpm install element plus二&#xff1a;修改main.js import { createApp } from "vue"; import App from "./App.vue"; import ElementPlus from "element-plus"; …

JAVA:Random详解

Java中的java.util.Random类用于生成伪随机数。它提供了多种方法来生成不同类型的随机数&#xff0c;包括整数、浮点数和布尔值。以下是对Random类及其主要方法的详细介绍 一、生成随机数 创建一个Random对象&#xff0c;可以使用以下两种方式&#xff1a; 无参构造函数&…

建议大家少用点儿网站测速工具

春节休息期间明月有接了几个服务器代运维的业务&#xff0c;期间就发现不少新手站长们还在用 17ce、站长工具等等这些网站测速工具来评判站点访问速度的&#xff0c;感觉很有必要给大家聊聊这个事儿&#xff0c;因为这毕竟也是一个涉及服务器安全的一个重要环节了。 其实&#…

那些不起眼但很好玩的API合辑

那些不起眼但很好玩的API&#xff0c;为我们带来了许多出人意料的乐趣和惊喜。这些API可能看起来并不起眼&#xff0c;但它们却蕴含着无限的创意和趣味性。它们可以是一些小游戏API&#xff0c;让我们可以在闲暇时刻尽情娱乐&#xff1b;也可以是一些奇特的音乐API&#xff0c;…

【后端开发】服务开发场景之分布式(CAP,Raft,Gossip | API网关,分布式ID与锁 | RPC,Dubbo,Zookeeper)

【后端开发】服务开发场景之分布式&#xff08;CAP&#xff0c;Raft&#xff0c;Gossip | API网关&#xff0c;分布式ID与锁 | RPC&#xff0c;Dubbo&#xff0c;Zookeeper&#xff09; 文章目录 1、如何设计一个分布式系统&#xff1f;&#xff08;底层原理&#xff09;理论&a…

怎样清理Mac存储空间 苹果电脑内存不够用怎么办 苹果电脑内存满了怎么清理

在使用 Mac 电脑的过程中&#xff0c;用户经常会遇到磁盘空间不足的困扰&#xff0c;这时候就需要寻找有效的方法来清理苹果电脑内存了。 清理Mac存储空间可以通过多种方法进行&#xff0c;以确保你的Mac能够高效运行并释放宝贵的存储空间。以下是一些有效的清理和优化方法&am…

数据结构和算法|排序算法系列(一)|选择排序

首先需要你对排序算法的评价维度和一个理想排序算法应该是什么样的有一个基本的认知&#xff1a; 《Hello算法之排序算法》 主要内容来自&#xff1a;Hello算法11.2 选择排序 选择排序是明显的基于比较的排序。下文开始阐述选择排序的整个算法流程 算法流程 选择排序应该已…

一致性hash算法原理图和负载均衡原理-urlhash与least_conn案例

一. 一致性hash算法原理图 4台服务器计算hash值图解 减少一台服务3台服务器计算hash值图解 增加一台服务器5台服务器计算hash值图解 二. 负载均衡原理-urlhash与least_conn 2.1.urlhash案例 # urlhash upstream tomcats {hash $requ

MySQL的安全性

给root用户设置密码 点击用户--下面三个账号双击--进行编辑 修改密码--修改完进行保存 关闭数据库后连接不上 重新编辑&#xff0c;设置密码 新建账号 填入信息--保存&#xff08;主机哪里要选择%&#xff09; 连接这个新的账号 点击连接--填写连接的名称&#xff0c;地址&…