KeyFormer：使用注意力分数压缩KV缓存

KeyFormer：使用注意力分数压缩KV缓存

pingmian/2025/7/13 4:37:25/文章来源:https://blog.csdn.net/qq_52024723/article/details/144510884

Keyformer: KV Cache Reduction through Key Tokens Selection for Efficient Generative Inference

202403，发表在Mlsys

Introduction

优化KV cache的策略，主要是集中在系统级别的优化上，比如FlashAttention、PagedAttention，它们能够优化KV缓存的访问，但是没有减少缓存的读取。即使有MQA、GQA这样，能够真正减少缓存访问量的技术，也是需要在预训练阶段就用上。

有些其他丢弃不重要KV的方式，比如滑动窗口（下图b），它会限制模型捕获全面语义的能力

基于某些token比其他token更有意义的观察，Keyformer提出了一种丢弃不重要token的KV的方式。下图是这种方法和其他方法的对比。

具体来说，观察到90%的注意力权重会集中到关键token的小子集上。这些token对于LLM理解上下文至关重要，但可能超出了滑动窗口注意力的范围。

Keyformer引入了一种混合注意力方法，如上图(d)所示，它在生成下一个token时结合了最近的token和前面的关键token。

实验表明，Keyformer在与H2O等方法相比，有显著改进。这是因为Keyformer在识别关键标记时考虑了被丢弃标记的重要性，而不同于H2O仅基于注意力分数来识别“重头标记”。这句话有点难懂，还看不出来和H2O相比有什么优势

具体步骤

在生成过程中，Keyformer 会在prefill阶段丢弃掉 n - k 个 token，保持 k 个 token 用于后续处理，从而避免显存的过度扩展。
为了适应丢弃 token 后可能出现的挑战，Keyformer 引入了logits 正则化，即通过向未归一化的 logits 添加噪声来增强模型的鲁棒性。这可以帮助模型在推理时识别关键的 token，即使某些上下文信息缺失。
Keyformer 选择使用 Gumbel 分布 来进行 logits 调整。Gumbel 分布有一个很好的特性，即它倾向于描述一组样本中的最大值，因此非常适合用于识别关键 token。也就是给归一化前的logits添加Gumbel分布的噪声。
Keyformer有一个大小为w的滑动窗口，用于保留最近的w个token。因此每次decode用到的KV就是k-w个关键token的KV和w个最近token的KV
针对每一个token，有一个分数函数：

其中是温度，和解码采样一样，温度越高越平均，温度越低越不平均；是Gumbel噪声；就是token的注意力分数。这个分数函数用来衡量token对当前解码的重要程度
这个注意力分数每次decode都累积

这个方法需要在显存中一直保存所有的KV缓存，只不过是在计算时只取部分缓存。没有减少显存占用，但减少了访存和计算。

实验部分

baseline：以full attention作为golden标准，目标是达到它的99%-99.9%；以滑动窗口注意力和H2O这两种方法进行比较。

实验从两个方面进行比较，一个是使用了多少比例的KV缓存，能够达到可接受的正确率；另一个是和baseline相比，吞吐量上有多少提升

正确率的实验结果：

横坐标百分之多少，表示保留了百分之多少的KV缓存。显示使用了70%的缓存，就能达到使用全部缓存的99%的效果。

在吞吐量提升的实验上，由于前面实验表明H2O如果只使用50%缓存的情况下，准确率是明显不如keyformer的；因此为了公平起见，就将keyformer设置为保留50% cache，而H2O保持90% cache。

那么显然keyformer的吞吐量会高于H2O

还做了消融实验，主要是这几点：

计算每个token得分时，是对每个层进行累积分数还是每个层各保留一个分数：结果表明，每个层各保留一个分数的准确率更高
位置编码使用原始文本中的位置进行编码，还是使用丢弃非关键token后的位置进行编码：前者更好
不同正则化方式的影响，比较了无正则化、恒定数正则化、高斯正则化和Gumbel正则化，发现高斯正则化还不如不使用正则化，而显然是Gumbel正则化分数最高
滑动窗口大小在比例为20%-30%时效果最好

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/pingmian/64290.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Linux 权限管理实践：精确控制用户对 systemctl 和 journalctl 命令的使用

Linux 权限管理实践：精确控制用户对 systemctl 和 journalctl 命令的使用

前言在 Linux 系统管理中，精确控制用户对特定命令的访问权限是一项关键的安全实践。使用 systemctl 和 journalctl 命令时，不当的权限设置可能会导致不必要的风险。本篇博客将详细讨论如何通过 sudoers 文件和 Polkit 策略为不同用户配置 systemctl 和…

阅读更多...

SSH连接成功，但VSCode连接不成功

SSH连接成功，但VSCode连接不成功

环境在实验室PC上连接服务器234 解决方案：在VSCode中重新添加远程主机删除旧的VSCode Server 在远程主机上，VSCode会安装一个‘vscode-server’服务来支持远程开发，有时旧的‘vscode-server’文件可能会导致问题，删除旧的&am…

阅读更多...

【Qt】qt安装

【Qt】qt安装

在工作一年之后，还是想做一个Qt的教程，遥想研一刚刚接触Qt，从0到1学习，没有什么参考书籍，网上的资料也不多，幸好Qt官方文档写得好，加上自己肯研究，才堪堪入门。现在我想自己写一个…

阅读更多...

Web开发 -前端部分-CSS

Web开发 -前端部分-CSS

CSS CSS（Cascading Style Sheet）:层叠样式表，用于控制页面的样式（表现）。一基础知识 1 标题格式标题格式一： 行内样式 <!DOCTYPE html> <html lang"en"><head><meta…

阅读更多...

YOLOv8目标检测(六)_封装API接口

YOLOv8目标检测(六)_封装API接口

YOLOv8目标检测(一)_检测流程梳理：YOLOv8目标检测(一)_检测流程梳理_yolo检测流程-CSDN博客 YOLOv8目标检测(二)_准备数据集：YOLOv8目标检测(二)_准备数据集_yolov8 数据集准备-CSDN博客 YOLOv8目标检测(三)_训练模型：YOLOv8目标检测(三)_训…

阅读更多...

MySQL函数—合计统计函数

MySQL函数—合计统计函数

在MySQL中，你可以使用合计统计函数来计算某个列的合计值、平均值、最大值、最小值等。这些合计统计函数包括SUM、AVG、MAX、MIN等。下面是一些常用的合计统计函数的示例： SUM函数：用于计算某个列的合计值。 SELECT SUM(column_name) FROM…

阅读更多...

51c视觉~YOLO~合集6~

51c视觉~YOLO~合集6~

我自己的原文哦~ https://blog.51cto.com/whaosoft/12830685 一、其他yolo 1.1 Spiking-YOLO 使用常规深度神经网络到脉冲神经网络转换方法应用于脉冲神经网络域时，性能下降的很多，深入分析后提出了可能的解释：一是来自逐层归一化的效率…

阅读更多...

Unity3D 3D模型/动画数据压缩详解

Unity3D 3D模型/动画数据压缩详解

前言在Unity3D项目中，3D模型和动画数据通常占用大量内存和存储空间，有效的数据压缩技术对于提升游戏性能和加载速度至关重要。本文将详细介绍Unity3D中3D模型和动画数据的压缩技术，并提供相关的代码实现。对惹，这里有一个游戏…

阅读更多...

Elasticsearch Java Api Client中DSL语句的查询方法汇总（二）

Elasticsearch Java Api Client中DSL语句的查询方法汇总（二）

接上一篇：《Elasticsearch Java Api Client中DSL语句的查询方法汇总》说明：示例代码依赖的是co.elastic.clients:elasticsearch-java:8.16.1。 1、ScriptQuery方法用途：它允许用户使用脚本（通常是 Painless 脚本语言&#xf…

阅读更多...

如何在 Ubuntu 22.04 上安装 Strapi CMS

如何在 Ubuntu 22.04 上安装 Strapi CMS

简介 Strapi 是一个使用 JavaScript 构建的开源、无头内容管理系统 (CMS)。与其他无头 CMS 一样，Strapi 开箱即用不带前端。它使用 API 作为其前端，允许你使用流行的框架（如 React 和 Next.js）构建网站。Strapi 基于插件系统&…

阅读更多...

数字IC后端零基础入门基础理论（Day1）

数字IC后端零基础入门基础理论（Day1）

数字IC后端设计导入需要用到的input数据如下图所示。数字后端零基础入门系列 | Innovus零基础LAB学习Day9 Netlist: 设计的Gate level（门级）网表。下图所示为一个计数器设计综合后的门级netlist。从这个netlist中我们看到这个设计顶层的名字叫counte…

阅读更多...

序列模型的使用示例

序列模型的使用示例

序列模型的使用示例 1 RNN原理1.1 序列模型的输入输出1.2 循环神经网络（RNN）1.3 RNN的公式表示2 数据的尺寸 3 PyTorch中查看RNN的参数4 PyTorch中实现RNN（1）RNN实例化（2）forward函数（3&#xf…

阅读更多...

如何评估呼叫中心大模型呼出机器人的使用效果？

如何评估呼叫中心大模型呼出机器人的使用效果？

如何评估呼叫中心大模型呼出机器人的使用效果？ 原作者：开源呼叫中心FreeIPCC，其Github：https://github.com/lihaiya/freeipcc 评估呼叫中心大模型呼出机器人的使用效果是一个复杂而多维的过程，需要综合考虑多个方面&…

阅读更多...

WSL2内部的Ubuntu怎么设置网络内桥接模式，弄了好久老是不成功，怎么办？

WSL2内部的Ubuntu怎么设置网络内桥接模式，弄了好久老是不成功，怎么办？

环境： Win10专业版 WSL2 Ubuntu22.04 问题描述： WSL2内部的Ubuntu怎么设置网络内桥接模式解决方案：方法一 1.控制面板开启，Hyper-V 管理器 2.重启电脑 3…创建外部虚拟交换机打开 Hyper-V 管理器,在右侧操作面板中点击“虚拟交换机管理器”。选择“创建虚…

阅读更多...

redis集群服务器更换ip，怎么办，怎么更换redis集群的ip

redis集群服务器更换ip，怎么办，怎么更换redis集群的ip

redis集群服务器更换ip，怎么办，怎么更换redis集群的ip 1、安装redis三主三从集群2、正常状态的redis集群3、更改redis集群服务器的ip 重启服务器集群会down4、更改redis集群服务器的ip 重启服务器集群down的原因5、更改redis集群服务器的ip后&#xf…

阅读更多...

记录学习《手动学习深度学习》这本书的笔记（五）

记录学习《手动学习深度学习》这本书的笔记（五）

这一章是循环神经网络，太难了太难了，有很多卡壳的地方理解了好久，比如隐藏层和隐状态的区别、代码的含义（为此专门另写了一篇【笔记】记录对自主实现一个神经网络的步骤的理解）、梯度计算相关（【笔记】记录…

阅读更多...

人大金仓数据linux安装注意事项

人大金仓数据linux安装注意事项

人大金仓数据linux安装注意事项本次是个人搭建虚拟机安装centos7的环境下进行安装。 1、安装流程参照https://help.kingbase.com.cn/v9/install-updata/install-linux/preface.html。 2、mount安装文件报错操作手册提供mount的命令如下： mount KingbaseES_V009R0…

阅读更多...

【GIS教程】使用GDAL-Python将tif转为COG并在ArcGIS Js前端加载-附完整代码

【GIS教程】使用GDAL-Python将tif转为COG并在ArcGIS Js前端加载-附完整代码

目录一、数据格式二、COG特点三、使用GDAL生成COG格式的数据四、使用ArcGIS Maps SDK for JavaScript加载COG格式数据一、数据格式 COG（Cloud optimized GeoTIFF）是一种GeoTiff格式的数据。托管在 HTTP 文件服务器上，可以代替geose…

阅读更多...

探索智能时代：如何利用AI一键生成PPT改变演示文稿的制作方式

探索智能时代：如何利用AI一键生成PPT改变演示文稿的制作方式

在这个科技飞速发展的时代，信息的传递方式发生了翻天覆地的变化。曾几何时，我们还在为制作PPT而熬夜，手动选择模板、调整布局，甚至为每一张幻灯片的内容苦思冥想。然而，随着人工智能技术的不断进步，制作PPT…

阅读更多...

【LDAP】LDAP概念和原理介绍

【LDAP】LDAP概念和原理介绍

目录一、前言二、什么是LDAP？ 2.1 什么是目录服务？ 2.2 LDAP的介绍 2.3 为什么要使用LDAP 三、LDAP的主要产品线四、LDAP的基本模型 4.1 目录树概念 4.2 LDAP常用关键字列表 4.3 objectClass介绍五、JXplorer工具使用一、前言对于许多的…

阅读更多...

最新文章