Sink Token

论文:ICLR 2025 MLLM视觉VAR方法Attention重分配

Sink Token 是一种在语言模型(LLM)和多模态模型(MLLM)中用于优化注意力分配的关键机制,通过吸收模型中冗余的注意力权重,确保注意力资源不被无效或无关信息占用。以下是对这一概念的系统性解析:

  • 比喻:想象你有一个"注意力垃圾桶",模型会把不重要的信息扔进去,避免干扰关键任务。
  • 定义:Sink Token 是模型中某些特殊标记(如文本中的标点、图像中的背景区域),它们会吸收大量注意力权重,但本身对输出贡献很小。

1. 语言模型中的 Sink Token

定义与本质

Sink Token 是特殊的标记(如预定义的BOS或可学习的占位符),其隐藏状态在特定维度(Dsink)上表现出异常高的激活值。这些标记会吸引大量注意力权重,但对模型最终输出的实质性贡献极低。

关键功能

  • 注意力重分配机制:通过将冗余注意力"汇聚"到这些特殊标记,防止无关信息干扰模型对核心内容的处理
  • 长序列稳定性增强:在生成长文本时,Sink Token能有效稳定注意力分布,提高生成质量
  • 内存效率优化:在StreamingLLM等流式处理架构中,Sink Token使模型能以恒定内存复杂度处理理论上无限长的序列

工作原理示例

当模型处理长文本时,标准Transformer架构会随着序列长度增加而导致注意力"稀释",而Sink Token通过吸收部分注意力,使模型能够将剩余注意力更精确地分配给真正重要的标记。

2. 多模态模型中的视觉 Sink Token

特征与表现

在多模态模型(如LLaVA)中,视觉Sink Token指图像中那些与任务无关但错误地获得高注意力权重的区域。这些区域的隐藏状态同样在Dsink维度上具有异常高的激活值,这一特性是从基础语言模型中继承而来。

独特性质

  • 注意力消耗与低贡献并存:尽管吸收大量注意力资源,这些视觉区域对答案生成几乎没有帮助(多项消融实验证实)
  • 位置特征:视觉Sink Token常集中在图像背景或低信息密度区域
  • 可识别性:通过分析注意力热图和Dsink维度激活模式可有效识别

优化方法:视觉注意力重分配(VAR)

研究提出了VAR方法,通过:

  1. 识别视觉Sink Token区域
  2. 动态抑制这些区域的注意力权重
  3. 将"节省"的注意力预算重新分配给语义相关的视觉区域

3. Sink Token在不同模态中的对比

特性语言模型Sink Token多模态模型视觉Sink Token
形成机制预定义标记或模型学习的占位符图像中信息稀疏但获得过高关注的区域
识别方法Dsink维度激活值分析同左,但结合视觉注意力热图
优化目的稳定长序列处理,降低注意力稀释提升跨模态对齐精度,减少视觉噪声干扰
在语言模型中的表现
  • 例子:在生成文本时,模型会过度关注 BOS(开始标记)或标点符号(如逗号),即使这些标记本身无意义。
  • 原因:这些标记的隐藏状态在特定维度(Sink Dimensions)上激活值异常高,导致注意力被"吸"过去。
在多模态模型中的表现
  • 例子:模型处理图像时,可能会持续关注背景的草地或天空(与问题无关的区域),即使问题问的是"图片里有没有狗"。
  • 关键发现:这些视觉 Sink Token 的隐藏状态在 Sink Dimensions 上激活值很高,类似语言模型中的现象。

4.什么是 Sink Dimensions?

  • 比喻:模型的隐藏状态是一个高维空间,Sink Dimensions 是其中某些"特殊坐标",这些坐标容易被 Sink Token 占据。
  • 定义:Sink Dimensions 是隐藏状态中一组特定维度(如 LLaMA-2 的 Dsink={1415, 2533}),Sink Token 在这些维度上的激活值异常高。

如何识别 Sink Dimensions?

  • 步骤
  1. 计算激活值:对每个标记的隐藏状态,计算其在 Sink Dimensions 上的激活值。
  2. 归一化:用均方根(RMS)归一化,避免数值过大。
  3. 阈值判定:若某标记的 Sink Dimension Value > 阈值(如 T=20),则标记为 Sink Token。

通过归一化隐藏状态在 Sink Dimensions 上的激活值(Sink Dimension Value),若超过阈值(如 T=20),则标记为 Sink Token。

公式:

Sink Dimension Value = max ⁡ d ∈ D sink x [ d ] 1 D ∑ d = 1 D x [ d ] 2 \text{Sink Dimension Value} = \frac{\max_{d \in D_{\text{sink}}} x[d]}{\sqrt{\frac{1}{D}\sum_{d=1}^{D}x[d]^2}} Sink Dimension Value=D1d=1Dx[d]2 maxdDsinkx[d]

其中 x x x 为隐藏状态, D D D 为总维度数。

可视化验证:

通过注意力图可视化发现,Sink Token 的注意力权重分布与关键视觉区域分离,且其隐藏状态在 Sink Dimensions 上显著突出

实验验证
  • 屏蔽实验:如果删除 Sink Token,模型性能几乎不变(如 LLaVA 屏蔽后准确率仅下降 0.1%)。
  • 注意力图可视化:Sink Token 的注意力权重集中在图像背景,而非关键物体(如图6中的"logo"未被正确关注)。

VAR 方法(视觉注意力重分配)

核心思想
  • 问题:模型将过多注意力浪费在 Sink Token(如背景区域),而关键视觉信息(如目标物体)未被充分关注。
  • 解决方案:从 Sink Token 中"回收"注意力预算,重新分配给重要区域。
具体步骤
  1. 识别 Sink Token
  • 通过 Sink Dimensions 筛选出高激活值的视觉标记(如背景区域)。
  • 示例:若某图像区域的隐藏状态在 Dsink={1415, 2533} 上激活值 >20,则标记为 Sink Token。
  1. 选择以图像为中心的注意力头
  • 筛选标准
    • 舍弃对视觉标记总注意力权重 <0.2 的头(这些头不关注图像)。
    • 选择"视觉非汇比率"(rh)>0.6 的头(rh = 非 Sink Token 的注意力权重占比)。
  • 作用:这些头更关注与文本相关的视觉区域(如图4中"滑板"问题对应的注意力头)。
  1. 重分配注意力权重
  • 提取预算:从 Sink Token 的注意力权重中提取比例 p(如 p=0.6)作为预算 Ω。
  • 重新分配:将 Ω 按原始注意力权重比例分配给非 Sink Token。
  • 公式
    a i , j 新 = a i , j + Ω ⋅ a i , j ∑ k ∈ 非汇标记 a i , k a_{i,j}^\text{新} = a_{i,j} + \Omega \cdot \frac{a_{i,j}}{\sum_{k \in \text{非汇标记}} a_{i,k}} ai,j=ai,j+Ωk非汇标记ai,kai,j
  • 效果:关键区域的注意力权重增强,背景区域的权重降低。

总结

  • Sink Token 是模型中吸收冗余注意力的标记,Sink Dimensions 是它们的"藏身维度"。
  • VAR 方法 通过"回收-重分配"机制,让模型更关注关键视觉信息,无需训练即可提升性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/75292.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【复活吧,我的爱机!】Ideapad300-15isk拆机升级:加内存条 + 换固态硬盘 + 换电源

写在前面&#xff1a;本博客仅作记录学习之用&#xff0c;部分图片来自网络&#xff0c;如需引用请注明出处&#xff0c;同时如有侵犯您的权益&#xff0c;请联系删除&#xff01; 文章目录 前言升级成本升级流程电池健康度加内存条和换内存条光驱位加装机械硬盘更换电池重装系…

基于PyQt5的自动化任务管理软件:高效、智能的任务调度与执行管理

基于PyQt5的自动化任务管理软件&#xff1a;高效、智能的任务调度与执行管理 相关资源文件已经打包成EXE文件&#xff0c;可双击直接运行程序&#xff0c;且文章末尾已附上相关源码&#xff0c;以供大家学习交流&#xff0c;博主主页还有更多Python相关程序案例&#xff0c;秉着…

【区块链安全 | 第十四篇】类型之值类型(一)

文章目录 值类型布尔值整数运算符取模运算指数运算 定点数地址&#xff08;Address&#xff09;类型转换地址成员balance 和 transfersendcall&#xff0c;delegatecall 和 staticcallcode 和 codehash 合约类型&#xff08;Contract Types&#xff09;固定大小字节数组&#x…

Windows 系统下多功能免费 PDF 编辑工具详解

IceCream PDF Editor是一款极为实用且操作简便的PDF文件编辑工具&#xff0c;它完美适配Windows操作系统。其用户界面设计得十分直观&#xff0c;哪怕是初次接触的用户也能快速上手。更为重要的是&#xff0c;该软件具备丰富多样的强大功能&#xff0c;能全方位满足各类PDF编辑…

【算法day28】解数独——编写一个程序,通过填充空格来解决数独问题

37. 解数独 编写一个程序&#xff0c;通过填充空格来解决数独问题。 数独的解法需 遵循如下规则&#xff1a; 数字 1-9 在每一行只能出现一次。 数字 1-9 在每一列只能出现一次。 数字 1-9 在每一个以粗实线分隔的 3x3 宫内只能出现一次。&#xff08;请参考示例图&#xff…

力扣刷题-热题100题-第29题(c++、python)

19. 删除链表的倒数第 N 个结点 - 力扣&#xff08;LeetCode&#xff09;https://leetcode.cn/problems/remove-nth-node-from-end-of-list/description/?envTypestudy-plan-v2&envIdtop-100-liked 计算链表长度 对于链表&#xff0c;难的就是不知道有多少元素&#xff…

【QT】QT的多界面跳转以及界面之间传递参数

QT的多界面跳转以及界面之间传递参数 一、在QT工程中添加新的界面二、多界面跳转的两种情况1、A界面跳到B界面&#xff0c;不需要返回2、A界面跳到B界面&#xff0c;需要返回1&#xff09;使用this指针传递将当前界面地址传递给下一界面2&#xff09;使用parentWidget函数获取上…

【力扣hot100题】(022)反转链表

非常经典&#xff0c;我写的比较复杂&#xff0c;一直以来的思路都是这样&#xff0c;就没有去找更简单的解法&#xff1a;&#xff08;做链表题习惯加头结点的前置节点了&#xff0c;去掉也行&#xff09; /*** Definition for singly-linked list.* struct ListNode {* …

剑指Offer(数据结构与算法面试题精讲)C++版——day2

剑指Offer(数据结构与算法面试题精讲)C++版——day2 题目一:只出现一次的数据题目二:单词长度的最大乘积题目三:排序数组中的两个数字之和题目一:只出现一次的数据 一种很简单的思路是,使用数组存储出现过的元素,比如如果0出现过,那么arr[0]=1,但是有个问题,题目中没…

技术回顾day2

1.获取文件列表 流程&#xff1a;前端根据查询条件封装查询信息&#xff0c;后端接收后进行封装&#xff0c;封装为FileInfoQuery,根据fileInfoQuery使用mybatis的动态sql来进行查询。 2.文件分片上传 每次上传需要上传包括(文件名字&#xff0c;文件&#xff0c;md5值&#…

DeepSeek-R1 模型现已在亚马逊云科技上提供

2025年3月10日更新—DeepSeek-R1现已作为完全托管的无服务器模型在Amazon Bedrock上提供。 2025年2月5日更新—DeepSeek-R1 Distill Llama 和 Qwen模型现已在Amazon Bedrock Marketplace和Amazon SageMaker JumpStart中提供。 在最近的Amazon re:Invent大会上&#xff0c;亚马…

STP --- 生成树协议

协议信息 配置 BPDU Protocol identifier&#xff1a;协议标识 Version&#xff1a;协议版本&#xff1a;STP 为 0&#xff0c;RSTP 为 2&#xff0c;MSTP 为 3 type&#xff1a; BPDU 类型 Flag&#xff1a; 标志位 Root ID&#xff1a; 根桥 ID&#xff0c;由两字节的优…

Ansible playbook-ansible剧本

一.playbook介绍 便于功能的重复使用 本质上就是文本文件&#xff0c;一般都是以.yml结尾的文本文件。 1.遵循YAML语法 1.要求同级别代码要有相同缩进&#xff0c;建议4个空格。【同级别代码是同一逻辑的代码】 在计算机看来空格和Tob键是两个不同的字符。 2.一个键对应一…

python的基础入门

初识Python 什么是Python Python是1门程序设计语言。在开发者眼里&#xff0c;语言可以分为3类&#xff1a; 自然语言&#xff1a;人能听懂的语言&#xff0c;例如汉语&#xff0c;英语&#xff0c;法语等等。机器语言&#xff1a;机器能听懂的语言&#xff0c;机器只能听懂0…

8.neo4j图数据库python操作

使用图数据库的原因 图数据库使用neo4j的原因&#xff1a;neo4j使用率高&#xff0c;模板好找&#xff0c;报错能查。 红楼梦人物关系图地址 GraphNavigator neo4j学习手册 https://www.w3cschool.cn/neo4j/neo4j_need_for_graph_databses.html CQL代表的是Cypher查询语言…

[Lc6_记忆化搜索] 扫雷游戏 | 理解 递归vs记忆化搜索vs dp

目录 ⭕1.扫雷游戏 题解 1.记忆化搜索 解法一&#xff1a;递归 解法二&#xff1a;记忆化搜索 解法三&#xff1a;动态规划 ⭕1.扫雷游戏 (暴力模拟&#xff09; 链接&#xff1a;529. 扫雷游戏 让我们一起来玩扫雷游戏&#xff01; 给你一个大小为 m x n 二维字符矩阵…

第十一章:Python PIL库-图像处理

一、PIL库简介 PIL&#xff08;Python Imaging Library&#xff09;是一个功能强大的图像处理库&#xff0c;它提供了丰富的图像处理功能&#xff0c;包括图像的打开、处理和保存等操作。PIL支持多种图像文件格式&#xff0c;如JPEG、PNG、BMP等&#xff0c;并且可以完成对图像…

ISIS报文

IS-IS 报文 目录 IS-IS 报文 一、报文类型与功能 二、报文结构解析 三、核心功能特性 四、典型应用场景 五、抓包数据分析 六、总结 IS-IS&#xff08;中间系统到中间系统&#xff09;协议报文是用于链路状态路由协议中网络设备间交换路由信息的关键载体&#xff0c;其设…

beikeshop多商户跨境电商独立站最新版v1.6.0版本源码

一.介绍 beikeshop跨境电商独立站最新版V1.6.0源码 多商户 多商家 多语言 多币结算 本博主亲测搭建代码全开源质量相对来说很稳定的 二.服务器环境 系统&#xff1a;CentOS、 环境&#xff1a;PHP7.4 Nginx 1.21 MySQL 5.6 常见插件&#xff1a;fileinfo &#xff1b; re…

Spring Boot 集成实战:AI 工具如何自动生成完整微服务模块

在数字化转型的浪潮中&#xff0c;开发效率和质量是企业竞争力的关键要素。飞算 JavaAI 作为一款创新的 AI 工具&#xff0c;能在 Spring Boot 开发中&#xff0c;自动生成完整微服务模块&#xff0c;极大提升开发效率。下面&#xff0c;我们就详细介绍如何借助飞算 JavaAI&…