CVPR2024《RMT: Retentive Networks Meet Vision Transformers》论文阅读笔记

论文链接:https://arxiv.org/pdf/2309.11523

代码链接:https://github.com/qhfan/RMT

引言

ViT近年来在计算机视觉领域受到了越来越多的关注。然而,作为ViT的核心模块--自注意力缺乏空间先验知识。此外,自注意力的二次计算复杂度在建模全局信息时的计算成本过高。这些问题限制了ViT的应用。许多先前的工作已经尝试缓解这些问题。例如,在Swin Transformer中,作者通过应用窗口化操作来划分用于自注意力的tokens。这一操作不仅减少了自注意力的计算成本,而且还通过窗口和相对位置编码的使用向模型引入了空间先验。除此之外,NAT改变了自注意力的感受野以匹配卷积的形状,在减少计算成本的同时,也使模型能够通过其感受野的形状感知空间先验。与之前的方法不同,作者从最近在NLP领域取得成功的保留网络(Retentive Network,简称RetNet)中获得灵感。RetNet利用依赖于距离的时间衰减矩阵为一维和单向文本数据提供显式的时间先验。作者将这种时间衰减矩阵扩展到空间领域,提出基于tokens间的曼哈顿距离的二维双向空间衰减矩阵。在空间衰减矩阵中,对于一个目标token,周围的tokens越远,它们的注意力得分衰减程度越大。这种属性允许目标token在感知全局信息的同时,对不同距离的tokens分配不同程度的注意力。作者使用这种空间衰减矩阵向视觉骨干引入显式的空间先验。将这种受RetNet启发并结合曼哈顿距离作为显式空间先验的自注意力机制命名为曼哈顿自注意力(Manhattan Self-Attention,简称MaSA)。除了显式的空间先验外,由自注意力进行全局建模引起的另一个问题是巨大的计算负担。以前的稀疏注意力机制以及RetNet中保留的分解方式大多会破坏基于曼哈顿距离的空间衰减矩阵,使它们不适用于MaSA。为了在不破坏空间衰减矩阵的情况下稀疏地建模全局信息,作者提出沿图像的两个轴分解自注意力的方法。这种分解方法在不丢失先验信息的情况下分解了自注意力和空间衰减矩阵。分解后的MaSA以线性复杂度对全局信息进行建模,并具有与原始MaSA相同的感受野形状。

在MaSA中,较深的颜色表示较小的空间衰减率,而较浅的颜色表示较大的空间衰减率。随着距离变化的空间衰减率为模型提供了丰富的空间先验信息。 

创新点

1、提出基于曼哈顿距离的空间衰减矩阵MaSA来增强自注意力

2、提出MaSA的分解形式,使得全局信息建模具有线性复杂度,同时不破坏空间衰减矩阵

3、利用MaSA,构建RMT。RMT在ImageNet-1k图像分类上取得了高top-1准确率,无需额外训练数据,并在目标检测、实例分割和语义分割等任务中表现出色

方法论

RetNet的时间衰减

RetNet是一种强大的语言模型架构。这项工作提出了一种用于序列建模的保留机制。保留机制将时间衰减引入到语言模型中。保留机制首先以一种递归的方式考虑序列建模问题。可以用如下公式表示,

在序列处理任务中,单向模型只能利用当前时间步之前的所有信息。例如,在自然语言处理中的自回归模型,当前词的预测只能基于之前的词,而不能使用之后的词。因此只有当n≥m时,才会有权重

MaSA

从RetNet中的保留机制出发,作者将其改写为MaSA。在MaSA中,作者将保留机制中观察到的单向和一维的时间衰减转变为双向和二维的空间衰减。这种空间衰减引入了一个与曼哈顿距离相关的显式空间先验到视觉骨干中。此外,作者还设计了一种简单的方法来同时分解自注意力和空间衰减矩阵。

从单向衰减到双向衰减

在RetNet中,由于文本数据的因果特性,保留机制是单向的,只允许每个token关注前面的tokens而不是后面的tokens。这一特性不适用于缺乏因果属性的任务,例如图像识别。因此,作者首先将保留扩展为双向形式,表示为,

从一维衰减到二维衰减

虽然修改后的Retention支持双向建模,但这种能力仍然局限于一维,对于二维图像来说是不够的。为了解决这个限制,作者将一维保留扩展到二维。在图像的上下文中,每个token在平面内具有唯一的二维坐标位置,第n个token的坐标表示为(xn, yn)。为了适应这一点,作者将矩阵D中的每个元素调整为基于它们2D坐标的曼哈顿距离。矩阵D重新定义如下,

此外,在Retention中,softmax被替换为门控函数(gating function)。这种变化为RetNet提供了多种灵活的计算形式,使其能够适应并行训练和递归推理过程。但作者发现,这种修改对于视觉模型来说,并没有改进;相反,它引入了额外的参数和计算复杂性。因此,作者继续使用softmax来为模型引入非线性。结合上述步骤,曼哈顿自注意力表示为,

分解的MaSA

在ViT backbone的早期阶段,大量的tokens导致在尝试对全局信息进行建模时自注意力的计算成本巨大。使用现有的稀疏注意力机制或者直接使用RetNet的递归/分块递归形式,会破坏基于曼哈顿距离的空间衰减矩阵,丢失显式空间先验。为了在不破坏空间衰减矩阵的情况下稀疏地建模全局信息,作者引入了一种简单的分解方法,该方法不仅分解了自注意力,还分解了空间衰减矩阵。分解的MaSA如下,

具体来说,作者分别计算图像水平和垂直方向的注意力分数。然后,将一维双向衰减矩阵应用于这些注意力权重。

基于MaSA的分解,每个tokens的感受野形状如下图所示,它与完整MaSA的感受野形状相同。该图表明分解方法完全保留了显式的空间先验。

为了进一步增强MaSA的局部表达能力,作者引入了一个局部上下文增强模块(local context enhancement module,简称LCE,由深度可分离卷积构成),

整体架构

与之前的通用ViT骨干网络类似,RMT分成了4个阶段。前3个阶段使用分解的MaSA,最后一个阶段使用原始的MaSA。此外,作者将条件位置编码(conditional positional encodings,简称CPE)集成到模型中。

实验

图像分类

结果表明,RMT在所有设置中一致优于先前的模型。具体来说,RMT-S仅使用4.5 GFLOPs就达到了84.1%的Top1准确率。RMT-B也在类似FLOPs的情况下比iFormer增加了0.4%。此外,RMT-L模型在top1准确率上比MaxViT-B提升了0.6%,同时使用的FLOPs更少。RMT-T也在许多轻量级模型中表现突出。至于使用token标签训练的模型,RMT-S比当前最先进的BiFormer-S提高了0.5%。

目标检测与实例分割

结果表明,作者的RMT在所有比较中表现最佳。对于RetinaNet框架,RMT-T比MPViT-XS高出+1.3 AP,而S/B/L也在其他方法上表现更好。对于使用“1×”计划的Mask R-CNN,RMT-L比最近的InternImage-B高出+2.8 box AP和+1.9 mask AP。对于“3×+MS”计划,RMTS比InternImage-T高出+1.6 box AP和+1.2 mask AP。此外,关于Cascade Mask R-CNN,RMT仍然比其他骨干网络表现得更好。所有以上结果表明,RMT以明显的优势超越了其竞争对手。

语义分割

除了RMT-T(以512×512的分辨率测试)所有FLOPs都是以512×2048的分辨率测试的。所有的RMT模型在所有比较中都取得了最佳性能。具体来说,,RMT-S在Semantic FPN中比Shunted-S高出+1.2 mIoU。此外,RMT-B比最近的InternImage-S高出+1.8 mIoU。所有以上结果证明了RMT模型在密集预测方面的优越性。

消融实验

结论

在这项工作中,作者提出了RMT,这是一种具有显式空间先验的视觉骨干网络。RMT将用于NLP中因果建模的时间衰减扩展到空间层面,并引入了基于曼哈顿距离的空间衰减矩阵。该矩阵将显式的空间先验融入到自注意力机制中。此外,RMT采用了一种自注意力分解形式,能够在不破坏空间衰减矩阵的情况下稀疏地对全局信息进行建模。空间衰减矩阵和注意力分解形式的结合使RMT具备了显式的空间先验和线性复杂度。在图像分类、目标检测、实例分割和语义分割等多个视觉任务中的广泛实验验证了RMT的优越性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/844013.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring和Servlet的整合

Servlet对象是谁创建的? 由服务器端创建的 程序启动调用加载spring配置文件代码 Web应用程序启动也需要加载Spring配置文件 Web开发中有三大组件: 1、servlet 2、filter 3、listener(request,session,application&…

如何确保大模型 RAG 生成的信息是基于可靠的数据源?

在不断发展的人工智能 (AI) 领域中,检索增强生成 (RAG) 已成为一种强大的技术。 RAG 弥合了大型语言模型 (LLM) 与外部知识源之间的差距,使 AI 系统能够提供更全面和信息丰富的响应。然而,一个关键因素有时会缺失——透明性。 我们如何能够…

LabVIEW软件需求分析文档内容和编写指南

编写LabVIEW软件需求分析文档(Software Requirements Specification, SRS)是软件开发的关键步骤之一。以下是详细的内容结构、编写指南和注意事项: 内容结构 引言 项目背景:简要介绍项目背景和目的。 文档目的:说明需…

Java基础:类的详细说明

Java是一门面向对象的编程语言,所谓的面向对象,简单的说,就是在软件开发过程中,用各种各样的对象实现所需功能。 对象就好像是现实世界中不计其数的物体,根据物体的性质可以将其进行分门别类:石头、锤子、…

服务案例|网络攻击事件的排查与修复

LinkSLA智能运维管家V6.0版支持通过SNMP Trap对设备进行监控告警,Trap是一种主动推送网络设备事件或告警消息的方式,与SNMP轮询(polling)不同,具有以下几点优势: 1. 实时监控与快速响应 SNMP Trap能够实时…

如何在操作系统中合并 PDF 文件?不同系统有不同的方法

Windows 系统 在 Windows 系统中想要合并 PDF 文件我们可能需要借助一些第三方的软件或者浏览器的插件。 我们可以在 Google 浏览器中的 Chrome 应用商店中输入“Merge pdf”这样就可以搜索到在线合并 PDF 文件的插件,只需要下载到浏览器中就可以直接使用。当然 Ed…

【Unity Shader入门精要 第11章】让画面动起来(二)

1. 顶点动画的原理 顶点动画的原理是,在顶点着色器中按照一定的规则或函数计算得到一段偏移量对顶点进行移动,最后将改变位置后的顶点变换到裁剪空间进行后续的渲染工作。 可见,与纹理动画只是改变从纹理中哪一部分开始显示图案不同&#x…

visual studis 安装教程

1、下载软件 2、直接安装。根据自己的需求选择需要的模板类型。 如果是.net环境,可以选择.net项目; 如果是c环境,可以选择c项目模板,多个模板可以同时并存。 3、选择C模板,然后重新启动项目。 我是小路,一枚…

使用小猪APP分发打造高效的App封装工具

你是否曾经因为App封装和分发的复杂性而头疼不已?在这个移动应用迅速发展的时代,开发人员不仅需要专注于应用的功能和用户体验,还必须面对繁琐的封装和分发过程。幸运的是,小猪APP分发www.appzhu.cn正好为我们提供了一个简便而高效…

手绘任意波

更多内容,请访问我的网站:https://jiangge12.github.io/ 上位机发送手绘波形数据,下位机接收并输出。 支持 STM32 STC arduino Pico 等多种单片机,内置或外置 DAC 实现。

【学习Day1】计算机基础

✍🏻记录学习过程中的输出,坚持每天学习一点点~ ❤️希望能给大家提供帮助~欢迎点赞👍🏻收藏⭐评论✍🏻指点🙏 1.1 中央处理单元CPU 中央处理器(CPU,central processing unit&…

在全志H616核桃派开发板上进行音频配置的方法详解

耳机口​ 核桃派板载的3.5mm音频输出口,该接口有一定的输出功率,可以使用耳机或者带功放的扬声器都可以播放声音。 查看音频设备​ 可以使用下面指令来查看音频信息: aplay -l音频播放测试​ 播放系统自带wav音频文件测试, 下面指令的au…

控制台生产厂家生产流程详解

控制台生产厂家的生产流程是一个复杂而精细的过程,它涉及多个环节,从原材料的准备到最终产品的出厂检验,每一步都至关重要。以下是控制台生产厂家的一般生产流程: 厂家会根据客户的需求和市场趋势进行产品设计。设计师会综合考虑控…

闪电加载:Hexo博客性能优化全攻略

巴索罗缪大熊 前言 这些年积累了很多前端性能优化的知识点和思路,日常工作很少涉及技术层极限优化,近期终于一点点把博客独立搭建并部署了,对之前的一些技术点进行了深度探索,最终结果也达到了预期效果,由于水平有限&…

河北奥润顺达集团研究院PMO经理常江南受邀为第十三届中国PMO大会演讲嘉宾

全国PMO专业人士年度盛会 河北奥润顺达集团研究院PMO经理、研发部运营管理办负责人常江南先生受邀为PMO评论主办的2024第十三届中国PMO大会演讲嘉宾,演讲议题为“初建PMO的体系宣贯和人员培养实践总结”。大会将于6月29-30日在北京举办,敬请关注&#xf…

如何利用云平台上更好地规划安全生产教育与培训

在平台上进行安全教育和培训,可以采取以下步骤和策略,以确保教育的有效性和参与度: 一、明确教育目标和培训内容 确定教育目标:明确希望员工通过培训达到的安全意识和技能水平。 制定培训内容:根据行业特点、岗位需求…

centos7安装python-gdal环境

python3 yum install python3 python3-pip -y gdal-3.6.2 参考编译postgis python安装gdal export CPLUS_INCLUDE_PATH/usr/local/gdal-3.6.2/include export C_INCLUDE_PATH/usr/local/gdal-3.6.2/include export LDFLAGS"-L/usr/local/gdal-3.6.2/lib64" pip3…

wordpress子比主题文章付费发卡插件

插件仅适用于子比主题 插件演示 免费下载 :子比主题文章付费发卡插件_麦田吧 如下图,添加卡密支持批量添加,按照卡号(英文逗号/空格/—-)密码的格式输入,一行一条,可以直接添加数据&#xff0…

​​人工智能_大模型083_大模型时代机遇02_提示词优化开发工具_立项_计量模式_真实需求_5why法---人工智能工作笔记0218

上一节我们提供了一个非常好用的提示词,优化开发的,调试工具 vellum 可以看到是这个工具 使用的时候,写完一段提示词,可以选择不同的模型,看看给出的效果情况 对应的模型非常多. ### 立项在立项阶段,要对这三个要素有初步的答案:1. 真实需求是什么? 2. 商业模式是什么? 3…

Tomcat端口配置和网页浏览

安装完成Tomcat后,到安装目录里看到内容如下: 各文件夹作用 bin:可执行文件(启动文件startup.bat、关闭文件shutdown.bat)conf:配置文件(修改端口号:server.xml,建议将s…