论文阅读——Slide-Transformer(cvpr2023)

Slide-Transformer: Hierarchical Vision Transformer with Local Self-Attention

一、分析

1、改进transformer的几个思路:

(1)将全局感受野控制在较小区域,如:PVT,DAT,使用稀疏全局注意力来从特征图选择稀疏的键对值,并且在所有查询中共享它们。

(2)就是Swin Transformer这条窗口注意力范式,输入被分为特殊设计的窗口,特征在窗口中提取并融合。非常有效,但是有一些局限性,一方面,稀疏全局注意力在捕捉局部特征方面往往较差,并且容易受到关键和值位置的影响,在这些位置,其他区域中的信息特征可能会被丢弃。另一方面,窗口注意可能会阻碍跨窗口通信,这又引入了额外的设计,如窗口偏移,从而对模型结构设置限制。

一个自然有效的替代方案不是缩小全局感受野,而是通过将每个查询的感受野约束在其自己的相邻像素中来采用局部注意力。与前面提到的注意力模式相比,局部注意力具有与平移等变和局部归纳偏差卷积的优点,同时也享有自注意机制的灵活性和数据依赖性。许多工作已经研究了将局部注意力应用于现代卷积或Transformer模型。然而,他们要么使用低效的Im2Col函数,这会导致推理时间的大幅增加,要么依赖于精心编写的CUDA内核,这限制了在没有CUDA支持的设备上的适用性。因此,开发一个既高效又可推广的局部注意力模块仍然具有挑战性。

PVT将特征图中的稀疏位置采样视为键值对。DAT采取了进一步的步骤,并以数据相关的方式将固定位置向不同的方向移动。MViT在输入上使用池化函数,以获得键和值对,这可以被视为特征图的较低分辨率。Swin Transformer使用窗口+位移,CSwin Transformer在此基础上使用十字形窗口,进一步提高模型能力。local attention限制每个查询的感受野在周围的像素。

2、Attention Patterns(即总结一下)

(1) 稀疏全局注意力考虑选择一组稀疏的键值对,而不是密集的特征图。然而,这也限制了将特征提取到有限的输入子集中的潜力。此外,键和值对对于所有查询都是相同的。这种查询不可知的选择策略可能导致整个特征图中的特征同质化。

(2) 窗口注意力是另一种将输入小心地完全划分为特定窗口的选项,在特定窗口中提取特征。尽管部分解决了查询不可知的键值对的限制,但所设计的模式可能会导致不自然的情况,即不同窗口边缘的特征尽管在特征图中很近,但却被完全隔离。此外,窗口模式需要在连续的块之间转换,以促进跨窗口的连接,这涉及到模型结构中的额外设计。

(3) 局部注意力将每个查询的感受野约束在其自己的相邻像素中,与卷积共享相似的模式。与以前的模式相比,局部注意力同时具有卷积和自我注意力的优点:1)以查询为中心的注意力模式产生的局部归纳偏差;2) 像传统卷积一样的平移等方差,显示出对输入偏移方差的鲁棒性;3) 涉及很少的人工设计,对模型架构设计的限制最小。

3、 Local Attention Implementation

不同方法的效率:

二、方法

1. New Perspective on Im2Col

图(1)是原本的Im2Col的基于列的试图。图2是基于行的试图,是作者发现的。以k=3为例,如果我们首先将原始特征图向9个不同的方向移动(图3(2.b)),然后将这些特征展平成行,最后将它们连接成列(图3的2.c)),则所获得的键/值矩阵被证明等效于HW局部窗口,该窗口可以恢复与原始Im2Col函数完全相同的输出(图3中的1.c))。

2. Shift as Depthwise Convolution

采用一个精心设计卷积核的深度卷积来代替低效的特征偏移。如上图(3.(3))

3. Deformed Shifting Module

引入了一种并行卷积路径,其中核参数在训练过程中被随机初始化并可学习。与将特征向不同方向转移的固定内核相比,可学习内核可以被解释为所有局部特征的线性组合。

(1) 局部注意力中的关键和价值对由一个更灵活的模块来处理,该模块大大提高了模型容量,并可以捕捉各种特征。(2) 可学习卷积核与DCN中的可变形技术表现出相似性。类似于DCN中四个相邻像素的双线性插值,我们的变形移位模块可以被视为局部窗口内特征的线性组合。这最终有助于增强输入的空间采样位置和模型几何变换。(3) 我们使用重新参数化技术[8]将两条平行路径转换为单个卷积。这样,我们可以在保持推理效率的同时提高模型容量。

结果:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/583795.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring中有哪些扩展点

介绍 什么是spring扩展点 Spring 框架中的扩展点是指一组接口或机制,允许开发者在不修改核心框架源代码的情况下,定制和扩展 Spring 框架的功能、行为或配置。这些扩展点提供了一种方式,使开发者可以通过实现特定的接口、编写特定类型的类或…

使用 sourcetree 的《遴选》功能

假设你有一个分支,有两个提交 A,和B,你现在想在A提交的基础上把 B提交的功能做修改,你可以使用 遴选功能。 在A 提交的基础上新建一个分支,然后在B提交上面,右键,选择 遴选,那么B修改…

【开题报告】基于SSM的仓库管理系统设计与实现

1.引言 随着物流行业的蓬勃发展,仓库管理成为了企业物流运作中的关键环节。为了提高仓库管理的效率和准确性,开发一个基于SSM框架的仓库管理系统是非常必要和有意义的。 传统的仓库管理方式往往依赖于手工操作和纸质记录,这种方式存在着许多…

业务中台-研发

在业务中台研发阶段,我们主要聚焦于研发工作。首先,让我们了解一下我们的研发团队构成:UI设计师、开发工程师、测试工程师和前端工程师。 在业务中台项目中,我们采取了领域划分的策略,成立了商品、订单、库存、客户和…

软件行业也来一场“仅退款”,可行否?

“仅退款”战役,算是全面打响了!某夕夕,用超级流量倒逼供应商提升产品品质(这里先不能用质量一词),确实产生了奇效,完成了逆袭,现在逼得阿猫和阿狗不得不加入。但我个人认为&#xf…

工厂传送带应用西门子Profinet连接EtheCAT伺服驱动器

在工业现场,我们采用了1500系列的PLC,以及带有EtherCAT通讯协议的伺服驱动器。由于1500系列的PLC采用的是PROFINET实时以太网通讯协议,为了实现与EtherCAT设备的连接,我们必须进行通讯协议的转换。为此,开疆智能Profin…

计网_05IP地址

一、IP地址  1、IP地址基本概念 用于标识网络中的某一台主机或某一个网络接口,主机的唯一标识,保证主机间的正常通信(主机之间要想通信就必须配置相应的IP地址) 一种网络编码,用来确定网络中的一个节点…

汽车发动机缸体缸盖自动化光学测量系统尺寸测量偏差检测-CASAIM品质检测自动化设备

汽车行驶在不同的环境中,汽车的安全性是必须考虑的,汽车发动机盖体缸盖的加工质量问题是汽车安全可靠性的一个关注点。目前客户检测方案是通过三坐标检测工件进行检测,只能对于位置点进行相关测量,需要规划测量路径,费…

Android Studio修改创建新布局时默认根布局

将Android Studio默认布局ConstraintLayout切换成LinearLayout 打开设置, Editor> File and Code Templates > Other > layoutResourceFile.xml 备注:创建时提示根布局仍然为ConstraintLayout,不用管这个,实际创建的…

炎症状态重塑了急性髓系白血病的免疫微环境并改善了风险分层

今天给同学们分享一篇实验文章“An inflammatory state remodels the immune microenvironment and improves risk stratification in acute myeloid leukemia”,这篇文章发表在Nat Cancer期刊上,影响因子为22.7。 结果解读: 成人和儿童AML的…

HDMI2.1输入转4Port MIPI/LVDS输出,嵌入式SPI闪存固件存储,VR和AR应用首选国产芯片方案-LT6911GXC

描述 LT6911GXC是一款高性能的HDMI2.1到MIPI或LVDS芯片,用于VR/显示应用。 HDCP RX作为HDCP中继器的上游,可配合其他芯片的HDCPTX实现中继器功能。 对于HDMI2.1输入,LT6911GXC可以配置为3/4通道。自适应均衡使其适合于长电缆应用,…

如何做好机电设备全生命周期管理?

机电设备是现代工业运作中不可或缺的重要资产,对生产运营具有关键影响。为了确保机电设备的长期运行和高效性能,机电设备全生命周期管理是必不可少的。下面将介绍一些关键步骤和策略,帮助企业效地进行机电设备全生命周期管理。 1. 选型和规划…

NXP实战笔记(一):基于RTD-SDK新建一个S32DS工程

目录 1、概述 2、操作步骤 2.1、新建Application工程 2.2、命名工程、选择芯片型号、选择编译器GCC版本 2.3、配置基本参数 3、文件描述 3.1、文件结构描述 3.2、编译之后 4、下载调试 1、概述 安装了S32DS之后,导入SDK插件,这个步骤不赘述&…

【AI】图像识别和无人零售

目录 一、引言 二、AI商品识别的定义 三、所用技术 四、解决方案的种类 五、发展历程 六、瓶颈 七、未来趋势 一、引言 随着人工智能(AI)技术的飞速发展,AI商品识别已经成为无人零售领域的一项关键技术。特别是在智能无人售货柜等场景…

Qt篇——QwtPainter::drawPie绘制扇形

QwtPainter::drawPie(QPainter *painter, const QRectF &rect, int startAngle, int angle); 一、参数含义: painter: 重绘函数中的painter对象 rect: 要绘制扇形的圆的外切矩形。 startAngle: 要绘制的扇形的起始角 …

du和df

du 和df 不一致的问题: 情况如下: innode 没有满 同事求助, 他在删掉一个很大的文件后, 磁盘空间依旧没释放。上去一看, 果然 df 看到磁盘空间占用依旧是100%,等等 du 看了一把,磁盘空间剩余很…

【软件测试】为bug而生

为什么定位问题如此重要? 可以明确一个问题是不是真的“bug” 很多时候,我们找到了问题的原因,结果发现这根本不是bug。原因明确,误报就会降低多个系统交互,可以明确指出是哪个系统的缺陷,防止“踢皮球”&…

使用海外proxy進行網頁抓取採集指南

作為從互聯網提取大量數據的強大工具,網路抓取徹底改變了企業收集和分析數據的方式,為他們提供了推動決策過程的寶貴見解。然而,有效的網路抓取通常需要使用特定的工具:海外proxy抓取代理。 在本文中,我們將瞭解什麼是…

Windows定时重启Tomcat

项目场景: 系统:Windows 7 Tomcat:apache-tomcat-8.0.5 JDK:1.8 问题描述 最近项目的Tomcat隔一段时间就假死,最后想到的解决方式就是:每天凌晨1点重启tomact。 解决方案: 使用Windows系统…

南大通用数据库 GBase 8a 性能调优方法--压缩策略选择

大部分应用中性能的瓶颈是磁盘IO,所以新型数据库的设计都已降低磁盘IO为主要设计目标,压缩可减少I/O的时间,提升性能,南大通用数据库的 GBase 8a也不例外,压缩也是提高性能的主要技术之一,GBase 8a并行执行…