GroupMixFormer:基于Group-Mix注意力的视觉Transformer

文章目录

  • 摘要
  • 1、简介
  • 2、相关工作
    • 2.1、视觉转换器
    • 2.2、全面的自注意力建模
  • 3、组混合注意力和GroupMixFormer
    • 3.1. 动机:从个体到群体
    • 3.2. GMA: 混合组以获得更好的注意力
    • 3.3. 架构配置
  • 4、实验
    • 4.1、实现细节
    • 4.2. 与最先进模型的比较
    • 4.3. 消融实验
  • 5、结论

摘要

https://arxiv.org/pdf/2311.15157.pdf
视觉转换器(ViTs)已被证明可以通过建模长程依赖关系来增强视觉识别,这种建模使用多头自注意力(MHSA),通常将其表述为查询-键-值计算。然而,从查询和键生成的注意力图只能捕获单个粒度上的令牌到令牌的相关性。在本文中,我们认为自注意力应该有一个更全面的机制来捕获令牌和令牌组(即多个相邻的令牌)之间的相关性,以获得更高的表示能力。因此,我们提出了一种先进的替代传统自注意力的方法,即Group-Mix Attention(GMA),它可以同时捕获令牌到令牌、令牌到令牌组以及令牌组到令牌组的相关性,并具有各种不同的组大小。为此,GMA将查询、键和值均匀拆分成多个片段,并执行不同的组聚合来生成组代理。注意力图是基于令牌和组代理的混合计算出来的,并用于重新组合值中的令牌和组。基于GMA,我们引入了一个强大的主干网络,即GroupMixFormer,它在图像分类、目标检测和语义分割方面取得了最先进的性能,同时参数数量比现有模型更少。例如,GroupMixFormer-L(具有70.3M个参数和 38 4 2 384^2 3842个输入)在没有外部数据的情况下,在ImageNet-1K上达到了86.2%的Top1准确率,而GroupMixFormer-B(具有45.8M个参数)在ADE20K上达到了51.2%的mIoU。相关代码和训练模型可以在以下链接中找到:https://github.com/AILab-CVC/GroupMixFormer。

1、简介

视觉转换器(ViTs)显着改善了视觉识别任务,包括图像分类[18,63],自监督学习[3,5,10,60],目标检测[15,37],以及语义分割[53,54,58]。一个对性能提升有重大贡献的关键模块是多头自注意力(MHSA),它使网络设计具有长程依赖建模[43,51],全局感受野,更高的灵活性和更强的鲁棒性[42,58]。通常,“注意力”(即Q-K-V注意力)是指将Value与Query和Key之间的相关性进行线性重组,这些相关性通常是在单个令牌对之间计算的。
在这里插入图片描述

然而,经验上发现Q-K-V自注意力存在一个主要的局限性,如图1所示:注意力图只描述了单个粒度上每个令牌对之间的相关性(图1(a)),并且将注意力图与Value相乘只是线性地重新组合了各个令牌。这个框架显然没有考虑到不同粒度上不同令牌组(即邻域)之间的相关性。举一个具体的例子,自注意力不能将左上角的九个令牌作为一个整体与右下角的令牌组相关联。这个局限性虽然很明显,但因为Q-K-V计算似乎足够建模输入到输出的映射,所以被无意忽略了,因为输出的任何元素都会关注输入的每个单独元素。

在本研究中,我们提出了一种更全面的建模方法,称为Group-Mix Attention(GMA),以缓解广泛使用的Q-K-V自注意力机制的上述局限性。GMA将令牌拆分为均匀且不同的片段,并用通过组聚合器生成的组代理替换一些单个令牌,如图1(b)所示。之后,我们使用查询和键(其中一些令牌已被组代理替换)来计算注意力图,并使用它重新组合Value中的组代理和单个令牌。提出的GMA具有以下优点:(1)GMA不仅能够建模单个令牌之间的相关性,还能够建模令牌组之间的相关性。不同类型的注意力被混合在一起,以从更全面的角度更好地理解令牌。在每个单层内同时建模令牌到令牌、令牌到组和组到组的相关性,以获得更高的表示能力。(2)GMA是高效且易于实现的。组到组的相关性是通过将组聚合为代理令牌然后计算代理之间的相关性来计算的(如图3所示)。这样的过程可以通过基于滑动窗口的操作(例如池化和卷积)高效地实现。

在GMA的基础上,我们开发了分层视觉转换器GroupMixFormer,它可以作为各种任务的可视化主干网。我们在标准视觉识别任务上评估了GroupMixFormers,包括图像分类、目标检测和语义分割,并与先进模型进行了比较,如图2所示。结果表明我们的设计是有效的。例如,一个小的GroupMixFormer实例(22.4M参数)在ImageNet-1K上实现了83.4%的Top-1准确率,与更大的SwinB[37](88M参数)相当。此外,GroupMixFormer在目标检测和语义分割方面也优于先进的ViTs和CNN。在ADE20K数据集上,GroupMixFormer-B实现了51.2%的mIoU,主干大小为46M。大量实验还表明,有效地建模令牌和不同组之间的相关性对于GMA的成功至关重要。这种设计范式可以很容易地应用于其他ViT架构,作为传统自注意力的高级替代品。
在这里插入图片描述

2、相关工作

2.1、视觉转换器

视觉转换器(ViT) [18]首次将转换器引入计算机视觉领域。与基于CNN的架构不同,ViT在视觉令牌序列上使用顺序连接的Transformer编码器 [51]。ViT中使用的多头自注意力(MHSA)机制有效地捕捉全局依赖关系,使它们在监督 [22, 49]和自监督场景 [5, 10]中比CNN神经网络具有优势。为了提高ViT的通用性能,已经进行了一系列研究,包括数据高效训练 [49]、令牌重新设计和选择 [33, 44]、金字塔结构 [37, 53]、对自注意力机制进行调制 [6, 8, 66],等等。大多数这些工作采用原始的Q-K-V计算,这在处理视觉信息方面是有效的。本文旨在通过引入Group-Mix Attention(GMA)来进一步推进ViT的通用性能。与现有技术不同,GMA能够建模每个单一Transformer编码器层中不仅单个令牌之间而且令牌组之间的相关性,从而提高全面的表示能力。

2.2、全面的自注意力建模

为了增强自注意力的表示能力,已经从不同的角度探索了几种方法,如下所示。(1)引入局部性已被证明是有效的,例如Swin Transformer [36, 37]和Focal Transformer [62],它们在局部窗口内进行注意力计算。(2)使用预定义模式计算相关性可以增强自注意力的能力,如CSWin Transformer [17]和Pixelfly-Mixer [7],它们都尝试使用预定义和精心设计的模式来计算注意力以实现更全面的建模。(3)其他网络架构[30, 31, 45, 48, 52, 54, 56, 61]也被研究用于更全面的视觉模式建模。本文关注单个粒度上令牌到令牌的相关性所造成的限制,并提出了一个先进的注意力机制(即GMA),它构建了一个更全面的自注意力原型,将我们的方法与之前的做法明确区分开来。

3、组混合注意力和GroupMixFormer

我们在本节中介绍GroupMix Attention和GroupMixFormer的动机和结构设计。

3.1. 动机:从个体到群体

我们讨论了自注意力的限制,从其原始公式开始。设 X ∈ R N × d \mathrm{X} \in \mathbb{R}^{N \times d} XRN×d 是输入令牌,其中 N 是令牌数量,d 是维度。普通自注意力的输出为:
Y = Softmax ⁡ ( X X T ) X (1) Y=\operatorname{Softmax}\left(X X^{T}\right) X \tag{1} Y=Softmax(XXT)X(1)

注意,为了简洁起见,我们省略了归一化因子 1 d \frac{1}{\sqrt{d}} d 1。直观地说,通过矩阵乘法的定义, X X T \mathrm{XX}^{\mathrm{T}} XXT 计算了每个令牌对之间的相似度/相关性。Softmax函数 A ∈ R N × N \mathrm{A} \in \mathbb{R}^{N \times N} ARN×N 的输出称为注意力图。 A X AX AX的乘法意味着根据每个位置的注意力图线性地重新组合令牌。

我们注意到这种形式的局限性。可能存在某些模式(即组模式),这些模式要求将某些特定的令牌作为具有不同粒度的组进行处理。然而,自注意力缺乏对这种模式的明确建模,因为它只考虑单个粒度(即个人模式)下成对令牌之间的相关性。本文旨在同时利用个人模式和组模式进行全面建模。与以前的方法不同,它们在多个阶段(通常在Transformer主干中有四个阶段)中分别建模不同的模式,我们的方法在每个阶段的每个单独层中引入了一种编码此建模过程的新方法。具体来说,对于组模式,我们寻求将一些令牌的邻域与其他邻域相关联。本文建议通过在查询、键和值中生成组代理,并与代理进行Q-K-V计算来实现这一点,这在第3.2节中描述。我们实验发现,通过明确建模具有不同大小和个体令牌的组之间的相关性,不仅提高了所提出的GroupMixFormer的性能,而且提高了具有不同注意力模块的其他ViT的性能(如Swin Transformer [37]和PVT [53],如表9所示),证明升级基本组件可以使多个ViT受益。

3.2. GMA: 混合组以获得更好的注意力

我们引入GMA来模拟上述的组模式。在GMA中,我们通过替换Query、Key和Value中的一些条目来生成组代理,这些条目是通过聚合一些整个组来获得的,这可以通过滑动窗口操作 Agg ⁡ ( ⋅ ) \operatorname{Agg}(\cdot) Agg() 高效地实现,例如maxpooling、卷积等。具体来说,Q/K/V条目被均匀地分为n个段,并对一些段进行聚合。为了方便起见,我们使用 X i ( i ∈ [ 1 , ⋯ , n ] ) \mathrm{X}_{i}(i \in[1, \cdots, n]) Xi(i[1,,n]) 来表示一个段( X \mathrm{X} X 可能代表 Q \mathrm{Q} Q K \mathrm{K} K V \mathrm{V} V ),并使用 Agg ⁡ i ( X i ) \operatorname{Agg}^{i}\left(\mathrm{X}_{i}\right) Aggi(Xi) 来表示聚合。请注意,聚合器可能因每个段而异。为了进行注意力计算,我们将聚合 Agg ⁡ i ( X i ) , i ∈ [ 1 , ⋯ , n ] \operatorname{Agg}^{i}\left(\mathrm{X}_{i}\right), i \in[1, \cdots, n] Aggi(Xi),i[1,,n] 连接起来以产生 X ′ X^{\prime} X 。这样,我们获得组代理 Q ′ Q^{\prime} Q K ′ K^{\prime} K V ′ V^{\prime} V 。之后,我们像 [1,47,61] 中介绍的那样,在组代理上进行注意力计算,以生成输出。

在聚合过程中,我们保持特征分辨率。因此,在不降低空间分辨率的情况下,GMA为注意力计算带来了精细的特征,这优于那些减小特征大小的方法[19,55]。在本文中,我们使用具有各种内核大小的深度卷积来实现聚合器 Agg ⁡ ( ⋅ ) \operatorname{Agg}(\cdot) Agg() ,尽管我们发现其他实现也有效(如表6所示)。由于注意力输入现在是组代理,因此我们同时关联 K × K \mathrm{K} \times \mathrm{K} K×K 个令牌( K \mathrm{K} K 表示 Agg ⁡ ( ⋅ ) \operatorname{Agg}(\cdot) Agg() 的内核大小,对于每个段可能有所不同),而不是单个令牌,这对于建模相关性更加充分和全面。

使用基于滑动窗口的操作来聚合组以生成代理的想法虽然简单,但它是将不同大小和各种粒度的个体令牌混合在一起的关键。这是因为我们为每个段使用了不同的聚合器的内核大小。这种过程可以通过将段分成不同部分,将它们分别输入具有不同内核大小的聚合器中,然后将输出连接起来来实现。此外,受[17]的启发,我们还对其中一个段使用了恒等映射,而不是聚合器,以保持网络在建模单个令牌相关性方面的能力。因此,我们可以在计算注意力图的同时建模组和令牌之间的相关性。将注意力图与值相乘可以看作是将相应的组与单个令牌重新组合在一起。

具体来说,在实现自注意力[1,47,61]之后,我们还使用三个可学习的线性投影来生成Q、K和V。之后,我们将Q/K/V均匀地分成五个段,每个段参与不同的计算。如图3(左半部分)所示,一个分支对应于前面提到的段,四个分支的输出被送入注意力计算中,被称为预注意力分支。在三个预注意力分支中,我们使用各种不同的实现(例如,最小池化、平均池化、最大池化、深度卷积)作为聚合器 Agg ⁡ ( ⋅ ) \operatorname{Agg}(\cdot) Agg() ,具有不同的内核大小,分别设置为3、5、7。表6中的结果表明,每种实现都取得了良好的性能,这表明聚合是注意力进步的关键步骤,而其实施可以是灵活的。在我们的论文中,我们采用了深度卷积。我们进一步通过在最后一个预注意力分支中使用恒等映射而不是聚合器来多样化结构。除了这样一个具有注意力但没有聚合器的分支外,我们还构建了一个具有聚合器但没有注意力的分支,被称为非注意力分支。最后,输出由一个令牌集成层混合,该层由一个带有归一化[2]和激活的线性投影实现。
在这里插入图片描述

3.3. 架构配置

基于提出的Group-Mix Attention,我们引入了一系列名为GroupMixFormer的视觉Transformer,如图3所示。我们采用了四个阶段的分层[37,53]拓扑。第一个4 × patch嵌入层将图像嵌入到令牌中,这是通过两个连续的3 × 3卷积层实现的,每个卷积层的步长为2,另外两个3 × 3层的步长为1。在最后三个阶段开始时,我们使用2 × patch嵌入,这也是通过3 × 3卷积实现的。在每个阶段内,我们构建了几个编码器块。除了上一小节中介绍的GMA块外,编码器块还包含一个前馈网络(FFN)、层归一化[2]和恒等快捷方式,遵循[18, 37, 49, 53, 62]中的通用做法。对于图像分类,全局平均池化(GAP)后的最终输出令牌被送入分类器;对于密集预测任务(例如,目标检测和语义分割),特定任务的头部可以利用四个阶段输出的金字塔特征。由于我们已经通过GMA聚合器自然地打破了置换不变性,因此我们的模型中没有采用位置编码。

我们使用不同的架构配置实例化了四个模型。架构超参数包括每个阶段中的编码器块数量L、嵌入维度D和MLP比率R,如表1所示。根据之前的研究[37,49,53],我们的模型从移动规模的GroupMixFormer-M(5.7M)扩展到大型的GroupMixFormer-L(70.3M)。
在这里插入图片描述

4、实验

在本节中,我们在标准视觉识别基准测试中评估了我们的GroupMixFormer,包括ImageNet1K [46]、MS-COCO [34]和ADE20k [68]。我们为每个场景提供了实现细节、与最先进的视觉主干网的定量比较以及消融研究,如下所示。

4.1、实现细节

我们在ImageNet-1K数据集上评估了GroupMixFormer的图像分类性能。我们遵循[49, 64,65]来增强数据并使用[37]中的训练方案。我们使用初始学习率为 1 0 − 3 10^{-3} 103次方,进行300个训练周期,其中20个周期线性预热。我们使用AdamW优化器[39],权重衰减为0.05,余弦学习率策略。对于GroupMixFormer-M/T/S/B/L,我们将随机深度丢弃率[25]设置为0.0/0.1/0.2/0.4/0.5。对于更高的分辨率(例如 38 4 2 384^2 3842 44 8 2 448^2 4482),我们再用初始学习率为 2 × 1 0 − 6 2×10^{−6} 2×106且进行5个周期线性预热的AdamW [39]进行30个周期的微调,优化过程中的权重衰减为 1 0 − 8 10^{-8} 108次方。

对于目标检测和实例分割,我们采用了COCO 2017数据集。具体来说,我们将GroupMixFormer用作Mask R-CNN [24]的骨干网络进行目标检测和分割,仅用于检测的RetinaNet [35]。所有的骨干网络都通过相应的ImageNet预训练模型进行初始化。我们遵循[9]中的训练计划:初始学习率设置为 1 0 − 4 10^{-4} 104,线性预热500次迭代,然后分别在第24个和第33个训练周期逐步降低到 1 0 − 5 10^{-5} 105 1 0 − 6 10^{-6} 106。我们使用AdamW [39]进行Mask R-CNN和RetinaNet的训练,但前者权重衰减为0.05,后者权重衰减为 1 0 − 4 10^{-4} 104。除了COCO之外,我们还使用UperNet [57]和Semantic FPN [29]在ADE20k上进行语义分割性能评估。我们遵循[37, 53]使用公共工具包[13]进行训练和评估。Semantic FPN训练80k次迭代,UperNet训练160k次迭代,两者都使用AdamW优化器。

4.2. 与最先进模型的比较

图像分类。在表2中,我们将提出的GroupMixFormer与文献中的最先进模型进行比较,其中所有报告的结果都只使用ImageNet1k进行训练。为了公平比较,我们不使用任何额外的增强,如标记token [28]、知识蒸馏、SAM [20]等。我们观察到,在类似的模型大小和计算复杂度约束下,GroupMixFormer始终实现了比ViT和CNN模型更高的Top-1准确率。具体来说,当测试分辨率为 22 4 2 224^2 2242时,GroupMixFormer-S在只有22.4M参数的情况下实现了83.4%的top-1准确率,比第二好的ViT(CSWin-T [17])高出0.7%,比最好的CNN(ConvNext-T [38])高出1.3%。同时,当使用224 × 244图像训练时,GroupMixFormer-B甚至实现了与Swin-B [37]相似的准确率,尽管GroupMixFormer-B的大小仅为Swin-B的一半。此外,GroupMixFormer在更高分辨率下表现出令人满意的扩展性。例如,使用分辨率为 38 4 2 384^2 3842进行微调后,GroupMixFormer-S的性能进一步提高到85.0%;大约70M参数的GroupMixFormer-L在分辨率为 22 4 2 224^2 2242时达到85.0%,在分辨率为 38 4 2 384^2 3842时达到86.2%。这些结果表明,在建模视觉模式时,全面整合token-to-token和group-to-group相关性具有优势。此外,附录中提供了来自不同聚合器的注意力响应,以支持某些token应该作为一个整体进行处理的概念。
在这里插入图片描述

此外,我们根据经验观察到,在GMA中实现深度卷积作为聚合器确实会导致推理速度减慢。吞吐量报告在附录中。然而,这可以通过更有效的聚合器(例如,avg-pooling)和实现工程优化(例如“torch.compile”)来改进。我们将在未来的研究中探索模型的实际速度优化。

目标检测。表3显示了使用Mask R-CNN和RetinaNet检测器在COCO上的目标检测结果。使用Mask R-CNN,GroupMixFormer在相似模型参数下实现了更高的平均精度。具体来说,GroupMixFormer-T比第二好的模型CoaT Mini高出1.0%(即47.5% vs 46.5%),同时保持较小的模型大小为30.8M。此外,我们的GroupMixFormer-B实现了APb为51.5%,超过了所有可比较的模型。使用RetinaNet,GroupMixFormer也表现出优势:GroupMixFormer-T比Swin-B高出0.5%(即46.3% vs 45.8%),尽管我们的模型小得多(即20.2M vs 98.0M);GroupMixFormer-B比第二好的模型Focal-small高出2.9%(即50.2% vs 47.3%)。这些结果表明,GroupMixFormer在使用这两种检测器时都取得了良好的性能。一致且显著的提高证明了GroupMix机制的有效性,该机制应该能够捕捉到精细的特征以促进密集预测。

在这里插入图片描述

语义分割。表3还显示了使用Mask-RCNN在COCO上的语义分割结果。我们的GroupMixFormer-T令人印象深刻地实现了42.4%的APm,比Coat Mini高出0.6%,比PVTLarge高出1.7%。此外,GroupMixFormer-B的表现比Uniformer-B高出1.1%(即45.9% vs 44.8%)。在ADE20K上,我们使用UperNet和Semantic FPN并报告了结果(如表4所示)。同样,我们观察到GroupMixFormers与现有骨干网络相比,实现了持续且显著的性能提升。例如,尽管GroupMixFormer-T的模型大小小得多,但其在Semantic FPN上的表现比XCiT-S12/8高出2.0%(即46.2% vs 44.2%,14.1M vs 30.4M)。值得注意的是,尽管XCiT-M24/16的模型大小是GroupMixFormer-T的6.4倍(90.8M vs 14.1M),但GroupMixFormer-T的表现仍比后者高出0.3%(即46.2% vs 45.9%)。同样,使用UperNet时,GroupMixFormers的表现明显优于其他更大的模型,表明其在性能和效率之间达到了更好的权衡。如此显著的提升表明,Group-Mix机制能够为像素级预测产生高质量的特征。
在这里插入图片描述

4.3. 消融实验

在本小节中,我们进行消融实验以分析GroupMixFormer的关键设计。

(1) 我们首先通过改变GMA的结构设计来分析聚合器的必要性。

(2) 我们尝试使用各种聚合器的实现,以查看除卷积之外的其他基于滑动窗口的操作是否也有效。

(3) 我们验证GroupMixFormer的性能提升不是来自于宏观结构。

(4) 我们探索了核大小的优化配置。

(5) 我们进行实验以验证GMA不仅仅是卷积和自注意力机制的简单组合。

(6) 我们将GMA块插入到其他流行的ViT架构中,以验证GroupMixFormer的优越性能是否仅仅是由于架构设计(例如重叠的嵌入层和每个阶段中的块数)。

对于图像分类,我们在ImageNet-1k( 22 4 2 224^2 2242)上对GroupMixFormer-T进行300个epoch的训练,并在验证集上进行测试。对于目标检测和语义分割,我们在COCO上使用1×计划[9]训练Mask R-CNN。

组聚合器是必要的。表5显示了去除聚合器后的结果。我们首先通过将GMA块中的五个分支替换为恒等映射来构造GroupMixFormer-T基线,这样块就会退化为常规的自注意力模块。在第一组实验中,我们恢复了非注意力分支(Agg0)或三个预注意力分支(Agg1、Agg2和Agg3)中的聚合器。每个模型都使用与第4.1节中描述的相同配置从头开始进行训练。可以看出,聚合器都是至关重要的,因为它们将top-1准确率提高了0.4%和1.0%。
在这里插入图片描述

此外,表5中的第二组实验表明,在三个预注意力分支中使用聚合器的效果优于使用任何一个聚合器。在目标检测和语义分割中也有类似的实验结果。使用所有聚合器可以在一定程度上提高基线性能(例如,+0.7%APb和+0.5%APm)。这些结果表明,以更全面的方式建模相关性能够提供精细的视觉表示,从而有利于密集预测场景。

然后,我们分析了预注意力聚合器各种核大小对性能的影响。在不改变非注意力分支的情况下,我们用Agg1(3×3卷积)、Agg2(5×5)或Agg3(7×7)替换了所有预注意力聚合器。表5中的第二组结果表明,使用任何一组聚合器都可以提高分类和密集预测的性能,而3×3、5×5和7×7的组合产生了最理想的结果。具体来说,配备不同聚合器的GroupMixFormer-T在分类准确率上比基线高出+1.6%,在目标检测上高出+1.5%APb,在语义分割上高出+1.0%APm,这表明建模不同大小的组之间的相关性是提高性能的关键。
在这里插入图片描述

Depthwise convolution是一种有效的聚合器。请注意,聚合器的实现可以有多种。表6显示了我们关于不同聚合器实现的效果(例如,depthwise convolution[12]、max-pooling或average-pooling)。经验上观察到,由depthwise convolution实现的聚合器取得了略好的性能(分类Top-1准确率为82.5%,检测APb为42.5%,使用Mask R-CNN进行实例分割的APm为39.7%)。与最大池化和最小池化操作相比,卷积聚合器可以利用更多的可学习参数来计算相关性,从而实现更好的性能。

性能提升并非来源于宏观结构。与代表性作品[37、49、53]相比,我们的GroupMixFormer更深,补丁嵌入的实现也不同。为了证明性能提升不仅仅是由于更好的建筑超参数组合(包括Tab. 1中介绍的令牌维度、扩展比和层深度),我们将GroupMixFormer-T中的GMA块替换为Swin-attention或PVT-attention。Tab. 7中的结果显示,仅仅替换GMA会导致显著的性能下降,这证明了性能提升是由于先进的注意力机制而不是架构。

对于聚合器的核大小的最佳配置。为了找到最佳配置,我们采取了两种方法:(1)增大核大小,(2)以不同的顺序改变核配置。第一种方法涉及将核大小从(3,5,7)增加到(5,7,9)。对于第二种方法,我们在浅层部署具有较大核的聚合器,在深层部署较小核的聚合器,以及采用相反的配置。然而,正如Tab. 8所示,这些修改都没有我们最终采用的配置有效。

GMA不仅仅是卷积和自注意力的简单组合。我们进行了进一步的实验,以验证我们提出的GroupMixFormer本质上不同于卷积和自注意力的简单组合。具体来说,我们从GroupMixFormer-T中移除所有的组聚合器,并在整个自注意力模块之前插入一组以相同方式组织的卷积层(即,并行恒等映射、3×3、5×5和7×7层的组合)。Top-1准确率下降了1.0%(81.5%对比82.5%)。

聚合器是一种先进的通用构建块,可以应用于其他ViT。我们还可以通过简单地将它们插入原始注意力模块来将聚合器纳入代表性ViT(例如,Swin [37]和PVT [53])以处理它们的Query、Key和Value。Tab. 9中的结果显示,这种策略通常可以显著提高ViT的性能。例如,带有聚合器的PVT-Small达到了80.6%的Top-1准确率,比其原始结果高出0.8%。这表明提出的聚合器通过建模组相关性来推进ViT,从而实现对令牌的全面理解。

5、结论

在本篇论文中,我们提出了一种先进的注意力机制,名为Group-Mix Attention(GMA)。与流行的仅用于建模单独令牌之间相关性的多头自注意力(MHSA)不同,提出的GMA利用组聚合器同时捕获令牌到令牌、令牌到组和组到组的相关性。我们基于GMA提出了GroupMixFormer,并实现了一系列不同大小的实用视觉主干。在标准视觉识别基准上的大量实验(包括图像分类、目标检测和语义分割)已经验证了提出的GMA和GroupMixFormer的有效性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/224194.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用opencv的Sobel算子实现图像边缘检测

1 边缘检测介绍 图像边缘检测技术是图像处理和计算机视觉等领域最基本的问题,也是经典的技术难题之一。如何快速、精确地提取图像边缘信息,一直是国内外的研究热点,同时边缘的检测也是图像处理中的一个难题。早期的经典算法包括边缘算子方法…

【教程】源代码加密、防泄密软件

​ 什么是代码混淆? 代码混淆 是一种将应用程序二进制文件转换为功能上等价,但人类难于阅读和理解的行为。在编译 Dart 代码时,混淆会隐藏函数和类的名称,并用其他符号替代每个符号,从而使攻击者难以进行逆向工程。 …

VBA_MF系列技术资料1-242

MF系列VBA技术资料 为了让广大学员在VBA编程中有切实可行的思路及有效的提高自己的编程技巧,我参考大量的资料,并结合自己的经验总结了这份MF系列VBA技术综合资料,而且开放源码(MF04除外),其中MF01-04属于定…

C#科学绘图之scottPlot绘制多个图像

文章目录 示例移除图像图例信号图 scott系列:绘图初步 示例 从名字就能看出,ScottPlot的绘图函数AddScatter的作用是为图窗添加数据点,换言之,每调用一次AddScatter,就可以在图窗中添加一组图像。下面添加两个按钮&a…

CS5565设计资料|CS5565规格书|typec转HDMI 8k60Hz方案

CS556x是一款高性能的Type-C/DisplayPort1.4到HDMI2.1协议转换器,可通过Type-C/ DisplayPort链路接收视频和音频流,并转换为支持TMDS或FRL输出信令的HDMI。DP接收器在4个通道上支持高达8.1Gbps的链路速率。HDMI输出端口可用作TMDS或FRL发射器。FRL发射器…

天猫数据分析(天猫数据查询平台):11月天猫啤酒市场销售数据分析报告

在酒类市场中,被视作“气氛担当”的啤酒,是派对聚会或者自饮场景中的常客,消费人群广泛,如今,啤酒市场已进入存量时代,市场中啤酒的销售也在稳步增长。 鲸参谋数据显示,今年11月份,天…

技术分享 | app测试中常用的Android模拟器

Emulator Emualor 是 Android Studio 自带的模拟器,是官方提供的工具,Android 开发最常使用的就是这一款。 它功能非常齐全,电话本、通话等功能都可正常使用。用户可以使用键盘输入,鼠标点击模拟器按键输入,甚至还可以…

十四、YARN核心架构

1、目标 (1)掌握YARN的运行角色和角色之间的关系 (2)理解使用容器做资源分配和隔离 2、核心架构 (1)和HDFS架构的对比 HDFS架构: YARN架构:(主从模式) &…

医学检验系统LIS源码,C# +.Net+Oracle

LIS是HIS的一个组成部分,通过与HIS的无缝连接可以共享HIS中的信息资源,使检验科能与门诊部、住院部、财务科和临床科室等全院各部门之间协同工作。  体系结构:Client/Server架构 客户端:WPFWindows Forms 服务端:C…

escapeshellarg参数绕过和注入的问题

escapeshellcmd escapeshellcmd(string $command): string command--要转义的命令。 escapeshellcmd() 对字符串中可能会欺骗 shell 命令执行任意命令的字符进行转义。 此函数保证用户输入的数据在传送到 exec() 或 system() 函数,或者 执行操作符 之前进行转义。 …

pytest + yaml 框架 -60.git+jenkins+allure+钉钉通知反馈

前言 当我们自动化用例写完后,接下来就是如何运行用例,生成报告以及反馈通知了。 如果你们公司已经有jenkins了,那么直接集成到jenkins上构建你的自动化任务是非常方便的。 用例上传git仓库 第一步,将写好的自动化用例&#xf…

保障线程安全性:构建可靠的多线程应用

目录 引言 为什么线程安全性如此重要? 1. 竞态条件(Race Conditions) 2. 死锁(Deadlocks) 3. 数据竞争(Data Races) 4. 内存可见性(Memory Visibility) 面临的挑战…

一张图系列 - “leetcode快速复习“

什么是leetcode? LeetCode是一个在线评测平台,提供大量算法题目,可帮助程序员提高编程和算法能力。它主要提供算法和数据结构相关的练习题,包括各种难度级别的编程题,从简单的算法题到复杂的系统设计问题都有。用户可…

【玩转TableAgent数据智能分析】TableAgent全功能详解及多领域数据分析实践(中)不同领域数据分析实践

3 电影点评数据分析实践 利用本身自带的电影点评数据,来具体看一下TableAgent的分析能力,选择电影点评数据,智能体会自动导入该数据DMSC20000.csv,大小为3.3 MB。在数据信息展示区,就会显示出该数据,并提供…

知识付费平台选择指南:如何找到最适合你的学习平台?

在当今的知识付费市场中,用户面临的选择越来越多,如何从众多知识付费平台中正确选择属于自己的平台呢?下面,我们将为您介绍我有才知识付费平台相比同行的优势,帮助您做出明智的选择。 一、创新的技术架构,…

Java研学-MyBatis框架

一 MyBatis框架 1 框架介绍 框架:对基础代码进行封装并提供相应的API,调用API可省去一些代码的编写,从而提高效率。一个好的框架一定是经过测试,自身的功能已经实现,可以完成特定的功能。 2 MyBatis 框架 MyBatis 框…

基于物理的AlGaN/GaN HEMT器件2DEG电荷密度分析模型(文献阅读)

标题:A Physics-Based Analytical Model for 2DEG Charge Density in AlGaN/GaN HEMT Devices (IEEE TRANSACTIONS ON ELECTRON DEVICES) 重要公式 2DEG电荷密度建模的困难源于量子阱中Ef随ns的复杂变化。此关系由给出 n s D V t h [ l n ( l e E f − E 0 V t …

文献速递:PET-影像组学专题--PET衍生的影像组学和人工智能在乳腺癌中的应用:一篇系统综述

文献速递:PET-影像组学专题–PET衍生的影像组学和人工智能在乳腺癌中的应用:一篇系统综述 01 文献速递介绍 乳腺癌(BC)是目前流行度最高的恶性肿瘤,也是全球女性癌症相关死亡的第二大原因,过去十年间发病…

开个酸奶店需要投资多少钱,创业优势在哪里

作为酸奶店创业5年的创业者,我给大家做个详细全面的分析。让你花最少的钱开一家属于你的酸奶店! 这几年,随着奶茶店的烂大街,酸奶产品开始展露头脚,受到了无数消费者的追捧。从而很多创业者也瞄准了这个市场&#xff…

产品经理之Axure的元件库使用详细案例

⭐⭐ 产品经理专栏:产品专栏 ⭐⭐ 个人主页:个人主页 ​ 目录 前言 一.Axure的元件库的使用 1.1 元件介绍 1.2 基本元件的使用 1.2.1 矩形、按钮、标题的使用 1.2.2 图片及热区的使用 1.3 表单元件及表格元件的使用 1.3.1表单元件的使用 1.3.…