文章目录
- 摘要
- 1、引言
- 2、相关工作
- 3、方法
- 3.1、重新审视坐标注意力
- 3.1.1、坐标注意力
- 3.1.2、坐标注意力的不足
- 3.2、高效局部注意力
- 3.3、多个ELA版本设置
- 3.4、可视化
- 3.5、实现
- 4、实验
- 4.1、实验细节
- 4.2、ImageNet上的图像分类
- 4.3、目标检测
- 4.4、语义分割
- 5、结论
摘要
https://arxiv.org/pdf/2403.01123.pdf
注意力机制由于其能够有效提升深度神经网络性能的能力,在计算机视觉领域获得了广泛认可。然而,现有方法往往难以有效利用空间信息,或者在利用空间信息的同时会牺牲通道维度或增加神经网络的复杂性。为了解决这些局限性,本文提出了一种高效的局部注意力(ELA)方法,该方法以简单的结构实现了显著的性能提升。通过分析坐标注意力方法的局限性,我们发现了批量归一化缺乏泛化能力、维度减少对通道注意力的不利影响以及注意力生成过程的复杂性等问题。为了克服这些挑战,我们提出了将一维卷积和组归一化特征增强技术融入ELA的方法。这种方法能够在无需维度减少的情况下,通过有效地编码两个一维位置特征图来实现对感兴趣区域的精确定位,同时保持轻量级的实现方式。我们精心设计了ELA中的三个超参数,得到了四个不同版本:ELA-T、ELAB、ELA-S和ELA-L,以满足图像分类、目标检测和语义分割等不同视觉任务的具体需求。ELA可以无缝集成到深度卷积神经网络中,如ResNet、MobileNet和DeepLab。在ImageNet、MSCOCO和Pascal VOC数据集上的广泛评估表明,所提出的ELA模块在上述三个视觉任务中均优于当前最先进的方法。
1、引言
深度卷积神经网络(CNNs)已成为计算机视觉领域的重要研究方向,为图像分类、目标检测和语义分割等任务带来了显著的进步。包括AlexNet[20]、ResNet[12]、YOLO[21, 28, 35]和MobileNet[16]在内的多个杰出模型都推动了这一领域的发展。尽管Transformer模型带来了许多创新[6, 8, 34],但深度卷积神经网络凭借其特有的归纳偏置,能够有效地从中小规模数据集中学习——这是Transformer所不具备的能力。因此,设计更高效的网络架构仍是当代研究者需要解决的重要挑战[7, 19, 22, 32, 33, 37]。在深度CNNs领域,注意力机制被提出作为模拟人类认知行为的一种手段[15, 17, 18, 23, 24, 36, 39, 41]。这种机制使神经网络能够专注于相关信息,同时忽略不重要的细节,从而增强网络的学习能力。
一个典型的例子是SE块注意力[18],它利用2D全局池化将空间维度压缩成通道维度,从而促进特征学习的增强。然而,SE块仅考虑编码通道间的信息,忽略了特征图的空间位置信息。虽然BAM[26]和CBAM[39]提取了空间注意力,但它们未能建模视觉任务中至关重要的长距离依赖关系[29],同时还减少了输入特征图的通道维度。为了应对这些挑战,开发了坐标注意力(CA)[15]方法,该方法将空间位置信息嵌入到通道注意力中,使移动网络能够准确地捕获长距离空间相互关系。这种改进为各种CNN架构带来了好处。然而,CA也表现出明显的局限性,主要源于其泛化能力不足以及对通道维度减少的不利影响。
众所周知,图像的空间维度包含了重要的位置信息。另一方面,现有的注意力机制要么无法有效利用这种空间信息,要么在利用空间信息的同时牺牲了通道维度。本文的焦点是解决以下问题:我们能否以更高效的方式学习空间注意力?这种方法应该能够在不损害输入特征图通道维度的前提下,获得空间维度上的准确位置预测,同时保持注意力模块的轻量级特性。
为了回答这个问题,让我们重新审视CA机制[15]。CA模块的设计分为两步。第一步,利用strip pooling[14]生成包含输入张量空间维度水平和垂直坐标信息的特征图。第二步,对上述两个方向的特征图进行两次二维卷积,然后应用批量归一化(BN)[40]和非线性激活函数,得到最终的注意力。显然,CA的设计过程相对复杂,涉及特征图在两个方向上的多次分离和合并。虽然两次二维卷积增强了坐标信息,但也减少了通道维度,对生成的注意力产生了负面影响。此外,将BN引入CA也带来了明显的弱点。例如,过小的迷你批次大小可能会对整个模型产生不利影响,并阻碍其泛化能力。表2和表3中的消融实验结果进一步支持了这些观察。
因此,本文为深度CNN提出了高效局部注意力(ELA)模块,它能够准确捕获感兴趣区域的位置,保持输入特征图通道的维度,并保留其轻量级的特性,如图2(c)所示。与CA类似,ELA在空间维度上使用strip pooling[14]获得水平和垂直方向的特征向量,保持狭窄的核形状以捕获长距离依赖关系,并防止无关区域影响标签预测,从而在各自方向上产生丰富的目标位置特征。ELA独立处理每个方向上的上述特征向量以获得注意力预测,然后使用乘积运算将它们组合起来,确保感兴趣区域的准确位置信息。具体来说,在第二步中,应用一维卷积分别与两个特征向量进行局部交互,可以选择调整核大小以指示局部交互的范围。得到的特征向量经过分组归一化(GN)[40]和非线性激活函数处理,以产生两个方向上的位置注意力预测。最终的位置注意力是通过将两个方向上的位置注意力相乘得到的。与二维卷积相比,一维卷积更适合处理序列信号,并且更轻量、更快。GN与BN相比表现出相当的性能和更强的泛化能力。
表1展示了关键的CNN注意力模块,指出了它们在通道维度减少(DR)、长距离依赖和轻量级设计(轻量级模型参数少于SE)方面的特性。从表中可以看出,我们的ELA在这三个方面都表现出色。我们通过在ImageNet[5]、Pascal VOC[9]和MS COCO[25]等数据集上的实验结果评估了我们的方法的有效性(参见表5)。实验结果表明,我们提出的方法在ImageNet top-1上的分类准确率提高了2.39%。此外,我们的方法在目标检测和语义分割方面表现出最显著的性能提升。因此,我们提出的ELA方法证明比目前最流行的注意力机制更具竞争力。
本文的贡献总结如下:(1)我们分析了坐标注意力(CA)[15],并通过实验验证了其BN和通道维度减少对CNN架构的不利影响。(2)基于上述分析,我们提出了一种轻量级的Efficient Local Attention(ELA)模块。该模块有助于深度CNN准确定位感兴趣的对象,仅通过少量增加参数即可显著提高CNN的整体性能。(3)在ImageNet、MS COCO和Pascal VOC等流行数据集上的广泛实验结果表明,我们提出的方法在性能上超越了当前最先进的注意力方法,同时保持了具有竞争力的模型复杂度。
2、相关工作
注意力机制在增强深度CNN方面发挥着至关重要的作用,这一点已得到广泛认可。SE块[18]是首次成功尝试将注意力机制用于学习通道注意力的方法。随后,注意力机制在这两个方向上取得了重大进展:(1) 仅聚合通道特征;(2) 结合通道特征与空间特征。
具体来说,CBAM[39]同时利用平均池化和最大池化来沿通道维度和空间维度组合特征。另一方面,GCNet[1]是一个轻量级的注意力网络,它利用诸如自注意力机制[34]、非局部网络[38]和压缩-激励网络[18]等技术。SA-Net[42]建立在空间注意力和通道注意力的组合之上,并引入特征分组和通道替换来实现轻量级的注意力机制。CBAM、GCNet和SA-Net都结合了空间注意力和通道注意力。GSoP[10]引入二阶池化,以实现对整个图像的高阶统计建模,从而增强深度卷积网络的非线性建模能力。另一方面,ECA-Net[36]利用一维卷积生成通道注意力权重,与SE块相比显著降低了建模复杂性。GSoP和ECA-Net都属于通道增强的聚合方法。
然而,在上述提到的注意力网络中,要么在空间维度上缺乏长距离依赖,要么对通道维度进行了缩减。长距离空间依赖性的缺失使得准确定位感兴趣的空间对象和获取重要对象的位置信息变得具有挑战性。虽然通过减少通道维度可以降低模型的复杂性,但这也破坏了通道与其权重之间的直接对应关系。为了解决这些限制,我们提出的ELA方法有效地捕获了长距离空间依赖关系,并消除了通道缩减对注意力网络产生的负面影响。
3、方法
Efficient Local Attention(ELA)模块作为一个计算单元,旨在增强深度CNN中感兴趣区域或重要对象位置的准确识别。为了清楚地解释我们提出的Efficient Localization Attention(ELA)方法,本节首先重述CA[15]所涉及的两个步骤。接着,我们分析BN和通道降维的影响,并通过实验评估CA在一些小型模型中的应用。这些发现为引入ELA奠定了基础。然后,我们深入探讨ELA的构建过程,并在ELA内部结合一维卷积和GN的超参数设计四个版本。最后,我们采用Grad-cam[31]方法进行可视化,进一步说明ELA的有效性。图2(b)提供了ELA整体结构的概述。
3.1、重新审视坐标注意力
3.1.1、坐标注意力
坐标注意力(CA)主要由两个主要步骤组成:坐标信息嵌入和坐标注意力生成。在第一步中,作者提出了一种巧妙的方法来捕获长距离空间依赖关系,即使用条带池化(strip pooling)代替空间全局池化,这是一个深思熟虑的设计决策。
考虑一个卷积块的输出,表示为 R H × W × C \mathbb{R}^{H \times W \times C} RH×W×C,其中 H H H、 W W W 和 C C C 分别代表高度、宽度和通道维度(即卷积核的数量)。为了应用条带池化[14],我们在两个空间范围内对每个通道进行平均池化:在水平方向 ( H , 1 ) (\mathrm{H}, 1) (H,1) 和垂直方向 ( 1 , W ) (1, \mathrm{~W}) (1, W)。这导致在高度 h h h 处第 c c c 个通道的输出表示,以及在宽度 w w w 处第 c c c 个通道的输出表示。这些可以用数学表达式 Eq1 和 Eq2 来表示。
z c h ( h ) = 1 H ∑ 0 ≤ i < H x c ( h , i ) z_{c}^{h}(h)=\frac{1}{H} \sum_{0 \leq i<H} x_{c}(h, i) zch(h)=H1∑0≤i<Hxc(h,i)
z c w ( w ) = 1 W ∑ 0 ≤ j < W x c ( j , w ) z_{c}^{w}(w)=\frac{1}{W} \sum_{0 \leq j<W} x_{c}(j, w) zcw(w)=W1∑0≤j<Wxc(j,w)
在第二步中,由Eq 1和Eq 2生成的特征图被聚合成一个新的特征图。然后,这个新特征图被送入共享变换函数 F 1 F_{1} F1(这是一个二维卷积)和批归一化(BN)。这个过程可以表示如下:
f = δ ( B N ( F 1 ( [ z h , z w ] ) ) ) , f=\delta\left(B N\left(F_{1}\left(\left[z^{h}, z^{w}\right]\right)\right)\right), f=δ(BN(F1([zh,zw]))),
在上面的描述中,沿空间维度的级联操作用 [ − ; − ] [-; -] [−;−]表示。 δ \delta δ代表非线性激活函数。经过水平和垂直方向的编码后,得到中间特征图,表示为 R C / r × ( H + W ) \mathbb{R}^{C / r \times(H+W)} RC/r×(H+W)。随后,沿空间维度得到 f h ∈ R C / r × H f^{h} \in \mathbb{R}^{C / r \times H} fh∈RC/r×H和 f w ∈ R C / r × W f^{w} \in \mathbb{R}^{C / r \times W} fw∈RC/r×W。此外,还应用另外两个 1 × 1 1 \times 1 1×1卷积变换,记为 F h , F w F_{h}, F_{w} Fh,Fw,以生成与输入 X X X具有相同通道数的张量。
\begin{aligned}
g_{c}^{h} & =\sigma\left(F_{h}\left(f^{h}\right)\right), \
g_{c}^{w} & =\sigma\left(F_{w}\left(f^{w}\right)\right),
\end{aligned}
在这个上下文中,也使用了sigmoid函数 σ \sigma σ。为了降低额外模块的复杂性,通常通过适当的缩减率(如32)来减少 f f f中的通道数。得到的输出 g c h g_{c}^{h} gch和 g c w g_{c}^{w} gcw被扩展并用作注意力权重,分别对应于水平和垂直方向。最终,CA模块的输出可以表示为 Y Y Y。
y c ( i , j ) = x c ( i , j ) × g c h ( i ) × g c w ( j ) , y_{c}(i, j)=x_{c}(i, j) \times g_{c}^{h}(i) \times g_{c}^{w}(j), yc(i,j)=xc(i,j)×gch(i)×gcw(j),
通过观察等式3、4和5,我们可以注意到通道维度的减少旨在降低模型的复杂性。然而,这导致通道与其对应权重之间存在间接关系,这可能对整体的注意力预测产生不利影响。此外,重要的是要强调,批量归一化(BN)并不利于坐标注意力(CA)的有效泛化能力。在后续部分,我们将进一步探讨这些观察结果的细节。
3.1.2、坐标注意力的不足
正如Wu等人(2018)[40]的研究所指出的,批量归一化(BN)严重依赖于小批量大小。当批量太小时,BN计算的均值和方差可能无法充分代表整个数据集,从而可能损害模型的整体性能。从等式1和等式2获得的坐标信息嵌入表示每个通道维度内的序列信息。在处理序列化数据的网络中放置BN并不是最优选择,特别是对于CA方法。因此,CA可能会对较小的网络架构产生负面影响。相反,当在CA中使用组归一化(GN)替代BN,并将其融入较小的网络架构中时,性能会立即得到显著提升。
此外,对CA结构的深入分析可以揭示更多的挑战。在其第二步开始时,特征图 z h z_{h} zh和 z w z_{w} zw被连接成一个新的特征图,并随后进行编码。然而, z h z_{h} zh和 z w z_{w} zw这两个方向的特征图具有不同的特性。因此,一旦它们被合并并捕获特征,它们各自连接处的相互影响可能会损害每个方向注意力预测的准确性。
表2和表3清晰地展示了使用BN时CA的性能下降情况。例如,ResNet18的Top 1准确率下降了1.12%-0.09%,而YOLOX-Nano的性能下降了1.57%-0.64%。然而,当用GN替代BN时,ResNet18的Top 1准确率提高了0.32%-0.44%,YOLOX-Nano的性能也提升了0.51%-0.70%。因此,在处理小型模型时,使用BN会削弱CA的泛化性能。此外,值得注意的是,带有BN的CA由于维度减少因子的变化而引入了显著的性能不确定性,缺乏大型模型所表现出的规律性。
此外,在图2(b)中观察到,在坐标注意力生成过程中,使用了两次二维卷积。这些卷积增强了坐标信息,但导致了通道维度的减少。虽然这个过程降低了模型的复杂性,但它对注意力的生成产生了明显的副作用。
尽管MobileNetV2只有3.5MB的参数,但为什么CA能在MobileNetV2中带来显著的性能提升呢?与只有18个卷积层和全连接层的ResNet18相比,MobileNetV2的参数确实较少,可以被认为是较小的模型。然而,MobileNetV2-1.0却拥有多达57个卷积层,甚至超过了ResNet50。此外,MobileNetV2通常使用256的批处理大小进行训练,这使得在应用CA时可以避免BN的负面影响,并有效地利用其优势。根据[40],MobileNetV2-1.0通过使用深度可分离卷积[4]实现了计算复杂度和参数的显著减少。如果采用常规卷积,参数数量将大幅增加。因此,即使MobileNetV2的模型规模较小,其独特的网络结构和训练策略使得CA能够发挥出色,从而实现了性能的提升。
3.2、高效局部注意力
CA方法通过利用条带池化捕获空间维度上的长程依赖关系,在准确率方面展现出了显著的提升,特别是在较深的网络中。基于我们之前的分析,很明显BN会阻碍CA的泛化能力,而GN则能够解决这些不足。从等式1和等式2中导出的定位信息嵌入是通道内的序列信号。因此,对于处理这些序列信号,通常使用1D卷积比2D卷积更为合适。1D卷积不仅擅长处理序列信号,而且相比2D卷积更加轻量级。在CA的情况下,尽管使用了两次2D卷积,但它使用的是1x1的卷积核,这限制了特征的提取能力。因此,我们采用了核大小为5或7的1D卷积,这有效地增强了定位信息嵌入的交互能力。这一改进使得整个ELA能够准确地定位感兴趣的区域。
基于从等式1和等式2获得的定位信息嵌入,我们的ELA采用了一种新颖的编码方法来生成精确的位置注意力图。该过程的详细描述如下。
通过等式1和等式2得到的 z h z_h zh和 z w z_w zw不仅捕获了全局感官字段,还包含了精确的位置信息。为了有效利用这些特征,我们设计了简单的处理方法。我们应用一维卷积来增强水平和垂直方向上的位置信息。随后,我们使用 G n G_n Gn(表示为 G n G_{n} Gn)来处理增强的位置信息,从而得到水平和垂直方向上的位置注意力表示,如等式7和等式8所述。
y h = σ ( G n ( F h ( z h ) ) ) , y w = σ ( G n ( F w ( z w ) ) ) , \begin{aligned} y^h & =\sigma\left(G_{n}\left(F_h\left(z_h\right)\right)\right), \\ y^w & =\sigma\left(G_{n}\left(F_w\left(z_w\right)\right)\right), \end{aligned} yhyw=σ(Gn(Fh(zh))),=σ(Gn(Fw(zw))),
在上述描述中,我们用 σ \sigma σ表示非线性激活函数,并用 F h F_h Fh和 F w F_w Fw表示一维卷积。我们选择将 F h F_h Fh和 F w F_w Fw的卷积核大小设置为5或7。通常,大小为7的卷积核表现更好,但参数数量稍多。为了在性能和参数数量之间取得平衡,一维卷积的组数通常选择为 i n p l a n e s in_planes inplanes或 i n p l a n e s / 8 in_planes/8 inplanes/8。水平和垂直方向上的位置注意力表示分别用 y h y^h yh和 y w y^w yw表示。最后,我们可以通过应用等式9获得ELA模块的输出,表示为 Y Y Y。
Y = x c × y h × y w Y = x_c \times y^h \times y^w Y=xc×yh×yw
3.3、多个ELA版本设置
根据等式3和等式4,我们的ELA涉及三个参数:一维卷积的kernel_size和groups,以及GN的num_group。为了提升卷积神经网络(CNNs)的性能,有效设置这些参数至关重要。我们旨在在ELA的性能和复杂性之间取得平衡。在我们的实验中,我们使用ResNet-18和ResNet-50作为主干网络,并整合ELA来确定合理的参数值。
对于GN的num_group参数,我们参考[40]并分别选择16和32这两个值。一维卷积能够在交互作用中捕获位置信息。一般来说,一维卷积中较大的kernel_size能够更广泛地覆盖位置信息,从而获得稍好一些的性能结果。但是,它也会增加ELA的复杂性。在我们的实验中,我们评估了kernel_size为5和7的情况,并发现kernel_size=7提供了更好的性能,尤其是对于ResNet-50。
关于一维卷积的groups参数,我们探索了两种方案:深度可分离卷积(groups=in_channels)和分组卷积(groups=in_channels/8)。根据表3中的结果,在大多数情况下,使用分组卷积(groups=in_channels/8)的性能优于深度可分离卷积(groups=in_channels)。此外,我们还观察到,对于ResNet-18,除了kernel_size=7外,num_group值为16时也能获得更好的结果。
为了优化ELA的性能并同时考虑参数数量,我们引入了四种方案:ELA-Tiny(ELA-T)、ELA-Base(ELA-B)、ELA-Small(ELA-S)和ELA-Large(ELA-L)。我们将ELA-T的参数配置定义为kernel_size=5,groups=in_channels,num_group=32;将ELA-B的参数配置定义为kernel_size=7,groups=in_channels,num_group=16;将ELA-S的参数配置定义为kernel_size=5,groups=in_channels/8,num_group=16;将ELA-L的参数配置定义为kernel_size=7,groups=in_channels/8,num_group=16。ELA-T和ELA-B被设计为轻量级版本,适用于网络层数较少或轻量级的CNN架构。另一方面,ELA-B和ELA-S在具有更深结构的网络上表现最佳。此外,ELA-L特别适用于大型网络。值得注意的是,即使ELA-L的参数数量少于最轻的CA方法(r=32),它仍然能够取得令人印象深刻的结果。
3.4、可视化
为了评估ELA方法的有效性,我们在ImageNet数据集上进行了两组实验:ResNet(不带注意力模块)和ELA-ResNet(带有ELA)。为了评估性能,我们使用了五张图像进行测试。通过使用GradCAM[31]生成可视化热图,我们展示了两组模型在layer4.2(最后阶段的最后一个瓶颈)上的结果。图3表明,我们提出的ELA模块成功地引导整个网络更精确地关注物体细节的相关区域。这一演示突显了ELA模块在提高分类准确性方面的有效性。
3.5、实现
图2(b)展示了我们的ELA的概述。这个模块可以无缝地集成到与CA[15]具有相同配置的深度CNN中。在PyTorch或TensorFlow中实现ELA只需要编写少量的代码,并且支持自动微分。为了证明这一点,我们在图4中提供了ELA-B的PyTorch代码示例。
4、实验
在本节中,我们使用ImageNet[5]、MS COCO[25]和VOC2007/2012[9]数据集分别评估我们提出的方法在大规模图像分类、目标检测和语义分割任务上的性能。具体来说,我们将概述我们的实验设置,将我们提出的ELA方法与最先进的对应模块进行比较,并展示ELA方法与其他对应方法在目标检测和语义分割方面的比较结果。
4.1、实验细节
所有实验均使用PyTorch工具箱[27]进行,训练使用NVIDIA GPU完成。为了评估ELA模块在ImageNet上的分类有效性,我们使用四个CNN作为骨干网络,包括MobileNetV2[30]、ResNet-18[12]、ResNet-50[12]和ResNet-101[12]。
对于MobileNetV2,小批量大小设置为256,使用SGD优化器,动量均为0.9,权重衰减设置为4×10⁻⁵。我们采用余弦退火策略进行学习率衰减,初始学习率为0.025,所有模型均训练总计200个epoch。数据增强方面,我们采用与MobileNetV2[30]相同的方法。我们给出了在ImageNet数据集上的分类结果。
对于所有三个ResNet网络,我们采用了与[12]中描述相同的数据增强和超参数设置。具体来说,输入图像被随机裁剪为224×224大小,并随机进行水平翻转。网络参数使用带有权重衰减为1×e⁻⁴和动量为0.99的随机梯度下降(SGD)进行优化。所有模型总共训练了90个epoch,初始学习率设为0.1和0.05。每30个epoch,学习率降低10倍。
4.2、ImageNet上的图像分类
MobileNetV2 我们探索了使用MobileNetV2架构作为骨干网络的ELA-S、ELA-L和CA的性能。对于CA,我们选择了维度缩减因子分别为16、24和32。在验证实验中,我们将注意力块插入到MobileNetV2的Inverted Residual Block中,确保所有模型的训练设置一致。表4中的结果表明,我们的ELA-S模块将原始MobileNetV2的top-1准确率提高了约2.39%。此外,与CA方法相比,我们的ELA方法展现出优越的性能,同时使用的参数更少,计算复杂度更低。这些发现进一步验证了ELA方法的有效性和效率。
值得强调的是,将CA(r=16)加入到MobileNetV2中会使参数数量显著增加超过35%。这对于移动网络来说是一个潜在的缺点,因为它们往往优先考虑参数效率。
ResNet 我们将ELA与各种最先进的注意力模块进行了比较,包括SE块[18]、CBAM[39]、ECA-Net[36]、SA-Net[42]和CA[15]。评价指标既包括效率(网络参数、每秒浮点运算次数(GFLOPs))也包括有效性(Top-1/Top-5准确率)。为了评估不同模型的效率和有效性,我们使用了公开可用的ResNet网络,在BasicBlock或BottleBlock中加入了各自的注意力机制,并在相同的计算平台上进行了应用。与最先进的(SOTA)模型相比,ELA实现了更高的准确率。具体来说,当ResNet18作为骨干网络时,ELA将Top-1准确率提高了0.93%。对于ResNet50,提升为0.8%,而对于ResNet101,提升为0.21%。值得注意的是,当使用ResNet50作为骨干网络时,ELA仅将参数数量增加了0.03%,却将绝对性能提高了0.8%,这明显展示了ELA的有效性。
我们观察到,当ResNet18作为骨干网络时,CA的缺点变得显而易见。其有效性主要在大规模网络中体现。另一方面,在这种情况下,ECA的有效性受到限制,因为ResNet18模型中有几层的通道数少于128。这与ECA方法的设置[36]不匹配,该方法需要一个大小为3的1D卷积核,这阻碍了其有效促进通道交互的能力。
4.3、目标检测
在MS COCO上的目标检测
我们选择了YOLOF[3]目标检测器来比较ELA方法与CA方法的性能。YOLOF使用ResNet50[12]作为骨干网络,并在MS COCO[25]数据集上进行实验。注意力模块仅在骨干网络的输出、编码器的投影器之后以及其前三个残差块之后使用五次。对于所有实验,我们都使用了SGD优化器。训练在800×1333分辨率的单尺度上进行,每个小批量包含总共16张图像。初始学习率设置为0.003,预热期为1500次迭代。根据“1×计划”方案总共训练了12个epoch。学习率在第8个和第11个epoch后分别降低10倍。在模型推理期间,使用阈值为0.6的NMS对结果进行后处理。其余超参数遵循[3]中指定的设置。
根据表6,虽然CA方法有助于提升YOLOF目标检测器的性能,但我们提出的ELA方法在模型参数和多样化性能指标的提升上显著超越了CA方法。特别是当使用YOLOF[3]作为基础检测器(以ResNet-50为骨干网络)时,ELA在AP50:95上展示了0.68%的改进。
在Pascal VOC2007上的目标检测。此外,我们还在Pascal VOC数据集上使用YOLOX-Nano[11]验证了ELA的有效性。我们仅在YOLOX-Nano的骨干网络之后和颈部特征融合层之后添加了ELA模块和其他相应的注意力模块。模型通过迁移学习进行训练,加载了MS COCO上的预训练权重。对于所有实验,我们使用了SGD优化器,初始学习率设置为0.02。学习率衰减采用余弦退火策略[13]进行控制,权重衰减为0.0005,动量为0.937。批量大小设置为16,输入图像尺寸为640×640。模型在训练数据集上总共训练了72个epoch。我们排除了mixup增强,并通过将尺度范围从[0.1,2.0]调整为[0.5,1.5]来调整马赛克技术。其他超参数配置请参考[11]。
在表7中,我们使用YOLOX-nano模型作为基线,展示了不同注意力方法在Pascal VOC 2007测试集上的检测结果。我们观察到CA方法显著降低了基线的性能,而ECANet和SA-Net对基线性能的提升微乎其微。相比之下,融入我们的ELA导致了基线性能的显著增强,实现了1.1%的mAP提升。在MS COCO和Pascal VOC数据集上的目标检测实验均表明,与其他注意力方法相比,ELA方法展现出了优越的性能提升。
4.4、语义分割
最后,我们展示了在Pascal VOC2012[9]上使用DeepLabV3[2]的ELA进行语义分割的结果。我们采用ResNet-50[12]作为骨干网络,在每个Bottleneck中的每个3×3卷积之后以及每个层之后应用注意力方法。我们使用输出步长=16的方法,并使用批量大小为12来计算批量归一化统计量。训练批量归一化参数时,我们使用的裁剪大小为513,衰减为0.9997。训练过程在train_aug数据集上进行40K次迭代,初始学习率为0.025。所有模型均使用PyTorch工具包^{1}实现。
如表8所示,CA方法在DeepLabV3上展示了优越的性能提升能力。然而,SE块和ECA-Net方法并未显著改善DeepLabV3的性能。令人惊讶的是,SA-Net实际上导致了DeepLabV3模型性能的下降,这表明SA-Net的泛化能力并不特别好。与所有上述方法相比,ELA方法为该模型展示了最佳的性能提升。上述实验结果充分证明了ELA方法在各种计算机视觉任务中的强大泛化能力。
5、结论
本文介绍了一种创新的注意力机制——高效局部注意力(ELA),旨在增强卷积神经网络(CNN)的表示能力。ELA通过其轻量级和直观的结构简化了对感兴趣区域进行精确定位的过程。实验结果表明,ELA是一种即插即用的注意力方法,无需进行通道维度缩减。此外,ELA在各种深度CNN架构中均能实现显著的性能提升。