YoloV8改进策略:BackBone改进|ELA

文章目录

  • 摘要
  • 1、引言
  • 2、相关工作
  • 3、方法
    • 3.1、重新审视坐标注意力
      • 3.1.1、坐标注意力
      • 3.1.2、坐标注意力的不足
    • 3.2、高效局部注意力
    • 3.3、多个ELA版本设置
    • 3.4、可视化
    • 3.5、实现
  • 4、实验
    • 4.1、实验细节
    • 4.2、ImageNet上的图像分类
    • 4.3、目标检测
    • 4.4、语义分割
  • 5、结论

摘要

https://arxiv.org/pdf/2403.01123.pdf
注意力机制由于其能够有效提升深度神经网络性能的能力,在计算机视觉领域获得了广泛认可。然而,现有方法往往难以有效利用空间信息,或者在利用空间信息的同时会牺牲通道维度或增加神经网络的复杂性。为了解决这些局限性,本文提出了一种高效的局部注意力(ELA)方法,该方法以简单的结构实现了显著的性能提升。通过分析坐标注意力方法的局限性,我们发现了批量归一化缺乏泛化能力、维度减少对通道注意力的不利影响以及注意力生成过程的复杂性等问题。为了克服这些挑战,我们提出了将一维卷积和组归一化特征增强技术融入ELA的方法。这种方法能够在无需维度减少的情况下,通过有效地编码两个一维位置特征图来实现对感兴趣区域的精确定位,同时保持轻量级的实现方式。我们精心设计了ELA中的三个超参数,得到了四个不同版本:ELA-T、ELAB、ELA-S和ELA-L,以满足图像分类、目标检测和语义分割等不同视觉任务的具体需求。ELA可以无缝集成到深度卷积神经网络中,如ResNet、MobileNet和DeepLab。在ImageNet、MSCOCO和Pascal VOC数据集上的广泛评估表明,所提出的ELA模块在上述三个视觉任务中均优于当前最先进的方法。

在这里插入图片描述

1、引言

深度卷积神经网络(CNNs)已成为计算机视觉领域的重要研究方向,为图像分类、目标检测和语义分割等任务带来了显著的进步。包括AlexNet[20]、ResNet[12]、YOLO[21, 28, 35]和MobileNet[16]在内的多个杰出模型都推动了这一领域的发展。尽管Transformer模型带来了许多创新[6, 8, 34],但深度卷积神经网络凭借其特有的归纳偏置,能够有效地从中小规模数据集中学习——这是Transformer所不具备的能力。因此,设计更高效的网络架构仍是当代研究者需要解决的重要挑战[7, 19, 22, 32, 33, 37]。在深度CNNs领域,注意力机制被提出作为模拟人类认知行为的一种手段[15, 17, 18, 23, 24, 36, 39, 41]。这种机制使神经网络能够专注于相关信息,同时忽略不重要的细节,从而增强网络的学习能力。

一个典型的例子是SE块注意力[18],它利用2D全局池化将空间维度压缩成通道维度,从而促进特征学习的增强。然而,SE块仅考虑编码通道间的信息,忽略了特征图的空间位置信息。虽然BAM[26]和CBAM[39]提取了空间注意力,但它们未能建模视觉任务中至关重要的长距离依赖关系[29],同时还减少了输入特征图的通道维度。为了应对这些挑战,开发了坐标注意力(CA)[15]方法,该方法将空间位置信息嵌入到通道注意力中,使移动网络能够准确地捕获长距离空间相互关系。这种改进为各种CNN架构带来了好处。然而,CA也表现出明显的局限性,主要源于其泛化能力不足以及对通道维度减少的不利影响。

众所周知,图像的空间维度包含了重要的位置信息。另一方面,现有的注意力机制要么无法有效利用这种空间信息,要么在利用空间信息的同时牺牲了通道维度。本文的焦点是解决以下问题:我们能否以更高效的方式学习空间注意力?这种方法应该能够在不损害输入特征图通道维度的前提下,获得空间维度上的准确位置预测,同时保持注意力模块的轻量级特性。

为了回答这个问题,让我们重新审视CA机制[15]。CA模块的设计分为两步。第一步,利用strip pooling[14]生成包含输入张量空间维度水平和垂直坐标信息的特征图。第二步,对上述两个方向的特征图进行两次二维卷积,然后应用批量归一化(BN)[40]和非线性激活函数,得到最终的注意力。显然,CA的设计过程相对复杂,涉及特征图在两个方向上的多次分离和合并。虽然两次二维卷积增强了坐标信息,但也减少了通道维度,对生成的注意力产生了负面影响。此外,将BN引入CA也带来了明显的弱点。例如,过小的迷你批次大小可能会对整个模型产生不利影响,并阻碍其泛化能力。表2和表3中的消融实验结果进一步支持了这些观察。
在这里插入图片描述

因此,本文为深度CNN提出了高效局部注意力(ELA)模块,它能够准确捕获感兴趣区域的位置,保持输入特征图通道的维度,并保留其轻量级的特性,如图2(c)所示。与CA类似,ELA在空间维度上使用strip pooling[14]获得水平和垂直方向的特征向量,保持狭窄的核形状以捕获长距离依赖关系,并防止无关区域影响标签预测,从而在各自方向上产生丰富的目标位置特征。ELA独立处理每个方向上的上述特征向量以获得注意力预测,然后使用乘积运算将它们组合起来,确保感兴趣区域的准确位置信息。具体来说,在第二步中,应用一维卷积分别与两个特征向量进行局部交互,可以选择调整核大小以指示局部交互的范围。得到的特征向量经过分组归一化(GN)[40]和非线性激活函数处理,以产生两个方向上的位置注意力预测。最终的位置注意力是通过将两个方向上的位置注意力相乘得到的。与二维卷积相比,一维卷积更适合处理序列信号,并且更轻量、更快。GN与BN相比表现出相当的性能和更强的泛化能力。

在这里插入图片描述

表1展示了关键的CNN注意力模块,指出了它们在通道维度减少(DR)、长距离依赖和轻量级设计(轻量级模型参数少于SE)方面的特性。从表中可以看出,我们的ELA在这三个方面都表现出色。我们通过在ImageNet[5]、Pascal VOC[9]和MS COCO[25]等数据集上的实验结果评估了我们的方法的有效性(参见表5)。实验结果表明,我们提出的方法在ImageNet top-1上的分类准确率提高了2.39%。此外,我们的方法在目标检测和语义分割方面表现出最显著的性能提升。因此,我们提出的ELA方法证明比目前最流行的注意力机制更具竞争力。

本文的贡献总结如下:(1)我们分析了坐标注意力(CA)[15],并通过实验验证了其BN和通道维度减少对CNN架构的不利影响。(2)基于上述分析,我们提出了一种轻量级的Efficient Local Attention(ELA)模块。该模块有助于深度CNN准确定位感兴趣的对象,仅通过少量增加参数即可显著提高CNN的整体性能。(3)在ImageNet、MS COCO和Pascal VOC等流行数据集上的广泛实验结果表明,我们提出的方法在性能上超越了当前最先进的注意力方法,同时保持了具有竞争力的模型复杂度。

2、相关工作

注意力机制在增强深度CNN方面发挥着至关重要的作用,这一点已得到广泛认可。SE块[18]是首次成功尝试将注意力机制用于学习通道注意力的方法。随后,注意力机制在这两个方向上取得了重大进展:(1) 仅聚合通道特征;(2) 结合通道特征与空间特征。

具体来说,CBAM[39]同时利用平均池化和最大池化来沿通道维度和空间维度组合特征。另一方面,GCNet[1]是一个轻量级的注意力网络,它利用诸如自注意力机制[34]、非局部网络[38]和压缩-激励网络[18]等技术。SA-Net[42]建立在空间注意力和通道注意力的组合之上,并引入特征分组和通道替换来实现轻量级的注意力机制。CBAM、GCNet和SA-Net都结合了空间注意力和通道注意力。GSoP[10]引入二阶池化,以实现对整个图像的高阶统计建模,从而增强深度卷积网络的非线性建模能力。另一方面,ECA-Net[36]利用一维卷积生成通道注意力权重,与SE块相比显著降低了建模复杂性。GSoP和ECA-Net都属于通道增强的聚合方法。

然而,在上述提到的注意力网络中,要么在空间维度上缺乏长距离依赖,要么对通道维度进行了缩减。长距离空间依赖性的缺失使得准确定位感兴趣的空间对象和获取重要对象的位置信息变得具有挑战性。虽然通过减少通道维度可以降低模型的复杂性,但这也破坏了通道与其权重之间的直接对应关系。为了解决这些限制,我们提出的ELA方法有效地捕获了长距离空间依赖关系,并消除了通道缩减对注意力网络产生的负面影响。

3、方法

Efficient Local Attention(ELA)模块作为一个计算单元,旨在增强深度CNN中感兴趣区域或重要对象位置的准确识别。为了清楚地解释我们提出的Efficient Localization Attention(ELA)方法,本节首先重述CA[15]所涉及的两个步骤。接着,我们分析BN和通道降维的影响,并通过实验评估CA在一些小型模型中的应用。这些发现为引入ELA奠定了基础。然后,我们深入探讨ELA的构建过程,并在ELA内部结合一维卷积和GN的超参数设计四个版本。最后,我们采用Grad-cam[31]方法进行可视化,进一步说明ELA的有效性。图2(b)提供了ELA整体结构的概述。

3.1、重新审视坐标注意力

3.1.1、坐标注意力

坐标注意力(CA)主要由两个主要步骤组成:坐标信息嵌入和坐标注意力生成。在第一步中,作者提出了一种巧妙的方法来捕获长距离空间依赖关系,即使用条带池化(strip pooling)代替空间全局池化,这是一个深思熟虑的设计决策。

考虑一个卷积块的输出,表示为 R H × W × C \mathbb{R}^{H \times W \times C} RH×W×C,其中 H H H W W W C C C 分别代表高度、宽度和通道维度(即卷积核的数量)。为了应用条带池化[14],我们在两个空间范围内对每个通道进行平均池化:在水平方向 ( H , 1 ) (\mathrm{H}, 1) (H,1) 和垂直方向 ( 1 , W ) (1, \mathrm{~W}) (1, W)。这导致在高度 h h h 处第 c c c 个通道的输出表示,以及在宽度 w w w 处第 c c c 个通道的输出表示。这些可以用数学表达式 Eq1 和 Eq2 来表示。

z c h ( h ) = 1 H ∑ 0 ≤ i < H x c ( h , i ) z_{c}^{h}(h)=\frac{1}{H} \sum_{0 \leq i<H} x_{c}(h, i) zch(h)=H10i<Hxc(h,i)

z c w ( w ) = 1 W ∑ 0 ≤ j < W x c ( j , w ) z_{c}^{w}(w)=\frac{1}{W} \sum_{0 \leq j<W} x_{c}(j, w) zcw(w)=W10j<Wxc(j,w)

在第二步中,由Eq 1和Eq 2生成的特征图被聚合成一个新的特征图。然后,这个新特征图被送入共享变换函数 F 1 F_{1} F1(这是一个二维卷积)和批归一化(BN)。这个过程可以表示如下:

f = δ ( B N ( F 1 ( [ z h , z w ] ) ) ) , f=\delta\left(B N\left(F_{1}\left(\left[z^{h}, z^{w}\right]\right)\right)\right), f=δ(BN(F1([zh,zw]))),

在上面的描述中,沿空间维度的级联操作用 [ − ; − ] [-; -] [;]表示。 δ \delta δ代表非线性激活函数。经过水平和垂直方向的编码后,得到中间特征图,表示为 R C / r × ( H + W ) \mathbb{R}^{C / r \times(H+W)} RC/r×(H+W)。随后,沿空间维度得到 f h ∈ R C / r × H f^{h} \in \mathbb{R}^{C / r \times H} fhRC/r×H f w ∈ R C / r × W f^{w} \in \mathbb{R}^{C / r \times W} fwRC/r×W。此外,还应用另外两个 1 × 1 1 \times 1 1×1卷积变换,记为 F h , F w F_{h}, F_{w} Fh,Fw,以生成与输入 X X X具有相同通道数的张量。

\begin{aligned}
g_{c}^{h} & =\sigma\left(F_{h}\left(f^{h}\right)\right), \
g_{c}^{w} & =\sigma\left(F_{w}\left(f^{w}\right)\right),
\end{aligned}

在这个上下文中,也使用了sigmoid函数 σ \sigma σ。为了降低额外模块的复杂性,通常通过适当的缩减率(如32)来减少 f f f中的通道数。得到的输出 g c h g_{c}^{h} gch g c w g_{c}^{w} gcw被扩展并用作注意力权重,分别对应于水平和垂直方向。最终,CA模块的输出可以表示为 Y Y Y

y c ( i , j ) = x c ( i , j ) × g c h ( i ) × g c w ( j ) , y_{c}(i, j)=x_{c}(i, j) \times g_{c}^{h}(i) \times g_{c}^{w}(j), yc(i,j)=xc(i,j)×gch(i)×gcw(j),

通过观察等式3、4和5,我们可以注意到通道维度的减少旨在降低模型的复杂性。然而,这导致通道与其对应权重之间存在间接关系,这可能对整体的注意力预测产生不利影响。此外,重要的是要强调,批量归一化(BN)并不利于坐标注意力(CA)的有效泛化能力。在后续部分,我们将进一步探讨这些观察结果的细节。

3.1.2、坐标注意力的不足

正如Wu等人(2018)[40]的研究所指出的,批量归一化(BN)严重依赖于小批量大小。当批量太小时,BN计算的均值和方差可能无法充分代表整个数据集,从而可能损害模型的整体性能。从等式1和等式2获得的坐标信息嵌入表示每个通道维度内的序列信息。在处理序列化数据的网络中放置BN并不是最优选择,特别是对于CA方法。因此,CA可能会对较小的网络架构产生负面影响。相反,当在CA中使用组归一化(GN)替代BN,并将其融入较小的网络架构中时,性能会立即得到显著提升。

此外,对CA结构的深入分析可以揭示更多的挑战。在其第二步开始时,特征图 z h z_{h} zh z w z_{w} zw被连接成一个新的特征图,并随后进行编码。然而, z h z_{h} zh z w z_{w} zw这两个方向的特征图具有不同的特性。因此,一旦它们被合并并捕获特征,它们各自连接处的相互影响可能会损害每个方向注意力预测的准确性。

在这里插入图片描述

表2和表3清晰地展示了使用BN时CA的性能下降情况。例如,ResNet18的Top 1准确率下降了1.12%-0.09%,而YOLOX-Nano的性能下降了1.57%-0.64%。然而,当用GN替代BN时,ResNet18的Top 1准确率提高了0.32%-0.44%,YOLOX-Nano的性能也提升了0.51%-0.70%。因此,在处理小型模型时,使用BN会削弱CA的泛化性能。此外,值得注意的是,带有BN的CA由于维度减少因子的变化而引入了显著的性能不确定性,缺乏大型模型所表现出的规律性。

此外,在图2(b)中观察到,在坐标注意力生成过程中,使用了两次二维卷积。这些卷积增强了坐标信息,但导致了通道维度的减少。虽然这个过程降低了模型的复杂性,但它对注意力的生成产生了明显的副作用。

尽管MobileNetV2只有3.5MB的参数,但为什么CA能在MobileNetV2中带来显著的性能提升呢?与只有18个卷积层和全连接层的ResNet18相比,MobileNetV2的参数确实较少,可以被认为是较小的模型。然而,MobileNetV2-1.0却拥有多达57个卷积层,甚至超过了ResNet50。此外,MobileNetV2通常使用256的批处理大小进行训练,这使得在应用CA时可以避免BN的负面影响,并有效地利用其优势。根据[40],MobileNetV2-1.0通过使用深度可分离卷积[4]实现了计算复杂度和参数的显著减少。如果采用常规卷积,参数数量将大幅增加。因此,即使MobileNetV2的模型规模较小,其独特的网络结构和训练策略使得CA能够发挥出色,从而实现了性能的提升。

3.2、高效局部注意力

CA方法通过利用条带池化捕获空间维度上的长程依赖关系,在准确率方面展现出了显著的提升,特别是在较深的网络中。基于我们之前的分析,很明显BN会阻碍CA的泛化能力,而GN则能够解决这些不足。从等式1和等式2中导出的定位信息嵌入是通道内的序列信号。因此,对于处理这些序列信号,通常使用1D卷积比2D卷积更为合适。1D卷积不仅擅长处理序列信号,而且相比2D卷积更加轻量级。在CA的情况下,尽管使用了两次2D卷积,但它使用的是1x1的卷积核,这限制了特征的提取能力。因此,我们采用了核大小为5或7的1D卷积,这有效地增强了定位信息嵌入的交互能力。这一改进使得整个ELA能够准确地定位感兴趣的区域。

基于从等式1和等式2获得的定位信息嵌入,我们的ELA采用了一种新颖的编码方法来生成精确的位置注意力图。该过程的详细描述如下。
通过等式1和等式2得到的 z h z_h zh z w z_w zw不仅捕获了全局感官字段,还包含了精确的位置信息。为了有效利用这些特征,我们设计了简单的处理方法。我们应用一维卷积来增强水平和垂直方向上的位置信息。随后,我们使用 G n G_n Gn(表示为 G n G_{n} Gn)来处理增强的位置信息,从而得到水平和垂直方向上的位置注意力表示,如等式7和等式8所述。

y h = σ ( G n ( F h ( z h ) ) ) , y w = σ ( G n ( F w ( z w ) ) ) , \begin{aligned} y^h & =\sigma\left(G_{n}\left(F_h\left(z_h\right)\right)\right), \\ y^w & =\sigma\left(G_{n}\left(F_w\left(z_w\right)\right)\right), \end{aligned} yhyw=σ(Gn(Fh(zh))),=σ(Gn(Fw(zw))),

在上述描述中,我们用 σ \sigma σ表示非线性激活函数,并用 F h F_h Fh F w F_w Fw表示一维卷积。我们选择将 F h F_h Fh F w F_w Fw的卷积核大小设置为5或7。通常,大小为7的卷积核表现更好,但参数数量稍多。为了在性能和参数数量之间取得平衡,一维卷积的组数通常选择为 i n p l a n e s in_planes inplanes i n p l a n e s / 8 in_planes/8 inplanes/8。水平和垂直方向上的位置注意力表示分别用 y h y^h yh y w y^w yw表示。最后,我们可以通过应用等式9获得ELA模块的输出,表示为 Y Y Y

Y = x c × y h × y w Y = x_c \times y^h \times y^w Y=xc×yh×yw

3.3、多个ELA版本设置

根据等式3和等式4,我们的ELA涉及三个参数:一维卷积的kernel_size和groups,以及GN的num_group。为了提升卷积神经网络(CNNs)的性能,有效设置这些参数至关重要。我们旨在在ELA的性能和复杂性之间取得平衡。在我们的实验中,我们使用ResNet-18和ResNet-50作为主干网络,并整合ELA来确定合理的参数值。

对于GN的num_group参数,我们参考[40]并分别选择16和32这两个值。一维卷积能够在交互作用中捕获位置信息。一般来说,一维卷积中较大的kernel_size能够更广泛地覆盖位置信息,从而获得稍好一些的性能结果。但是,它也会增加ELA的复杂性。在我们的实验中,我们评估了kernel_size为5和7的情况,并发现kernel_size=7提供了更好的性能,尤其是对于ResNet-50。
在这里插入图片描述

关于一维卷积的groups参数,我们探索了两种方案:深度可分离卷积(groups=in_channels)和分组卷积(groups=in_channels/8)。根据表3中的结果,在大多数情况下,使用分组卷积(groups=in_channels/8)的性能优于深度可分离卷积(groups=in_channels)。此外,我们还观察到,对于ResNet-18,除了kernel_size=7外,num_group值为16时也能获得更好的结果。

为了优化ELA的性能并同时考虑参数数量,我们引入了四种方案:ELA-Tiny(ELA-T)、ELA-Base(ELA-B)、ELA-Small(ELA-S)和ELA-Large(ELA-L)。我们将ELA-T的参数配置定义为kernel_size=5,groups=in_channels,num_group=32;将ELA-B的参数配置定义为kernel_size=7,groups=in_channels,num_group=16;将ELA-S的参数配置定义为kernel_size=5,groups=in_channels/8,num_group=16;将ELA-L的参数配置定义为kernel_size=7,groups=in_channels/8,num_group=16。ELA-T和ELA-B被设计为轻量级版本,适用于网络层数较少或轻量级的CNN架构。另一方面,ELA-B和ELA-S在具有更深结构的网络上表现最佳。此外,ELA-L特别适用于大型网络。值得注意的是,即使ELA-L的参数数量少于最轻的CA方法(r=32),它仍然能够取得令人印象深刻的结果。

3.4、可视化

为了评估ELA方法的有效性,我们在ImageNet数据集上进行了两组实验:ResNet(不带注意力模块)和ELA-ResNet(带有ELA)。为了评估性能,我们使用了五张图像进行测试。通过使用GradCAM[31]生成可视化热图,我们展示了两组模型在layer4.2(最后阶段的最后一个瓶颈)上的结果。图3表明,我们提出的ELA模块成功地引导整个网络更精确地关注物体细节的相关区域。这一演示突显了ELA模块在提高分类准确性方面的有效性。

在这里插入图片描述

3.5、实现

图2(b)展示了我们的ELA的概述。这个模块可以无缝地集成到与CA[15]具有相同配置的深度CNN中。在PyTorch或TensorFlow中实现ELA只需要编写少量的代码,并且支持自动微分。为了证明这一点,我们在图4中提供了ELA-B的PyTorch代码示例。

在这里插入图片描述

4、实验

在本节中,我们使用ImageNet[5]、MS COCO[25]和VOC2007/2012[9]数据集分别评估我们提出的方法在大规模图像分类、目标检测和语义分割任务上的性能。具体来说,我们将概述我们的实验设置,将我们提出的ELA方法与最先进的对应模块进行比较,并展示ELA方法与其他对应方法在目标检测和语义分割方面的比较结果。

4.1、实验细节

所有实验均使用PyTorch工具箱[27]进行,训练使用NVIDIA GPU完成。为了评估ELA模块在ImageNet上的分类有效性,我们使用四个CNN作为骨干网络,包括MobileNetV2[30]、ResNet-18[12]、ResNet-50[12]和ResNet-101[12]。

对于MobileNetV2,小批量大小设置为256,使用SGD优化器,动量均为0.9,权重衰减设置为4×10⁻⁵。我们采用余弦退火策略进行学习率衰减,初始学习率为0.025,所有模型均训练总计200个epoch。数据增强方面,我们采用与MobileNetV2[30]相同的方法。我们给出了在ImageNet数据集上的分类结果。

对于所有三个ResNet网络,我们采用了与[12]中描述相同的数据增强和超参数设置。具体来说,输入图像被随机裁剪为224×224大小,并随机进行水平翻转。网络参数使用带有权重衰减为1×e⁻⁴和动量为0.99的随机梯度下降(SGD)进行优化。所有模型总共训练了90个epoch,初始学习率设为0.1和0.05。每30个epoch,学习率降低10倍。

4.2、ImageNet上的图像分类

MobileNetV2 我们探索了使用MobileNetV2架构作为骨干网络的ELA-S、ELA-L和CA的性能。对于CA,我们选择了维度缩减因子分别为16、24和32。在验证实验中,我们将注意力块插入到MobileNetV2的Inverted Residual Block中,确保所有模型的训练设置一致。表4中的结果表明,我们的ELA-S模块将原始MobileNetV2的top-1准确率提高了约2.39%。此外,与CA方法相比,我们的ELA方法展现出优越的性能,同时使用的参数更少,计算复杂度更低。这些发现进一步验证了ELA方法的有效性和效率。
在这里插入图片描述

值得强调的是,将CA(r=16)加入到MobileNetV2中会使参数数量显著增加超过35%。这对于移动网络来说是一个潜在的缺点,因为它们往往优先考虑参数效率。

ResNet 我们将ELA与各种最先进的注意力模块进行了比较,包括SE块[18]、CBAM[39]、ECA-Net[36]、SA-Net[42]和CA[15]。评价指标既包括效率(网络参数、每秒浮点运算次数(GFLOPs))也包括有效性(Top-1/Top-5准确率)。为了评估不同模型的效率和有效性,我们使用了公开可用的ResNet网络,在BasicBlock或BottleBlock中加入了各自的注意力机制,并在相同的计算平台上进行了应用。与最先进的(SOTA)模型相比,ELA实现了更高的准确率。具体来说,当ResNet18作为骨干网络时,ELA将Top-1准确率提高了0.93%。对于ResNet50,提升为0.8%,而对于ResNet101,提升为0.21%。值得注意的是,当使用ResNet50作为骨干网络时,ELA仅将参数数量增加了0.03%,却将绝对性能提高了0.8%,这明显展示了ELA的有效性。
在这里插入图片描述

我们观察到,当ResNet18作为骨干网络时,CA的缺点变得显而易见。其有效性主要在大规模网络中体现。另一方面,在这种情况下,ECA的有效性受到限制,因为ResNet18模型中有几层的通道数少于128。这与ECA方法的设置[36]不匹配,该方法需要一个大小为3的1D卷积核,这阻碍了其有效促进通道交互的能力。

4.3、目标检测

在MS COCO上的目标检测

我们选择了YOLOF[3]目标检测器来比较ELA方法与CA方法的性能。YOLOF使用ResNet50[12]作为骨干网络,并在MS COCO[25]数据集上进行实验。注意力模块仅在骨干网络的输出、编码器的投影器之后以及其前三个残差块之后使用五次。对于所有实验,我们都使用了SGD优化器。训练在800×1333分辨率的单尺度上进行,每个小批量包含总共16张图像。初始学习率设置为0.003,预热期为1500次迭代。根据“1×计划”方案总共训练了12个epoch。学习率在第8个和第11个epoch后分别降低10倍。在模型推理期间,使用阈值为0.6的NMS对结果进行后处理。其余超参数遵循[3]中指定的设置。
在这里插入图片描述

根据表6,虽然CA方法有助于提升YOLOF目标检测器的性能,但我们提出的ELA方法在模型参数和多样化性能指标的提升上显著超越了CA方法。特别是当使用YOLOF[3]作为基础检测器(以ResNet-50为骨干网络)时,ELA在AP50:95上展示了0.68%的改进。

在Pascal VOC2007上的目标检测。此外,我们还在Pascal VOC数据集上使用YOLOX-Nano[11]验证了ELA的有效性。我们仅在YOLOX-Nano的骨干网络之后和颈部特征融合层之后添加了ELA模块和其他相应的注意力模块。模型通过迁移学习进行训练,加载了MS COCO上的预训练权重。对于所有实验,我们使用了SGD优化器,初始学习率设置为0.02。学习率衰减采用余弦退火策略[13]进行控制,权重衰减为0.0005,动量为0.937。批量大小设置为16,输入图像尺寸为640×640。模型在训练数据集上总共训练了72个epoch。我们排除了mixup增强,并通过将尺度范围从[0.1,2.0]调整为[0.5,1.5]来调整马赛克技术。其他超参数配置请参考[11]。

在表7中,我们使用YOLOX-nano模型作为基线,展示了不同注意力方法在Pascal VOC 2007测试集上的检测结果。我们观察到CA方法显著降低了基线的性能,而ECANet和SA-Net对基线性能的提升微乎其微。相比之下,融入我们的ELA导致了基线性能的显著增强,实现了1.1%的mAP提升。在MS COCO和Pascal VOC数据集上的目标检测实验均表明,与其他注意力方法相比,ELA方法展现出了优越的性能提升。

4.4、语义分割

最后,我们展示了在Pascal VOC2012[9]上使用DeepLabV3[2]的ELA进行语义分割的结果。我们采用ResNet-50[12]作为骨干网络,在每个Bottleneck中的每个3×3卷积之后以及每个层之后应用注意力方法。我们使用输出步长=16的方法,并使用批量大小为12来计算批量归一化统计量。训练批量归一化参数时,我们使用的裁剪大小为513,衰减为0.9997。训练过程在train_aug数据集上进行40K次迭代,初始学习率为0.025。所有模型均使用PyTorch工具包^{1}实现。
在这里插入图片描述

如表8所示,CA方法在DeepLabV3上展示了优越的性能提升能力。然而,SE块和ECA-Net方法并未显著改善DeepLabV3的性能。令人惊讶的是,SA-Net实际上导致了DeepLabV3模型性能的下降,这表明SA-Net的泛化能力并不特别好。与所有上述方法相比,ELA方法为该模型展示了最佳的性能提升。上述实验结果充分证明了ELA方法在各种计算机视觉任务中的强大泛化能力。

5、结论

本文介绍了一种创新的注意力机制——高效局部注意力(ELA),旨在增强卷积神经网络(CNN)的表示能力。ELA通过其轻量级和直观的结构简化了对感兴趣区域进行精确定位的过程。实验结果表明,ELA是一种即插即用的注意力方法,无需进行通道维度缩减。此外,ELA在各种深度CNN架构中均能实现显著的性能提升。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/793341.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

zdpreact_antdesginpro 研究一下react里面比较流行的一个UI框架,开发后台管理系统

首先看一下最开始的代码&#xff1a; 这里面大部分的东西都可以删掉&#xff0c;比如README&#xff0c;只留下中文的那个就可以了。 之后看看README.md中介绍的特性。 特性 &#x1f4a1; TypeScript: 应用程序级 JavaScript 的语言&#x1f4dc; 区块: 通过区块模板快速…

【Linux】网络基础常识{OSI七层模型/ TCP/IP / 端口号 /各种协议}

文章目录 1.网络常识1.0DHCP协议1. 1IP地址/MAC地址/ARP协议是什么&#xff1f;IP/MACARP&#xff1a;IP ⇒ MAC 1.2手机连接wifi的原理 SSID与BSSID手机连接wifiSSID与BSSID 1.3手机如何通过“数据/流量”上网&#xff1f;1.4电脑连接wifi的原理&#xff1f;电脑通过热点上网…

RH850P1X芯片学习笔记-Clocked Serial Interface H (CSIH)

文章目录 Features of RH850/P1x-C CSIHUnitsRegister Base AddressClock SupplyInterrupt RequestsHardware ResetExternal Input/Output Signals数据一致性检查 OverviewFunctional OverviewFunctional Overview DescriptionBlock Diagram RegistersList of RegistersCSIHnCT…

python怎么存储数据

在Python开发中&#xff0c;数据存储、读取是必不可少的环节&#xff0c;而且可以采用的存储方式也很多&#xff0c;常用的方法有json文件、csv文件、MySQL数据库、Redis数据库以及Mongdb数据库等。 1. json文件存储数据 json是一种轻量级的数据交换格式&#xff0c;采用完全…

【教学类-09-09】20240406细线迷宫图05(正方形)30格+动物+箭头(15CM横版一页-1份横版)

作品展示&#xff1a; 背景需求&#xff1a; 增加迷宫图的吸引力&#xff0c;起点的地方放一个小动物。 素材准备&#xff1a; 图片来自midjounery文生图&#xff08;四图&#xff09;&#xff0c;但同种动物只留1个&#xff08;如4个老鼠只保留一只老鼠&#xff09;&#xff…

哈希表2s总结

3.哈希表 哈希表非常常用&#xff0c;字典一般会用来保存处理过后的输入输出信息&#xff0c;集合也可以用来去重&#xff0c;这部分是重点&#xff0c;但是还是那句话&#xff0c;这种题目是不会或者说很少考原题的&#xff0c;主要还是学习知识&#xff0c;所以题目看一下答…

如何保证Redis的缓存和数据库中的数据的一致性?

Redis的缓存如何和数据库中的数据保持一致性&#xff1f; 我们都知道&#xff0c;Redis是一个基于内存的键值存储系统&#xff0c;数据完全存放在内存中&#xff0c;这使得它的读写速度远超传统的硬盘存储数据库。对于高访问频率、低修改率的数据&#xff0c;通过将它们缓存在…

intellij idea 使用git ,快速合并冲突

可以选择左边的远程分支上的代码&#xff0c;也可以选择右边的代码&#xff0c;而中间是合并的结果。 一个快速合并冲突的小技巧&#xff1a; 如果冲突比较多&#xff0c;想要快速合并冲突。也可以直接点击上图中 Apply non-conflicting changes 旁边的 All 。 这样 Idea 就会…

深入浅出 -- 系统架构之垂直架构

当业务复杂度增加、访问量逐渐增大出现高并发时&#xff0c;单体架构无法满足需求&#xff0c;可以根据业务功能对系统进行拆分&#xff0c;以提高访问效率。 垂直架构介绍 1.垂直架构一般是因为单体架构太过于庞大而进行的拆分&#xff0c;拆分后各个系统应满足独立运行互相不…

wordpress外贸独立站模板

wordpress外贸独立站模板 WordPress Direct Trade 外贸网站模板&#xff0c;适合做跨境电商的外贸公司官方网站使用。 https://www.waimaoyes.com/wangzhan/22.html

【Android Studio】上位机-安卓系统手机-蓝牙调试助手

【Android Studio】上位机-安卓系统手机-蓝牙调试助手 文章目录 前言AS官网一、手机配置二、移植工程三、配置四、BUG五、Java语言总结 前言 提示&#xff1a;以下是本篇文章正文内容&#xff0c;下面案例可供参考 AS官网 AS官网 一、手机配置 Android Studio 下真机调试 …

unity学习(82)——profiler 限制帧率

实际测试发现当玩家个数增加时&#xff0c;客户端明显变的很卡&#xff0c;想知道为什么变卡了&#xff01; 1.只有玩家自己的时候 2.两个时候感觉脚本的工作量增大了 拖了一会直接炸了&#xff01;&#xff08;数据包积压把内存搞炸&#xff0c;我第一次见&#xff09; 3.我觉…

数据库的介绍分类作用特点

目录 1.概述 2.分类 2.1.关系型数据库 2.2.非关系型数据库 2.3.分布式数据库 ​​​​​​​2.4.云数据库 3.作用 4.特点 5.应用举例 5.1.MySQL ​​​​​​​5.1.1.作用 ​​​​​​​5.1.2.特点 ​​​​​​​5.1.3.应用案例 ​​​​​​​5.2.达梦 ​​​…

上位机图像处理和嵌入式模块部署(qmacvisual之tcp服务器端)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】 上面一篇&#xff0c;我们谈到了tcp客户端&#xff0c;另外一种连接方法就是tcp服务器端。事实上&#xff0c;对于第三方系统&#xff0c;大多数情…

ES10 学习

文章目录 1. Object.fromEntries()2. trimStart() 和 trimEnd()3. 数组的flat() 和flatMap()4. Symbol 对象的description 属性5. try ... catch(e){} 1. Object.fromEntries() Object.fromEntries() 方法允许你轻松地将键 值对列表转换为对象 let arr [["name",&qu…

《搜广推算法指南》(2024版) 重磅发布!

节前&#xff0c;我们星球组织了一场算法岗技术&面试讨论会&#xff0c;邀请了一些互联网大厂朋友、参加社招和校招面试的同学&#xff0c;针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。 结合…

城市道路井盖破损丢失目标检测数据集VOC-1377张

数据集格式&#xff1a;Pascal VOC格式(不包含分割路径的txt文件和yolo格式的txt文件&#xff0c;仅仅包含jpg图片和对应的xml) 图片数量(jpg文件个数)&#xff1a;1377 标注数量(xml文件个数)&#xff1a;1377 标注类别数&#xff1a;4 标注类别名称:["jg","jg…

(React组件基础)前端八股文修炼Day6

一 类组件与函数组件有什么异同 在React中&#xff0c;类组件和函数组件是创建组件的两种主要方式。随着React的发展&#xff0c;尤其是自Hooks在React 16.8中引入以来&#xff0c;函数组件的功能变得更加强大&#xff0c;使得它们能够更加方便地与类组件相竞争。下面是类组件…

Collection与数据结构 Stack与Queue(一): 栈与Stack

1. 栈 1.1 概念 栈&#xff1a;一种特殊的线性表&#xff0c;其只允许在固定的一端进行插入和删除元素操作。进行数据插入和删除操作的一端称为栈顶&#xff0c;另一端称为栈底。栈中的数据元素遵守后进先出LIFO&#xff08;Last In First Out&#xff09;的原则。 压栈&…

代码随想录算法训练营第四十四天 |卡码网52. 携带研究材料 、518. 零钱兑换 II、377. 组合总和 Ⅳ

代码随想录算法训练营第四十四天 |卡码网52. 携带研究材料 、518. 零钱兑换 II、377. 组合总和 Ⅳ 卡码网52. 携带研究材料题目解法 518. 零钱兑换 II题目解法 377. 组合总和 Ⅳ题目解法 感悟 卡码网52. 携带研究材料 题目 解法 题解链接 1. #include <iostream> #inc…