本文由兰州大学信息科学与工程学院、青海省物联网重点实验室、青海师范大学于2024年3.2日发表于ArXiv。为了解决现有的注意力模型在有效利用空间信息方面存在的限制和困难,提出了一种高效的局部注意力ELA模型。该方法通过分析坐标注意力的局限性,作者识别出批量归一化泛化能力不足的问题,该问题主要是:
1、维度降低对通道注意力的不良影响
(不是我记得7年前发表于arXiv的CS大类中SENet论文这个事已经说了啊?转念一想,哦,本文是从分析坐标CA角度再思考这个问题,并给出解决方法的,emmmm好吧)
2、注意力生成过程的复杂性
(嗯,给计算机添加眼睛确实复杂)
本文简单来讲:
1、作者提出融入1D卷积和组归一化特征增强技术。这种方法能够通过有效地编码两个1D位置特征图而无需维度降低,实现准确地区分感兴趣区域,同时允许轻量级的实现。
2、作者精心设计了ELA中的三个超参数,从而形成了四个不同版本:ELA-T,ELA-B,ELA-S和ELA-L,以满足不同视觉任务(纽匹!),如图像分类、目标检测和语义分割的特定需求。
3、ELA可以无缝集成到ResNet、MobileNet和DeepLab等深度CNN网络中。在ImageNet、MSCOCO和Pascal VOC数据集上的广泛评估表明,所提出的ELA模块在上述三种视觉任务中均优于当前最先进的方法。
论文地址:
2403.01123.pdf (arxiv.org)
本文复杂来讲:
1、Introduction
深度卷积神经网络(CNNs)已成为计算机视觉领域中一个重要的研究方向,它在图像分类、目标检测和语义分割方面取得了显著的进展。一些值得关注的模型,如AlexNet,ResNet,YOLO,和MobileNet,都为这一进步做出了贡献。
尽管Transformer已经引入了许多进步,但深度卷积神经网络拥有自己有利的归纳偏置,使它们能够有效地从小型和中型数据集中学习——这是Transformer所缺乏的能力。因此,设计更高效的网络架构仍然是当代研究者需要解决的重要挑战。在深度CNN领域,注意力机制被提出作为模拟人类认知行为的手段。这种机制使神经网络能够关注相关信息,同时忽略不重要的细节,最终提高网络的学习能力。
一个显著的例子是SE块注意力,它利用2D全局池化将空间维度压缩到通道维度,从而促进增强特征学习。然而,SE块只考虑编码通道间信息,忽视了特征图的空间位置信息。尽管BAM和CBAM提取了空间注意力,但它们未能建模对视觉任务至关重要的长距离依赖,同时也减少了输入特征图的通道维度。
为此,开发了坐标注意力(CA)方法,将空间位置信息嵌入通道注意力中,并允许移动网络准确捕捉长距离空间相互关系。这种改进有利于各种卷积神经网络架构。然而,CA也表现出明显的局限性,源于其不足的泛化能力和对通道维度降低的负面影响。
众所周知,图像的空间维度包含了至关重要的位置信息。另一方面,现有的注意力机制要么未能有效利用这一空间信息,要么在利用的同时牺牲了通道的维度。本文的关注点是回答以下问题:作者能否以更高效的方式学习空间注意力?这种方法应使作者能够在不损害输入特征图的通道维度的同时,在空间维度上获得准确的位置预测,同时保持注意力模块的轻量级特性。
为了回答这个问题,作者再次回顾一下CA机制。CA模块是通过两个步骤设计的。在第一步中,使用了条带池化来生成包含输入张量空间维度上水平和垂直坐标信息的特征图。在第二步中,两个方向上的上述特征图都经过两个2D卷积,然后进行批量归一化(BN),并使用非线性激活函数,最终得到注意力。
显然,CA的设计过程相对复杂,涉及两个方向上特征图的多次分离与合并。尽管两个2D卷积增强了坐标信息,但它们也减少了通道维度,对生成的注意力产生了负面影响。此外,将BN整合到CA中引入了显著的弱点。例如,过小的迷你批次大小可能会对整个模型产生不利影响并阻碍其泛化能力。表2和表3中的消融实验结果进一步支持了这些观察。
因此,本文提出了用于深度CNN的Efficient Local Attention(ELA)模块,它准确地捕获了感兴趣区域的位置,保持了输入特征图通道的维度,并保持了其轻量级特性,如图2(c)所示。与CA相似,ELA在空间维度上采用条带状池化,以获取水平和垂直方向的特征向量,保持窄的核形状以捕获远程依赖并防止不相关区域影响标签预测,从而在各自的方向上产生丰富的目标位置特征。ELA独立地处理上述每个方向的特征向量以获得注意力预测,然后使用乘积操作将它们组合起来,确保感兴趣区域的准确位置信息。
具体来说,在第二步中,应用1D卷积与两个特征向量局部交互,可以选择调整核大小来表示局部交互的覆盖范围。产生的特征向量经过分组归一化(GN)[40]和非线性激活函数处理,以生成两个方向的位置注意力预测。最终的位置注意力通过将两个方向的位置注意力相乘得到。与2D卷积相比,1D卷积更适合处理序列信号,并且更轻量、更快。GN与BN相比,展现出可比较的性能和更好的泛化能力。
表1展示了关键的卷积神经网络注意力模块,指出了它们在通道维度降低(DR)、长距离依赖和轻量级设计方面的特点(其中轻量级模型具有的参数少于SE)。从表中可以看出,作者的ELA在所有这三个方面都表现出色。作者通过在ImageNet,Pascal VOC和MS COCO等数据集上的实验结果来评估作者方法的有效性(见表5)
实验结果表明,与ImageNet top-1的分类准确度相比,作者提出的方法提高了2.39%。此外,作者的方法在目标检测和语义分割方面表现出最显著的性能提升。因此,作者提出的ELA方法比目前最流行的注意力机制更具竞争力。
本文的贡献总结如下:
-
作者分析了坐标注意力(CA),并通过实验验证了其在卷积神经网络(CNN)结构中对批量归一化(BN)和通道维度减少的负面影响。
-
基于上述分析,作者提出了一种轻量级且高效的局部注意力(ELA)模块。这个模块帮助深度CNN更准确地定位感兴趣的目标,在仅增加少量参数的情况下显著提高了CNN的整体性能。
-
在包括ImageNet、MS COCO和Pascal VOC在内的流行数据集上的大量实验结果表明,作者提出的方法在性能上超越了当前的最新注意力方法,同时保持了有竞争力的模型复杂度。
2 Related Work
人们普遍认为,注意力机制在提高深度卷积神经网络(CNNs)性能方面起着至关重要的作用。SE块首次成功尝试将注意力机制用于学习通道注意力。随后,注意力机制在这两个方向上取得了显著的进展:
-
仅聚合通道特征;
-
将通道特征与空间特征整合。
具体来说,CBAM 同时利用平均池化和最大池化沿着通道维度和空间维度组合特征。同时,GCNet 是一个轻量级的注意力网络,它采用了自注意力机制,非局部网络,以及挤压激励网络等技术。SA-Net 建立在空间注意力和通道注意力结合的基础上,并引入特征分组和通道替换来实现轻量级的注意力机制。CBAM、GCNet 和 SA-Net 都结合了空间注意力和通道注意力。
GSoP 引入了二阶池化,以实现对整幅图像的高阶统计建模,从而增强了深度卷积网络的非线性建模能力。另一方面,ECA-Net 利用一维卷积生成通道注意力权重,与 SE 块相比,显著降低了建模复杂性。GSoP 和 ECA-Net 都属于通道增强的聚合方法。
然而,在上述提到的注意力网络中,要么在空间维度上缺乏长距离依赖性,要么在通道维度上进行缩小。长距离空间依赖性的缺失使得精确定位感兴趣的空间物体以及获取重要物体的位置信息变得具有挑战性。尽管通过通道维度降低可以减少模型的复杂性,但它也破坏了通道与它们权重之间的直接对应关系。
为了解决这些限制,作者提出了一种有效的ELA方法,该方法能够有效捕捉长距离空间依赖性,并消除了通道缩小对注意力网络造成的负面影响。
3、Conclusion
本文介绍了一种创新的注意力机制,称为高效局部注意力(ELA),旨在增强卷积神经网络的表示能力。ELA以其轻量级和直接的结构简化了准确定位感兴趣区域的过程。实验结果表明,ELA是一种即插即用的注意力方法,不需要减少通道维度。此外,ELA在多种深度CNN架构中一致地实现了显著的性能提升。