48、兰州大学、青海师范:专门用于深度CNNs的天阶斗技-ELA Local Attention

本文由兰州大学信息科学与工程学院、青海省物联网重点实验室、青海师范大学2024年3.2日发表于ArXiv。为了解决现有的注意力模型在有效利用空间信息方面存在的限制和困难,提出了一种高效的局部注意力ELA模型。该方法通过分析坐标注意力的局限性,作者识别出批量归一化泛化能力不足的问题,该问题主要是:

1、维度降低对通道注意力的不良影响

(不是我记得7年前发表于arXiv的CS大类中SENet论文这个事已经说了啊?转念一想,哦,本文是从分析坐标CA角度再思考这个问题,并给出解决方法的,emmmm好吧)

2、注意力生成过程的复杂性

(嗯,给计算机添加眼睛确实复杂)

本文简单来讲:

1、作者提出融入1D卷积和组归一化特征增强技术。这种方法能够通过有效地编码两个1D位置特征图而无需维度降低,实现准确地区分感兴趣区域,同时允许轻量级的实现。

2、作者精心设计了ELA中的三个超参数,从而形成了四个不同版本:ELA-T,ELA-B,ELA-S和ELA-L,以满足不同视觉任务(纽匹!),如图像分类、目标检测和语义分割的特定需求。

3、ELA可以无缝集成到ResNet、MobileNet和DeepLab等深度CNN网络中。在ImageNet、MSCOCO和Pascal VOC数据集上的广泛评估表明,所提出的ELA模块在上述三种视觉任务中均优于当前最先进的方法。

论文地址:

2403.01123.pdf (arxiv.org)

本文复杂来讲:

1、Introduction

深度卷积神经网络(CNNs)已成为计算机视觉领域中一个重要的研究方向,它在图像分类、目标检测和语义分割方面取得了显著的进展。一些值得关注的模型,如AlexNet,ResNet,YOLO,和MobileNet,都为这一进步做出了贡献。

尽管Transformer已经引入了许多进步,但深度卷积神经网络拥有自己有利的归纳偏置,使它们能够有效地从小型和中型数据集中学习——这是Transformer所缺乏的能力。因此,设计更高效的网络架构仍然是当代研究者需要解决的重要挑战。在深度CNN领域,注意力机制被提出作为模拟人类认知行为的手段。这种机制使神经网络能够关注相关信息,同时忽略不重要的细节,最终提高网络的学习能力。

一个显著的例子是SE块注意力,它利用2D全局池化将空间维度压缩到通道维度,从而促进增强特征学习。然而,SE块只考虑编码通道间信息,忽视了特征图的空间位置信息。尽管BAM和CBAM提取了空间注意力,但它们未能建模对视觉任务至关重要的长距离依赖,同时也减少了输入特征图的通道维度。

为此,开发了坐标注意力(CA)方法,将空间位置信息嵌入通道注意力中,并允许移动网络准确捕捉长距离空间相互关系。这种改进有利于各种卷积神经网络架构。然而,CA也表现出明显的局限性,源于其不足的泛化能力和对通道维度降低的负面影响。

众所周知,图像的空间维度包含了至关重要的位置信息。另一方面,现有的注意力机制要么未能有效利用这一空间信息,要么在利用的同时牺牲了通道的维度。本文的关注点是回答以下问题:作者能否以更高效的方式学习空间注意力?这种方法应使作者能够在不损害输入特征图的通道维度的同时,在空间维度上获得准确的位置预测,同时保持注意力模块的轻量级特性。

为了回答这个问题,作者再次回顾一下CA机制。CA模块是通过两个步骤设计的。在第一步中,使用了条带池化来生成包含输入张量空间维度上水平和垂直坐标信息的特征图。在第二步中,两个方向上的上述特征图都经过两个2D卷积,然后进行批量归一化(BN),并使用非线性激活函数,最终得到注意力。

显然,CA的设计过程相对复杂,涉及两个方向上特征图的多次分离与合并。尽管两个2D卷积增强了坐标信息,但它们也减少了通道维度,对生成的注意力产生了负面影响。此外,将BN整合到CA中引入了显著的弱点。例如,过小的迷你批次大小可能会对整个模型产生不利影响并阻碍其泛化能力。表2和表3中的消融实验结果进一步支持了这些观察。

因此,本文提出了用于深度CNN的Efficient Local Attention(ELA)模块,它准确地捕获了感兴趣区域的位置,保持了输入特征图通道的维度,并保持了其轻量级特性,如图2(c)所示。与CA相似,ELA在空间维度上采用条带状池化,以获取水平和垂直方向的特征向量,保持窄的核形状以捕获远程依赖并防止不相关区域影响标签预测,从而在各自的方向上产生丰富的目标位置特征。ELA独立地处理上述每个方向的特征向量以获得注意力预测,然后使用乘积操作将它们组合起来,确保感兴趣区域的准确位置信息。

具体来说,在第二步中,应用1D卷积与两个特征向量局部交互,可以选择调整核大小来表示局部交互的覆盖范围。产生的特征向量经过分组归一化(GN)[40]和非线性激活函数处理,以生成两个方向的位置注意力预测。最终的位置注意力通过将两个方向的位置注意力相乘得到。与2D卷积相比,1D卷积更适合处理序列信号,并且更轻量、更快。GN与BN相比,展现出可比较的性能和更好的泛化能力。

表1展示了关键的卷积神经网络注意力模块,指出了它们在通道维度降低(DR)、长距离依赖和轻量级设计方面的特点(其中轻量级模型具有的参数少于SE)。从表中可以看出,作者的ELA在所有这三个方面都表现出色。作者通过在ImageNet,Pascal VOC和MS COCO等数据集上的实验结果来评估作者方法的有效性(见表5)

实验结果表明,与ImageNet top-1的分类准确度相比,作者提出的方法提高了2.39%。此外,作者的方法在目标检测和语义分割方面表现出最显著的性能提升。因此,作者提出的ELA方法比目前最流行的注意力机制更具竞争力。

本文的贡献总结如下:

  1. 作者分析了坐标注意力(CA),并通过实验验证了其在卷积神经网络(CNN)结构中对批量归一化(BN)和通道维度减少的负面影响。

  2. 基于上述分析,作者提出了一种轻量级且高效的局部注意力(ELA)模块。这个模块帮助深度CNN更准确地定位感兴趣的目标,在仅增加少量参数的情况下显著提高了CNN的整体性能。

  3. 在包括ImageNet、MS COCO和Pascal VOC在内的流行数据集上的大量实验结果表明,作者提出的方法在性能上超越了当前的最新注意力方法,同时保持了有竞争力的模型复杂度。

2 Related Work

人们普遍认为,注意力机制在提高深度卷积神经网络(CNNs)性能方面起着至关重要的作用。SE块首次成功尝试将注意力机制用于学习通道注意力。随后,注意力机制在这两个方向上取得了显著的进展:

  1. 仅聚合通道特征;

  2. 将通道特征与空间特征整合。

具体来说,CBAM 同时利用平均池化和最大池化沿着通道维度和空间维度组合特征。同时,GCNet 是一个轻量级的注意力网络,它采用了自注意力机制,非局部网络,以及挤压激励网络等技术。SA-Net 建立在空间注意力和通道注意力结合的基础上,并引入特征分组和通道替换来实现轻量级的注意力机制。CBAM、GCNet 和 SA-Net 都结合了空间注意力和通道注意力。

GSoP 引入了二阶池化,以实现对整幅图像的高阶统计建模,从而增强了深度卷积网络的非线性建模能力。另一方面,ECA-Net 利用一维卷积生成通道注意力权重,与 SE 块相比,显著降低了建模复杂性。GSoP 和 ECA-Net 都属于通道增强的聚合方法。

然而,在上述提到的注意力网络中,要么在空间维度上缺乏长距离依赖性,要么在通道维度上进行缩小。长距离空间依赖性的缺失使得精确定位感兴趣的空间物体以及获取重要物体的位置信息变得具有挑战性。尽管通过通道维度降低可以减少模型的复杂性,但它也破坏了通道与它们权重之间的直接对应关系。

为了解决这些限制,作者提出了一种有效的ELA方法,该方法能够有效捕捉长距离空间依赖性,并消除了通道缩小对注意力网络造成的负面影响。

3、Conclusion

本文介绍了一种创新的注意力机制,称为高效局部注意力(ELA),旨在增强卷积神经网络的表示能力。ELA以其轻量级和直接的结构简化了准确定位感兴趣区域的过程。实验结果表明,ELA是一种即插即用的注意力方法,不需要减少通道维度。此外,ELA在多种深度CNN架构中一致地实现了显著的性能提升。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/730815.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

项目解决方案:多地5G蓄能电站的视频监控联网系统设计方案

目 录 一、前言 二、系统架构设计 1、系统架构设计说明 2、系统拓扑图 三、关键技术 1. 5G支持技术 2. 视频图像处理技术 3. 数据融合与分析技术 四、功能特点 1. 高效可靠 2. 实时监测 3. 远程控制 4. 故障预测 五、应用前景 一、前言 随着能源…

C++泛型实现搜索二叉树

文章目录 二叉搜索树查找插入删除实现应用性能分析 二叉搜索树 二叉搜索树(BST,Binary Search Tree)又称为二叉排序树,空树也算 二叉搜索树有如下性质 若左子树不为空,则左子树上所有节点值小于根节点若右子树不为空…

2575. 找出字符串的可整除数组(Go语言)

https://leetcode.cn/problems/find-the-divisibility-array-of-a-string/ 在看题解之前,我的代码是以下这样: package mainimport ("fmt" )func main() {fmt.Println(divisibilityArray("998244353", 3)) }func divisibilityArray…

供应链管理系统(SCM):得供应链得天下不是空话。

2023-08-26 15:51贝格前端工场 Hi,我是贝格前端工场,优化升级各类管理系统的界面和体验,是我们核心业务之一,欢迎老铁们评论点赞互动,有需求可以私信我们 一、供应链对于企业的重要性 供应链对企业经营的重要性不可…

使用plasmo框架开发浏览器插件,注入contents脚本和给页面添加UI组件

plasmo:GitHub - PlasmoHQ/plasmo: 🧩 The Browser Extension Framework plasmo是一个开发浏览器插件的框架,支持使用react和vue等技术,而且不用手动管理manifest.json文件,框架会根据你在框架中的使用,自…

ChatGPT高效提问——角色提示

ChatGPT高效提问——角色提示 角色提示技巧是一种通过给模型提供具体的角色扮演,指导ChatGPT输出的方法。这个技巧对一个具体的上下文或者听众定制生成的文本很有用。 要使用角色提示技巧,你需要提供明确具体的模型扮演的角色。 例如,如果…

如何在Windows环境下编译OpenOCD

1. 安装Cygwin Windows环境下编译OpenOCD可以是在MinGW-w64/MSYS或Cygwin下,这里选择Cygwin,下载安装Cygwin。 2. 进入OpenOCD源代码目录 打开Cygwin,进入OpenOCD源代码目录,例如代码放在D:\Temp\OpenOCD\openocd-code下&#…

C++学习笔记:AVL树

AVL树 什么是AVL树?AVL树节点的定义AVL树的插入平衡因子调整旋转调整左旋转右旋转左右双旋右左双旋 AVL树完整代码实现 什么是AVL树? AVL是1962年,两位俄罗斯数学家G.M.Adelson-Velskii和E.M.Landis 为了解决如果数据有序或接近有序二叉搜索树将退化为单支树,查找…

限制员工上网行为,如何有效管控员工上网行为? 你一定想不到这个方法!

发现员工上班时间刷抖音: 面对这种情况,领导不得火冒三丈??? 对于员工不恰当的上网行为,非常有可能导致工作效率低下、安全风险增加以及企业形象受损。 因此应该采取一些措施来对员工上网行为进行管理。 …

第三节:在Sashulin中自定义组件

上一节讲解了如何建立一个业务消息流,流程是由组件构成的。目前SMS提供了General、Database、MessageQueue、Socket、WebService、Http、Internet等系列常用组件,如果不满足业务需求,可以进行自定义组件开发。 一、组件开发 1、建立一个Jar…

C及C++每日练习(3)

选择题&#xff1a; 1.以下程序的输出结果是&#xff08;&#xff09; #include <stdio.h> main() { char a[10] {1, 2, 3, 4, 5, 6, 7, 8, 9, 0}, *p; int i; i 8; p a i; printf("%s\n", p - 3); } A.6 B. 6789 C. 6 D.789 对于本题&#xff0…

吴恩达机器学习-可选实验室:特征工程和多项式回归(Feature Engineering and Polynomial Regression)

文章目录 目标工具特征工程和多项式回归概述多项式特征选择功能备用视图扩展功能复杂的功能 恭喜! 目标 在本实验中&#xff0c;你将:探索特征工程和多项式回归&#xff0c;它们允许您使用线性回归的机制来拟合非常复杂&#xff0c;甚至非常非线性的函数。 工具 您将利用在以…

2023最新pytorch安装教程,简单易懂,面向初学者(Anaconda+GPU)

一、前言 目前是2023.1.27,鉴于本人安装过程中踩得坑&#xff0c;安装之前我先给即将安装pytorch的各位提个醒&#xff0c;有以下几点需要注意 1.判断自己电脑是否有GPU 注意这点很重要&#xff0c;本教程面向有NVIDA显卡的电脑&#xff0c;如果你的电脑没有GPU或者使用AMD显…

STM32day3

1.思维导图 1.总结任务的调度算法&#xff0c;把实现代码再写一下 /* Definitions for myTask02 */ osThreadId_t myTask02Handle; uint32_t myTask02Buffer[ 64 ]; osStaticThreadDef_t myTask02ControlBlock; const osThreadAttr_t myTask02_attributes {.name "myTa…

代码随想录算法训练营第三十九天|62.不同路径、63. 不同路径 II

62.不同路径 刷题https://leetcode.cn/problems/unique-paths/description/文章讲解https://programmercarl.com/0062.%E4%B8%8D%E5%90%8C%E8%B7%AF%E5%BE%84.html视频讲解https://www.bilibili.com/video/BV1ve4y1x7Eu/?vd_sourceaf4853e80f89e28094a5fe1e220d9062 题解&…

react的diff源码

react 的 render 阶段&#xff0c;其中 begin 时会调用 reconcileChildren 函数&#xff0c; reconcileChildren 中做的事情就是 react 知名的 diff 过程 diff 算法介绍 react 的每次更新&#xff0c;都会将新的 ReactElement 内容与旧的 fiber 树作对比&#xff0c;比较出它们…

md5绕过

文章目录 \\和\\\md5数组绕过科学计数法绕过双md加密md5碰撞Hash长度攻击 下面会以同一道题给大家演示&#xff1a; (题目来源与nssctf) 和 在php代码中我们会看到和&#xff0c;虽然两个都是表示相等&#xff0c;但是在细节上会有所部区别 &#xff1a;是弱比较&#xff0c;只…

0201安装报错-hbase-大数据学习

1 基础环境简介 linux系统&#xff1a;centos&#xff0c;前置安装&#xff1a;jdk、hadoop、zookeeper&#xff0c;版本如下 软件版本描述centos7linux系统发行版jdk1.8java开发工具集hadoop2.10.0大数据生态基础组件zookeeper3.5.7分布式应用程序协调服务hbase2.4.11分布式…

Sora 作者被曝读博期间仅发表两篇论文,我们是否需要重塑科研价值观?

众所周知&#xff0c;在当今学术界&#xff0c;论文数量和产出速度常常被视为研究者生产力和学术成就的重要标尺。笔者也面试过很多博士生候选人&#xff0c;大家普遍会以自己读博期间发表过10几篇甚至几十篇论文而骄傲&#xff0c;很少有候选人会强调自己读博期间虽然发表论文…

Matlab|基于目标级联法的微网群多主体分布式优化调度

目录 主要内容 1.1 上层微网群模型 1.2 下层微网模型 部分程序 实现效果 下载链接 主要内容 本文复现《基于目标级联法的微网群多主体分布式优化调度》文献的目标级联部分&#xff0c; 建立微网群系统的两级递阶优化调度模型: 上层是微网群能量调度中心优化调度…