将注意力的阶段大改分成了4个阶段
1.将深度神经网络与注意力机制相结合,代表性方法为RAM
⒉.明确预测判别性输入特征,代表性方法为STN
3.隐性且自适应地预测潜在的关键特征,代表方法为SENet
4.自注意力机制
通道注意力
在深度神经网络中,每个卷积层通常包含多个通道,每个通道对应一个特定的特征。
通道注意力的目标是根据每个通道的重要性,动态地调整通道的权重,
以便在网络中更好地捕捉和利用重要的特征。
通过显示建模通道之间的相互依赖性,重新校准通道方面的特征响应
在squeeze阶段,通过全局平均池化操作,将卷积层的输出特征图压缩成一个特征向量
然后再excitation阶段,通过使用全连接层和非线性激活函数
学习生成一个通道的权重向量(被应用于原始特征图的每个通道),已对不同通道的特征进行加权
空间注意力
空间注意力可以被看作是一种自适应的空间区域选择机制。
空间注意机制允许神经网络在处理输入数据时,有选择性地关注特定的空间位置或区域,
以便更好地提取有用的特征。
可以帮助网络集中注意力在重要的区域上,忽略或减少对不相关区域的处理。
其应用范围比通道注意力多出了精细分类(FGCls)和图像字幕(ICap)。
它通过 策略梯度 以 端到端的方式循环预测重要区域, 并更新整个网络
明确预测 相关区域
引入空间变换器模块的方法
该模块可以对输入数据进行几何变换 平移旋转缩放
核心思想 是通过一个空间变换器 使得网络可以自动学习 对输入数据进行合适的几何变换
从而提升网络的鲁棒性和泛化能力
隐式的进行softmask的预测
该篇paper 提出了一种新的特征上下文利用方法
gather excite 通过在卷积神经网络的不同层之间收集特征信息,
并在每个层中激活重要的特征,从而提升网络的性能
传统的卷积神经网络在处理图像时,通常只考虑局部的特征
然而在某些任务重,全局上下文信息对于准确的预测非常重要
Non-local Neural Networks 非局部神经网络 通过 引入非局部操作
使得网络能够在任意位置上对全局信息进行交互
时间注意力
时间注意力可以被看作是一种动态的时间选择机制,决定了何时进行注意,因此通常用于视频处理。
本文提出了全局局部时间表示 来利用视频序列中的多尺度时间线索
进行视频人物重新识别
本篇Method 为 首先对相邻帧之间的短期时间线索,进行建模
然后捕获 不连续帧之间的长期关系
tam模块的核心思想是 引入一个自适应的时间注意力模块
他通过 学习得到每个时间步骤的注意力权重 从而决定那些时间步骤对于当前任务更加重要
这样模型在不同视频中 动态选择时间窗口的长度 以适应不同的时间尺度
分支注意力
分支注意力通常用于多分支的神经网络中,其中每个分支都专注于不同的特征子集。
这些分支可以是不同层级的特征提取器,也可以是不同任务的子模型。
通过引入分支注意力,模型可以自动学习每个分支的权重, 以便更好地利用不同分支的特征。
提出了全新的高速网络架构 用于优化深度神经网络 由于梯度爆炸和梯度消失而导致的训练苦难的问题
引入门控机制来控制 信息的流动 从而允许网络更好地学习输入数据中的非线性关系
提出一种条件参数卷积
他可以为每个样例学习一个特定的卷积kernel参数 通过替换标准卷积
通道空间注意力
CBAM小陈读paper系列-CSDN博客
channel attention 学习通道间的依赖关系 来调整通道的重要性 以增强网络对不同通道的感知能力
spatial attention 空间上 空间
时空注意力
结合了空间注意力和时间注意力的优点,能够自适应地选择重要区域和关键帧。
1.Attention Mechanisms in Computer Vision: A Survey(https://arxiv.org/abs/2111.07624)
2.Squeeze-and-Excitation Networks(https://arxiv.org/abs/1709.01507)
3.Recurrent Models of Visual Attention(https://arxiv.org/abs/1406.6247)
4.Spatial Transformer Networks(https://arxiv.org/abs/1506.02025)
5.Gather-Excite: Exploiting Feature Context in Convolutional Neural Networks(https://arxiv.org/abs/1810.12348)
6.Non-local Neural Networks(https://arxiv.org/abs/1711.07971)
7.Global-Local Temporal Representations For Video Person Re-Identification(https://arxiv.org/abs/1908.10049)
8.TAM: Temporal Adaptive Module for Video Recognition(https://arxiv.org/abs/2005.06803) 9.Training Very Deep Networks(https://arxiv.org/abs/1507.06228)
10.CondConv: Conditionally Parameterized Convolutions for Efficient Inference(https://arxiv.org/abs/1904.04971)
11.CBAM: Convolutional Block Attention Module(https://arxiv.org/abs/1807.06521) 12.Residual Attention Network for Image Classification(https://arxiv.org/abs/1704.06904)
13.Recurrent Spatial-Temporal Attention Network for Action Recognition in Videos(https://ieeexplore.ieee.org/document/8123939)
14.STA: Spatial-Temporal Attention for Large-Scale Video-based Person Re-Identification(https://arxiv.org/abs/1811.04129)
15.Spatial-Temporal Graph Convolutional Network for Video-Based Person Re-Identification
本期内容 为b站学习笔记
计算机视觉注意力机制大盘点!Attention is all you need!_哔哩哔哩_bilibili