计算机视觉注意力机制小盘一波 (学习笔记)

将注意力的阶段大改分成了4个阶段

1.将深度神经网络与注意力机制相结合,代表性方法为RAM

⒉.明确预测判别性输入特征,代表性方法为STN

3.隐性且自适应地预测潜在的关键特征,代表方法为SENet

4.自注意力机制

通道注意力

在深度神经网络中,每个卷积层通常包含多个通道,每个通道对应一个特定的特征。

通道注意力的目标是根据每个通道的重要性,动态地调整通道的权重,

以便在网络中更好地捕捉和利用重要的特征。
 

通过显示建模通道之间的相互依赖性,重新校准通道方面的特征响应

在squeeze阶段,通过全局平均池化操作,将卷积层的输出特征图压缩成一个特征向量

然后再excitation阶段,通过使用全连接层和非线性激活函数

学习生成一个通道的权重向量(被应用于原始特征图的每个通道),已对不同通道的特征进行加权

空间注意力

空间注意力可以被看作是一种自适应的空间区域选择机制

空间注意机制允许神经网络在处理输入数据时,有选择性地关注特定的空间位置或区域,

以便更好地提取有用的特征。

可以帮助网络集中注意力在重要的区域上,忽略或减少对不相关区域的处理。
其应用范围比通道注意力多出了精细分类(FGCls)和图像字幕(ICap)


它通过 策略梯度 以 端到端的方式循环预测重要区域, 并更新整个网络

明确预测 相关区域

引入空间变换器模块的方法

该模块可以对输入数据进行几何变换 平移旋转缩放

核心思想 是通过一个空间变换器  使得网络可以自动学习 对输入数据进行合适的几何变换

从而提升网络的鲁棒性和泛化能力

隐式的进行softmask的预测

该篇paper 提出了一种新的特征上下文利用方法

gather excite 通过在卷积神经网络的不同层之间收集特征信息,

并在每个层中激活重要的特征,从而提升网络的性能

传统的卷积神经网络在处理图像时,通常只考虑局部的特征

然而在某些任务重,全局上下文信息对于准确的预测非常重要

Non-local Neural Networks 非局部神经网络 通过 引入非局部操作

使得网络能够在任意位置上对全局信息进行交互

时间注意力

时间注意力可以被看作是一种动态的时间选择机制,决定了何时进行注意,因此通常用于视频处理。
 

本文提出了全局局部时间表示  来利用视频序列中的多尺度时间线索

进行视频人物重新识别

本篇Method 为 首先对相邻帧之间的短期时间线索,进行建模

然后捕获 不连续帧之间的长期关系

tam模块的核心思想是 引入一个自适应的时间注意力模块

他通过 学习得到每个时间步骤的注意力权重 从而决定那些时间步骤对于当前任务更加重要

这样模型在不同视频中 动态选择时间窗口的长度 以适应不同的时间尺度

分支注意力

分支注意力通常用于多分支的神经网络中,其中每个分支都专注于不同的特征子集
这些分支可以是不同层级的特征提取器,也可以是不同任务的子模型。

通过引入分支注意力,模型可以自动学习每个分支的权重, 以便更好地利用不同分支的特征。
 

提出了全新的高速网络架构 用于优化深度神经网络 由于梯度爆炸和梯度消失而导致的训练苦难的问题

引入门控机制来控制 信息的流动 从而允许网络更好地学习输入数据中的非线性关系

提出一种条件参数卷积

他可以为每个样例学习一个特定的卷积kernel参数 通过替换标准卷积

通道空间注意力

CBAM小陈读paper系列-CSDN博客

channel attention 学习通道间的依赖关系 来调整通道的重要性 以增强网络对不同通道的感知能力

spatial attention           空间上                              空间 

时空注意力

结合了空间注意力和时间注意力的优点,能够自适应地选择重要区域和关键帧。

1.Attention Mechanisms in Computer Vision: A Survey(https://arxiv.org/abs/2111.07624)

2.Squeeze-and-Excitation Networks(https://arxiv.org/abs/1709.01507)

3.Recurrent Models of Visual Attention(https://arxiv.org/abs/1406.6247)

4.Spatial Transformer Networks(https://arxiv.org/abs/1506.02025)

5.Gather-Excite: Exploiting Feature Context in Convolutional Neural Networks(https://arxiv.org/abs/1810.12348)

6.Non-local Neural Networks(https://arxiv.org/abs/1711.07971)

7.Global-Local Temporal Representations For Video Person Re-Identification(https://arxiv.org/abs/1908.10049)

8.TAM: Temporal Adaptive Module for Video Recognition(https://arxiv.org/abs/2005.06803) 9.Training Very Deep Networks(https://arxiv.org/abs/1507.06228)

10.CondConv: Conditionally Parameterized Convolutions for Efficient Inference(https://arxiv.org/abs/1904.04971)

11.CBAM: Convolutional Block Attention Module(https://arxiv.org/abs/1807.06521) 12.Residual Attention Network for Image Classification(https://arxiv.org/abs/1704.06904)

13.Recurrent Spatial-Temporal Attention Network for Action Recognition in Videos(https://ieeexplore.ieee.org/document/8123939)

14.STA: Spatial-Temporal Attention for Large-Scale Video-based Person Re-Identification(https://arxiv.org/abs/1811.04129)

15.Spatial-Temporal Graph Convolutional Network for Video-Based Person Re-Identification

本期内容 为b站学习笔记

计算机视觉注意力机制大盘点!Attention is all you need!_哔哩哔哩_bilibili

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/122820.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android问题笔记四十一:JNI NewStringUTF错误的几种解决方案

点击跳转>Unity3D特效百例点击跳转>案例项目实战源码点击跳转>游戏脚本-辅助自动化点击跳转>Android控件全解手册点击跳转>Scratch编程案例点击跳转>软考全系列 👉关于作者 专注于Android/Unity和各种游戏开发技巧,以及各种资源分享&…

合并两个有序链表(C++)

题目 将两个升序链表合并为一个新的 升序 链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 示例 1: 输入:l1 [1,2,4], l2 [1,3,4] 输出:[1,1,2,3,4,4]示例 2: 输入:l1 [], l2 [] 输出&#xff1…

取Dataset子集(pytorch)

取Dataset子集--pytorch 1. why2. how3. example 1. why 我们在调试深度学习代码时,常常会遇到数据集太大,导致调试浪费时间的情况,这种情况下,将数据集中的一个子集拿出来用于调试代码,调试成功在用完整的数据集运行…

从InnoDB索引的数据结构,去理解索引

从InnoDB索引的数据结构,去理解索引 1、InnoDB 中的 BTree1.1、BTree 的组成1.2、BTree中的数据页 2、聚簇索引2.1、聚簇索引的特点2.2、聚簇索引的结构示例2.3、聚簇索引的优缺点 3、非聚簇索引3.1、非聚簇索引结构示例3.2、关于回表3.3、聚簇索引和非聚簇索引的区…

基本微信小程序的外卖点餐订餐平台

项目介绍 餐饮行业是一个传统的行业。根据当前发展现状,网络信息时代的全面普及,餐饮行业也在发生着变化,单就点餐这一方面,利用手机点单正在逐步进入人们的生活。传统的点餐方式,不仅会耗费大量的人力、时间&#xf…

css四种导入方式

1 行内样式 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Title</title> </head> <body> <h1 style"color: blue">我是标题</h1> </body> </htm…

粤嵌实训医疗项目--day03(Vue + SpringBoot)

往期回顾 粤嵌实训医疗项目day02&#xff08;Vue SpringBoot&#xff09;-CSDN博客 粤嵌实训医疗项目--day01&#xff08;VueSpringBoot&#xff09;-CSDN博客 目录 一、SpringBoot AOP的使用 二、用户模块-注册功能&#xff08;文件上传&#xff09; 三、用户模块-注册实现…

【Unity】RenderFeature应用(简单场景扫描效果)

【Unity】RenderFeature应用&#xff08;简单场景扫描效果&#xff09; RenderFeature 是一个用于渲染图形的概念&#xff0c;通常在图形引擎或游戏引擎中使用。它是一个模块化的组件&#xff0c;负责处理特定的渲染功能&#xff0c;例如阴影、光照、粒子效果等。 点击地面生成…

【考研数学】数学“背诵”手册 | 需要记忆且容易遗忘的知识点

文章目录 引言一、高数常见泰勒展开 n n n 阶导数公式多元微分函数连续、可微、连续可偏导之间的关系多元函数极值无条件极值条件极值 三角函数的积分性质华里士公式&#xff08; “点火”公式 &#xff09;特殊性质 原函数与被积函数的奇偶性结论球坐标变换公式 二、线代施密特…

CondaError: Downloaded bytes did not match Content-Length

问题 使用anaconda下载包文件时&#xff0c;出现了CondaError: Downloaded bytes did not match Content-Length的错误 CondaError: Downloaded bytes did not match Content-Lengthurl: https://conda.anaconda.org/pytorch/win-64/pytorch-2.1.0-py3.11_cuda11.8_cudnn8_0.…

npm : 无法加载文件 C:\Program Files\nodejs\npm.ps1,因为在此系统上禁止运行脚本。

1、在vscode终端执行 get-ExecutionPolicy &#xff0c;显示Restricted&#xff0c;说明状态是禁止的。 2、更改状态: set-ExecutionPolicy RemoteSigned 出现需要管理员权限提示&#xff0c;可选择执行 Set-ExecutionPolicy -Scope CurrentUser 出现的ExecutionPolicy参数后输…

H5游戏源码分享-色块选择游戏

H5游戏源码分享-色块选择游戏 玩到后面色块越来越小&#xff0c;越来越难找出 <!DOCTYPE html><html><head><meta http-equiv"Content-Type" content"text/html; charsetUTF-8"><meta charset"UTF-8"><meta na…

bitlocker 加密锁定的固态硬盘,更换到别的电脑上,怎么把原密钥写进新电脑TPM芯片内,开启无需手动填密钥

环境: Win11 专业版 联想E14笔记本 512G ssd 问题描述: 一台笔记本因充电故障,需要拿去维修,不想重装系统,将bitlocker 加密锁定的固态硬盘拆下更换到别的笔记本电脑上,现在开机要手动填密钥,怎么把原密钥写进新电脑TPM芯片内,开启无需手动填密钥和之前那台电脑一…

C的自定义类型

目录 1. 结构体 1.1. 结构体类型的声明 1.1.1. 特殊声明 2. 结构的自引用 3. 结构体变量的定义和初始化 4. 结构体内存对齐 4.1. 结构体内存对齐 4.2. 修改默认对齐数 5. 结构体传参 6. 结构体实现位段&#xff08;位段的填充&可移植性&#xff09; 6.1. 什么是位…

Glide原理

本文基于Carson整理 1.简介 相比其他几种图片加载框架&#xff0c;Glide性能最好。这得益于其高效的图片缓存策略 其还有多样化的媒体格式加载&#xff1a;如GIF、Video&#xff0c;对于商城首页需展示丰富样式、信息的页面需求来说&#xff0c;也是必不可少的。 2.加载原理…

nodejs+vue+elementui+express酒店管理系统

登录&#xff1a;运行系统后&#xff0c;进行登录&#xff0c;可使用本系统。 客房预定&#xff1a;此界面先通过条件查询客房信息&#xff0c;然后进行客房预定。对预定的客房还可以取消和支付操作。 信息查询&#xff1a;可查询所有的公告信息&#xff0c;点击公告名称&#…

[量化投资-学习笔记003]Python+TDengine从零开始搭建量化分析平台-Grafana画K线图

在前面两个笔记&#xff1a; PythonTDengine从零开始搭建量化分析平台-数据存储 PythonTDengine从零开始搭建量化分析平台-MA均线的多种实现方式 中有提到使用 Grafana 画图&#xff0c;不过画的都是均线。除了均线&#xff0c;Grafana 非常人性的提供了 K线图模块 搭配 TDeng…

基于群居蜘蛛算法的无人机航迹规划

基于群居蜘蛛算法的无人机航迹规划 文章目录 基于群居蜘蛛算法的无人机航迹规划1.群居蜘蛛搜索算法2.无人机飞行环境建模3.无人机航迹规划建模4.实验结果4.1地图创建4.2 航迹规划 5.参考文献6.Matlab代码 摘要&#xff1a;本文主要介绍利用群居蜘蛛算法来优化无人机航迹规划。 …

Photoshop(PS)安装教程(2023最新最详细图文教程)

目录 一.简介 二.安装步骤 软件&#xff1a;PS版本&#xff1a;2023语言&#xff1a;简体中文大小&#xff1a;3.20G系统要求&#xff1a;Win10&#xff08;1903&#xff09;及以上版本&#xff0c;64位操作系统硬件要求&#xff1a;CPU2.0GHz 内存8G(或更高&#xff0c;不支持…

5G 3GPP全球频谱介绍

所谓 “频谱”&#xff0c;是指特定类型的无线通信所在的射频范围。不同的无线技术使用不同的频谱&#xff0c;因此互不干扰。由于一项技术的频谱是有限的&#xff0c;因此频谱空间存在大量竞争&#xff0c;并且人们也在不断开发和增强全新的、高效率的频谱使用方式。 介绍5G …