结合创新!多尺度特征融合+Transformer,参数和计算成本减半

通过多尺度特征融合,模型能够捕捉到不同层次的视觉细节,而Transformer的自注意力机制能够在这些不同层次的特征之间建立联系,有效地整合全局上下文信息,让模型能够应对多样化的视觉场景和变化。

这种结合策略充分利用了二者各自的优势,不仅有助于模型实现更高的识别精度和更好的泛化能力,还能提高模型的性能,因为它可以更好地利用计算资源,通过并行处理不同尺度的特征来提高计算效率。

以分流自我注意(SSA)为例:它允许ViTs在每个注意层的混合尺度上建立注意模型,使自我关注能够学习不同大小的物体之间的关系,并同时减少标记的数量和计算成本,实现了不损失性能,却参数减半的效果。

本文分享8种多尺度特征融合+transformer结合创新方案,包含2024最新的成果。方法和创新点已经帮同学简单罗列,更具体的工作细节建议各位仔细阅读原文。

论文原文以及开源代码需要的同学看文末

SSA

Shunted Self-Attention via Multi-Scale Token Aggregation

方法:论文提出了一种新颖的Shunted Self-Attention (SSA)方案,用于明确考虑多尺度特征。与之前只关注一个注意力层中静态特征图的工作不同,作者保持不同尺度的特征图,这些特征图在一个自注意层中关注多尺度对象。

创新点:

  • 提出了新颖的Shunted Self-Attention (SSA)方案,用于明确考虑多尺度特征。与先前的工作不同,先前的工作只关注一个注意力层中的静态特征图,而作者维持了在一个自注意力层中关注多尺度对象的各种尺度的特征图。广泛的实验证明了该模型作为各种下游任务的骨干的有效性。

  • 将SegFormer作为框架,并将该骨干与SegFormer中的MiT进行了比较。结果在表中报告。作者的方法在参数更少的情况下,比SegFormer的mIoU提高了1.8。

  • 提出了一种新的自注意力机制,即shunted self-attention (SSA),可以同时保留粗粒度和细粒度的细节,同时对图像令牌进行全局依赖建模。

Pathformer

Pathformer: Multi-scale Transformers with Adaptive Pathways for Time Series Forecasting

方法:论文提出了一种名为Pathformer的多尺度Transformer模型,用于时间序列预测。该模型通过多尺度划分将时间序列划分为不同的时间分辨率,并使用不同尺寸的补丁对这些分辨率进行建模。在每个尺度划分的基础上,通过双重注意力来捕捉补丁之间的全局相关性和补丁内的局部细节。此外,还提出了自适应路径,根据输入数据的时态动态调整多尺度建模过程,提高了模型的准确性和泛化能力。

创新点:

  • 自适应多尺度建模的AMS块:通过多尺度Transformer块和自适应路径组成的AMS块,实现了对多尺度特征进行自适应建模。

  • 路径和专家混合用于实现自适应建模:基于这些概念,作者提出了基于多尺度Transformer的自适应路径,用于建模自适应多尺度特征。多尺度路由器根据输入数据选择特定的补丁尺寸,激活Transformer中的特定部分,并通过加权聚合与多尺度聚合器一起将这些特征组合起来,获得Transformer块的输出。

DilateFormer

DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition

方法:论文提出了一种称为DilateFormer的强大而有效的Vision Transformer,可以为各种视觉任务提供强大且通用的表示。提出的多尺度膨胀注意力(MSDA)同时考虑了浅层自注意机制的局部性和稀疏性,可以有效地聚合语义多尺度信息,并在不增加复杂操作和额外计算成本的情况下有效地减少自注意机制的冗余。

创新点:

  • 利用Multi-Scale Dilated Attention (MSDA)方法,有效聚合语义多尺度信息,并且能够降低自注意机制的冗余性和计算成本。

  • 提出了Sliding Window Dilated Attention (SWDA)操作,通过扩张卷积在特征图中进行长程依赖建模,有效减少自注意机制的冗余性。

  • 通过构建Multi-Scale Dilated Transformer (DilateFormer)模型,结合MSDA块和全局多头自注意块,实现了对多种视觉任务的强大性能和优异结果。

SAM

Scale-Aware Modulation Meet Transformer

方法:论文提出了一种新的卷积调制方法,称为尺度感知调制(SAM),其中包括两个新模块:多头混合卷积(MHMC)和尺度感知聚合(SAA)。MHMC模块旨在增强感受野并同时捕捉多尺度特征。SAA模块旨在有效地聚合不同头部的特征,同时保持轻量级架构。

作者发现SAM在捕捉长程依赖关系方面仍然不及自注意力机制。为了解决这个问题,作者提出了一种新的混合调制-Transformer架构,称为进化混合网络(EHN)。具体而言,作者在前两个阶段中结合SAM块和Transformer块,在倒数第二个阶段中引入了一种新的堆叠策略。

创新点:

  • 提出了一种新的演化混合网络,能够有效地模拟网络从捕捉局部依赖性到全局依赖性的转变,从而提高性能和效率。

  • 引入了新的卷积调制模块,即Scale-Aware Modulation (SAM),通过 Multi-Head Mixed Convolution (MHMC) 模块和 Scale-Aware Aggregation (SAA) 模块,增强了卷积模块的建模能力。

  • 提出了一种新的混合卷积-Transformer架构,即Evolutionary Hybrid Network (EHN),在前两个阶段中使用SAM模块,在最后两个阶段中使用Transformer模块,并引入了一种新的堆叠策略,能够更好地匹配各个阶段的计算特性,从而在各种下游任务上实现了更好的性能。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“多尺度结合”获取全部论文+代码

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/789840.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android 手机部署whisper 模型

Whisper 是什么? “Whisper” 是一个由OpenAI开发的开源深度学习模型,专门用于语音识别任务。这个模型能够将语音转换成文本,支持多种语言,并且在处理不同的口音、环境噪音以及跨语言的语音识别方面表现出色。Whisper模型的目标是提供一个高效、准确的工具,以支持自动字幕…

npm(Node Package Manager)

npm&#xff08;Node Package Manager&#xff09;是 Node.js 的默认包管理器&#xff0c;它用于安装、更新、配置和移除 Node.js 应用程序中的包。以下是一些常用的 npm 命令&#xff1a; 1. 安装包 npm install <package> - 安装一个包到当前项目&#xff08;默认为 …

2024.4.3 controller+soem双进程调试

需要数据&#xff1a; 各关节减速器减速比&#xff08;符号与关节方向电机方向相关&#xff09;编码器位数17位131072、20位1048576&#xff0c;23位8388608&#xff08;与关节转角换算到电机端脉冲值有关&#xff09;DH参数&#xff08;主要是连杆长度&#xff0c;建立名义运…

库位电子标签可视化管理,让仓库更智能

一、工厂仓储的目前管理现状 目前工厂仓储管理存在诸多问题&#xff0c;如物料数量种类多&#xff0c;寻找困难且耗时&#xff1b;盘点人力成本高且速度慢&#xff1b;存储位置不清晰&#xff0c;常找不到物料&#xff0c;且多发、少发、错料现象时有发生&#xff1b;系统与库…

SSTI模板注入(jinja2)

前面学习了SSTI中的smarty类型&#xff0c;今天学习了Jinja2&#xff0c;两种类型都是flask框架的&#xff0c;但是在注入的语法上还是有不同 SSTI&#xff1a;服务器端模板注入&#xff0c;也属于一种注入类型。与sql注入类似&#xff0c;也是通过凭借进行命令的执行&#xff…

Qt-在QLabel上显示Mat数据

0. 写在前面 用于记录一下&#xff0c;在Qt上显示Mat的数据&#xff0c;记录代码如下&#xff1b; //QLabel中显示处理结果 void MainWindow::matToLabelShow(QLabel *label, Mat &mat) {cv::Mat Rgb;QImage Img;if (mat.channels() 3)//RGB Img{cv::cvtColor(mat, Rgb,C…

C++ 中的 vector 的模拟实现【代码纯享】

文章目录 C 中的 vector 模拟实现1. vector 的基本概念2. vector 的基本操作3. vector 的模拟实现4.代码纯享5. 总结 C 中的 vector 模拟实现 在 C 中&#xff0c;vector 是一个非常重要的容器&#xff0c;它提供了动态数组的功能。在本篇博客中&#xff0c;我们将尝试模拟实现…

函数参数缺省和内联函数【C++】

文章目录 函数参数缺省函数参数缺省的条件和要求 内联函数内联函数的工作原理内联函数的定义方法内联函数的要求解决方法&#xff1a;直接在.h中定义内联函数的函数体 内联函数再Debug模式下默认是不展开的 函数参数缺省 顾名思义&#xff1a;可以少传一个/多个参数给函数&…

防止推特Twitter账号被冻结,应该选什么代理类型IP?

在处理多个 Twitter 帐号时&#xff0c;选择合适的代理IP对于避免大规模帐户暂停至关重要。现在&#xff0c;问题出现了&#xff1a;哪种类型的代理是满足您需求的最佳选择&#xff1f;下面文章将为你具体讲解推特账号冻结原因以及重点介绍如何选择代理IP。 一、推特账号被冻结…

3个 JavaScript 字符串截取方法

在 JavaScript 中&#xff0c;可以使用 substr()、slice() 和 substring() 方法截取字符串. substring() substring() 方法返回一个字符串在开始索引到结束索引之间的一个子集&#xff0c;或从开始索引直到字符串的末尾的一个子集。语法如下&#xff1a; str.substring(inde…

通信术语:初学者入门指南(二)

1.SAR&#xff1a;Synthetic Aperture Radar合成孔径雷达&#xff0c;是一种雷达系统&#xff0c;通常用于地球或行星的遥感成像。相较于传统的实孔径雷达&#xff0c;SAR 通过在相对较长的时间内&#xff0c;对来自同一地点的多个雷达反射信号进行综合处理&#xff0c;实现了更…

.Net 对象与对象之间的映射转换的6中方式以及性能对比

我们在.Net开发的过程中&#xff0c;经常会遇到一个实体对象与另一个实体对象之间的映射转换&#xff0c;接下来我们将依次去实现6个对象间映射转换的方式&#xff0c;并对他们进行性能测试&#xff0c;找出其中效率最高的方式。 通过对象Copy&#xff0c;通过new一个新的实体对…

el-table的复选框勾选整行变色

要实现el-table的复选框勾选整行变色&#xff0c;你可以使用element-ui提供的row-class-name属性结合scoped slot来完成。 首先&#xff0c;你需要为el-table组件添加 row-class-name 属性&#xff0c;并给它绑定一个方法。在这个方法中&#xff0c;你可以根据你的业务逻辑来判…

【C+ +】第一个C+ + 项目的创建及namespace命名空间解释C++中的输入输出

目录 1.创建第一个c项目 1.1项目创建 1.2 .cpp源文件建立 1.3 第一个c程序hello world对比c语言hello world 2.命名空间 2.1 C关键字 2.2 命名空间---解决c语言中的命名冲突 2.2.1 namespace命名空间用法 2.2.2 &#xff1a;&#xff1a; 预作用限定符 2.2.3 命名空间的嵌套…

【嵌入式智能产品开发实战】(七)—— 政安晨:通过ARM-Linux掌握基本技能【环境准备:树莓派】

目录 Raspberry Pi OS 下载系统镜像 使用SSH客户端登陆 升级更新 政安晨的个人主页&#xff1a;政安晨 欢迎 &#x1f44d;点赞✍评论⭐收藏 收录专栏: 嵌入式智能产品开发实战 希望政安晨的博客能够对您有所裨益&#xff0c;如有不足之处&#xff0c;欢迎在评论区提出指正…

人工智能|深度学习——基于Xception实现戴口罩人脸表情识别

一、项目背景 近年来&#xff0c;随着人工智能技术的不断发展&#xff0c;人脸表情识别已经成为了计算机视觉领域中的重要研究方向之一。然而&#xff0c;在当前的疫情形势下&#xff0c;佩戴口罩已经成为了一项必要的防疫措施&#xff0c;但是佩戴口罩会遮挡住人脸的部分区域&…

c++ new int[10]()会进行初始化.

new int[10]()-CSDN博客 #include<iostream> using namespace std;int main() {int *p new int[10]();for(int i 0; i < 10; i){cout << p[i] << endl;}delete []p; } 会进行初始化.

换到idf 5.0版本后报错 jsmn could not be found

原因&#xff1a; idf5.0去掉了部分组件&#xff0c;包括jsmn&#xff0c;工程中adf又用到了这个组件&#xff0c;所以会报错。 解决办法&#xff1a; 升级adf到新版本即可。

docker导出导入镜像

docker导出镜像 查看要导出的镜像 docker images主要有两列 REPOSITORY TAG 导出命令 导出公式 docker save -o xxxx.tar REPOSITORY:TAG例子 docker save -o minio.tar minio/minio:latestminio/minio:latest可以使用image id代替&#xff0c;但是使用image id会导致导…

梯度:般在神经网络里面是一个batch清空一次梯度还是一个epoch清空一次梯度?

通常&#xff0c;在神经网络训练中&#xff0c;是在每个 mini-batch 处理完成后清空一次梯度&#xff0c;而不是在每个 epoch 结束后清空一次梯度。 这是因为在每个 mini-batch 中&#xff0c;模型参数的梯度是根据当前 mini-batch 的损失计算得到的&#xff0c;如果不在每个 …