结合创新!多尺度特征融合+Transformer,参数和计算成本减半

通过多尺度特征融合,模型能够捕捉到不同层次的视觉细节,而Transformer的自注意力机制能够在这些不同层次的特征之间建立联系,有效地整合全局上下文信息,让模型能够应对多样化的视觉场景和变化。

这种结合策略充分利用了二者各自的优势,不仅有助于模型实现更高的识别精度和更好的泛化能力,还能提高模型的性能,因为它可以更好地利用计算资源,通过并行处理不同尺度的特征来提高计算效率。

以分流自我注意(SSA)为例:它允许ViTs在每个注意层的混合尺度上建立注意模型,使自我关注能够学习不同大小的物体之间的关系,并同时减少标记的数量和计算成本,实现了不损失性能,却参数减半的效果。

本文分享8种多尺度特征融合+transformer结合创新方案,包含2024最新的成果。方法和创新点已经帮同学简单罗列,更具体的工作细节建议各位仔细阅读原文。

论文原文以及开源代码需要的同学看文末

SSA

Shunted Self-Attention via Multi-Scale Token Aggregation

方法:论文提出了一种新颖的Shunted Self-Attention (SSA)方案,用于明确考虑多尺度特征。与之前只关注一个注意力层中静态特征图的工作不同,作者保持不同尺度的特征图,这些特征图在一个自注意层中关注多尺度对象。

创新点:

  • 提出了新颖的Shunted Self-Attention (SSA)方案,用于明确考虑多尺度特征。与先前的工作不同,先前的工作只关注一个注意力层中的静态特征图,而作者维持了在一个自注意力层中关注多尺度对象的各种尺度的特征图。广泛的实验证明了该模型作为各种下游任务的骨干的有效性。

  • 将SegFormer作为框架,并将该骨干与SegFormer中的MiT进行了比较。结果在表中报告。作者的方法在参数更少的情况下,比SegFormer的mIoU提高了1.8。

  • 提出了一种新的自注意力机制,即shunted self-attention (SSA),可以同时保留粗粒度和细粒度的细节,同时对图像令牌进行全局依赖建模。

Pathformer

Pathformer: Multi-scale Transformers with Adaptive Pathways for Time Series Forecasting

方法:论文提出了一种名为Pathformer的多尺度Transformer模型,用于时间序列预测。该模型通过多尺度划分将时间序列划分为不同的时间分辨率,并使用不同尺寸的补丁对这些分辨率进行建模。在每个尺度划分的基础上,通过双重注意力来捕捉补丁之间的全局相关性和补丁内的局部细节。此外,还提出了自适应路径,根据输入数据的时态动态调整多尺度建模过程,提高了模型的准确性和泛化能力。

创新点:

  • 自适应多尺度建模的AMS块:通过多尺度Transformer块和自适应路径组成的AMS块,实现了对多尺度特征进行自适应建模。

  • 路径和专家混合用于实现自适应建模:基于这些概念,作者提出了基于多尺度Transformer的自适应路径,用于建模自适应多尺度特征。多尺度路由器根据输入数据选择特定的补丁尺寸,激活Transformer中的特定部分,并通过加权聚合与多尺度聚合器一起将这些特征组合起来,获得Transformer块的输出。

DilateFormer

DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition

方法:论文提出了一种称为DilateFormer的强大而有效的Vision Transformer,可以为各种视觉任务提供强大且通用的表示。提出的多尺度膨胀注意力(MSDA)同时考虑了浅层自注意机制的局部性和稀疏性,可以有效地聚合语义多尺度信息,并在不增加复杂操作和额外计算成本的情况下有效地减少自注意机制的冗余。

创新点:

  • 利用Multi-Scale Dilated Attention (MSDA)方法,有效聚合语义多尺度信息,并且能够降低自注意机制的冗余性和计算成本。

  • 提出了Sliding Window Dilated Attention (SWDA)操作,通过扩张卷积在特征图中进行长程依赖建模,有效减少自注意机制的冗余性。

  • 通过构建Multi-Scale Dilated Transformer (DilateFormer)模型,结合MSDA块和全局多头自注意块,实现了对多种视觉任务的强大性能和优异结果。

SAM

Scale-Aware Modulation Meet Transformer

方法:论文提出了一种新的卷积调制方法,称为尺度感知调制(SAM),其中包括两个新模块:多头混合卷积(MHMC)和尺度感知聚合(SAA)。MHMC模块旨在增强感受野并同时捕捉多尺度特征。SAA模块旨在有效地聚合不同头部的特征,同时保持轻量级架构。

作者发现SAM在捕捉长程依赖关系方面仍然不及自注意力机制。为了解决这个问题,作者提出了一种新的混合调制-Transformer架构,称为进化混合网络(EHN)。具体而言,作者在前两个阶段中结合SAM块和Transformer块,在倒数第二个阶段中引入了一种新的堆叠策略。

创新点:

  • 提出了一种新的演化混合网络,能够有效地模拟网络从捕捉局部依赖性到全局依赖性的转变,从而提高性能和效率。

  • 引入了新的卷积调制模块,即Scale-Aware Modulation (SAM),通过 Multi-Head Mixed Convolution (MHMC) 模块和 Scale-Aware Aggregation (SAA) 模块,增强了卷积模块的建模能力。

  • 提出了一种新的混合卷积-Transformer架构,即Evolutionary Hybrid Network (EHN),在前两个阶段中使用SAM模块,在最后两个阶段中使用Transformer模块,并引入了一种新的堆叠策略,能够更好地匹配各个阶段的计算特性,从而在各种下游任务上实现了更好的性能。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“多尺度结合”获取全部论文+代码

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/789840.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

库位电子标签可视化管理,让仓库更智能

一、工厂仓储的目前管理现状 目前工厂仓储管理存在诸多问题,如物料数量种类多,寻找困难且耗时;盘点人力成本高且速度慢;存储位置不清晰,常找不到物料,且多发、少发、错料现象时有发生;系统与库…

SSTI模板注入(jinja2)

前面学习了SSTI中的smarty类型,今天学习了Jinja2,两种类型都是flask框架的,但是在注入的语法上还是有不同 SSTI:服务器端模板注入,也属于一种注入类型。与sql注入类似,也是通过凭借进行命令的执行&#xff…

C++ 中的 vector 的模拟实现【代码纯享】

文章目录 C 中的 vector 模拟实现1. vector 的基本概念2. vector 的基本操作3. vector 的模拟实现4.代码纯享5. 总结 C 中的 vector 模拟实现 在 C 中,vector 是一个非常重要的容器,它提供了动态数组的功能。在本篇博客中,我们将尝试模拟实现…

函数参数缺省和内联函数【C++】

文章目录 函数参数缺省函数参数缺省的条件和要求 内联函数内联函数的工作原理内联函数的定义方法内联函数的要求解决方法:直接在.h中定义内联函数的函数体 内联函数再Debug模式下默认是不展开的 函数参数缺省 顾名思义:可以少传一个/多个参数给函数&…

防止推特Twitter账号被冻结,应该选什么代理类型IP?

在处理多个 Twitter 帐号时,选择合适的代理IP对于避免大规模帐户暂停至关重要。现在,问题出现了:哪种类型的代理是满足您需求的最佳选择?下面文章将为你具体讲解推特账号冻结原因以及重点介绍如何选择代理IP。 一、推特账号被冻结…

3个 JavaScript 字符串截取方法

在 JavaScript 中,可以使用 substr()、slice() 和 substring() 方法截取字符串. substring() substring() 方法返回一个字符串在开始索引到结束索引之间的一个子集,或从开始索引直到字符串的末尾的一个子集。语法如下: str.substring(inde…

通信术语:初学者入门指南(二)

1.SAR:Synthetic Aperture Radar合成孔径雷达,是一种雷达系统,通常用于地球或行星的遥感成像。相较于传统的实孔径雷达,SAR 通过在相对较长的时间内,对来自同一地点的多个雷达反射信号进行综合处理,实现了更…

【C+ +】第一个C+ + 项目的创建及namespace命名空间解释C++中的输入输出

目录 1.创建第一个c项目 1.1项目创建 1.2 .cpp源文件建立 1.3 第一个c程序hello world对比c语言hello world 2.命名空间 2.1 C关键字 2.2 命名空间---解决c语言中的命名冲突 2.2.1 namespace命名空间用法 2.2.2 :: 预作用限定符 2.2.3 命名空间的嵌套…

【嵌入式智能产品开发实战】(七)—— 政安晨:通过ARM-Linux掌握基本技能【环境准备:树莓派】

目录 Raspberry Pi OS 下载系统镜像 使用SSH客户端登陆 升级更新 政安晨的个人主页:政安晨 欢迎 👍点赞✍评论⭐收藏 收录专栏: 嵌入式智能产品开发实战 希望政安晨的博客能够对您有所裨益,如有不足之处,欢迎在评论区提出指正…

人工智能|深度学习——基于Xception实现戴口罩人脸表情识别

一、项目背景 近年来,随着人工智能技术的不断发展,人脸表情识别已经成为了计算机视觉领域中的重要研究方向之一。然而,在当前的疫情形势下,佩戴口罩已经成为了一项必要的防疫措施,但是佩戴口罩会遮挡住人脸的部分区域&…

换到idf 5.0版本后报错 jsmn could not be found

原因: idf5.0去掉了部分组件,包括jsmn,工程中adf又用到了这个组件,所以会报错。 解决办法: 升级adf到新版本即可。

docker导出导入镜像

docker导出镜像 查看要导出的镜像 docker images主要有两列 REPOSITORY TAG 导出命令 导出公式 docker save -o xxxx.tar REPOSITORY:TAG例子 docker save -o minio.tar minio/minio:latestminio/minio:latest可以使用image id代替,但是使用image id会导致导…

能效监测终端为什么这么好用?

能效监测终端是一种现代管理工具,它在企业和机构的能源管理体系中起着核心的作用。这些监测设备能够精确掌握用电设备的功耗情况,为用户实现节能减排和成本控制提供了有效的技术支持。以下内容将具体解释为什么能效监测终端如此好用,并从多个…

风声 | “革命”启动,这里是量子的新起点——

非洲正站在量子技术变革的前沿。 尽管非洲的量子安全技术尚未达到其他地区的先进水平,但它被视为未来计算技术发展的关键要素。如《福布斯非洲》所述:“量子计算目前的发展阶段,可以比喻为20世纪60年代的传统计算技术水平。” 非洲拥有众多的…

收下这份地表最强参会指南,4月16日,玩转百度Create大会不迷路

欢迎来到英杰社区: https://bbs.csdn.net/topics/617804998 欢迎来到阿Q社区: https://bbs.csdn.net/topics/617897397 📕作者简介:热爱跑步的恒川,致力于C/C、Java、Python等多编程语言,热爱跑步&#xff…

vulnhub之devguru靶场提权过程(vulnhub打靶日记)

一、环境搭建 VM版本:17.5.1 build-23298084 攻击机:Kali2024(下载地址:https://www.kali.org/) 靶机:vulnhub靶场Devguru(下载地址:https://www.vulnhub.com/entry/devguru-1,62…

C++——异常机制

目录 一,背景 1.1 C语言处理错误的方式 1.2 C异常概念 二,异常的使用 2.1 异常的简单使用 2.2 异常的匹配原则 2.3 异常抛对象 2.4 异常的重新抛出 2.5 异常安全 三,自定义异常体系 四,异常优缺点 4.1 优点 4.2 缺点 …

【爬虫框架Scrapy】02 Scrapy入门案例

接下来介绍一个简单的项目,完成一遍 Scrapy 抓取流程。通过这个过程,我们可以对 Scrapy 的基本用法和原理有大体了解。 1. 本节目标 本节要完成的任务如下。 创建一个 Scrapy 项目。 创建一个 Spider 来抓取站点和处理数据。 通过命令行将抓取的内容…

从零开始为香橙派orangepi zero 3移植主线linux——2.linux kernel

从零开始为香橙派orangepi zero 3移植主线linux——2.linux kernel 0.环境搭建补档NFS服务TFTP服务 一、linux kernel编译二、运行 0.环境搭建补档 linux kernel验证时,使用tftp服务从ubuntu主机下载启动更加方便,等到验证无误后再一次性烧写到tf卡。所以…

基于java+SpringBoot+Vue的校园交友网站设计与实现

基于javaSpringBootVue的校园交友网站设计与实现 开发语言: Java 数据库: MySQL技术: SpringBoot MyBatis工具: IDEA/Eclipse、Navicat、Maven 系统展示 前台展示 后台展示 系统简介 整体功能包含: 校园交友网站是一个为在校师生提供一个交流互动、寻找朋友的…