结合创新!11种多尺度特征融合方法,附论文和代码

随着深度学习和计算机视觉技术的快速发展,多尺度特征融合已经成为一个备受关注的、不断探索的研究方向,它通过捕捉不同尺度和层次上的特征信息,提高对图像和视频内容的理解能力,为图像处理、计算机视觉和深度学习等领域的应用提供了坚实的基础。

今天就整理了11种多尺度特征融合方法分享给大家,这些方法采用了不同的策略和技术,能够有效地改进图像的识别、检测、分类和分割等任务!

1、MSGNet: Learning Multi-Scale Inter-Series Correlations for Multivariate Time Series Forecasting(AAAI2024)

MSGNet:学习多变量时间序列预测的多尺度序列间相关性

简述:本文提出了一种深度学习模型MSGNet,利用频域分析和自适应图卷积来捕捉多个时间尺度上的系列间相关性。MSGNet通过自注意力机制处理系列内依赖,并引入自适应混合跳跃图卷积层学习每个时间尺度的系列间关系。实验证明,MSGNet在多个真实数据集上有效,并能自动学习可解释的多尺度系列间相关性,展现出良好的泛化能力。

图片

2、CEDNet: A Cascade Encoder-Decoder Network for Dense Prediction(ICLR 2024)

CEDNet:用于密集预测的级联编码器-解码器网络

简述:本文提出了一种名为CEDNet的简化级联编码器-解码器网络,它专为密集预测任务设计,并在解码器中执行多尺度特征融合。CEDNet的特点是能够从早期阶段整合高级特征来指导低级特征学习,增强多尺度特征融合。研究人员还研究了Hourglass、UNet和FPN三种编码器-解码器结构,并将它们集成到CEDNet中,提升了性能。在目标检测、实例分割和语义分割的实验中验证了该方法的有效性。

图片

3、Dual Attention U-Net with Feature Infusion:Pushing the Boundaries of Multiclass Defect Segmentation

具有特征注入的双注意力 U-Net:突破多类缺陷分割的界限

简述:本文提出了DAU-FI Net架构,主要针对多类不平衡数据集的语义分割,通过集成多尺度空间通道注意力机制和特征注入提升精度。核心是多尺度深度可分离卷积块和空间通道压缩与激励(scSE)注意力单元,模拟特征图中的通道和空间区域依赖关系。DAU-FI Net利用加法注意力门优化分割,并扩展特征空间。实验表明,该架构在下水道管道和涵洞缺陷数据集及基准数据集上实现了最先进的平均并集交(IoU),比之前方法高出8.9%和12.6%。

图片

4、DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition(TMM2023)

DilateFormer:用于视觉识别的多尺度扩张变压器

简述:本文提出了多尺度扩张注意力(MSDA)模块来模拟局部和稀疏斑块的相互作用,并构建了多尺度膨胀变压器(DilateFormer)。DilateFormer在视觉任务中表现出色,ImageNet-1 K分类任务上与先进模型相当,但FLOP减少了70%。DilateFormer-Base在ImageNet上达到85.6%的前1准确率,在COCO任务上分别达到53.5%的盒式mAP和46.1%的掩码mAP,在ADE20 K语义分割上达到51.1%的MS mIoU。

图片

5、Accurate Leukocyte Detection Based on Deformable-DETR and Multi-Level Feature Fusion for Aiding Diagnosis of Blood Diseases

基于可变形DETR和多级特征融合的精准白细胞检测辅助血液病诊断

简述:本文提出了MFDS-DETR方法,使用多层次特征融合和可变自注意力机制来增强白细胞检测性能。通过在编码器中集成多尺度可变自注意力模块,在解码器中使用自注意力和交叉可变形注意力机制提取白细胞特征图的全球特征。实验证明,该方法在WBCDD、LISC和BCCD数据集上优于其他先进模型,有效性和通用性得到验证。

图片

6、Lightweight multi-level feature difference fusion network for RGB-D-T salient object detection

用于RGB-D-T显著目标检测的轻量级多级特征差异融合网络

简述:本文提出了MFDF网络,用于实时RGB-D-T显著目标检测,这是首个此类网络。由于深度模态信息较少,研究人员采用基于MobileNetV2的非对称三流编码器,为减少冗余参数,还设计了低级特征解码模块和多尺度高级特征融合模块。MFDF在17种最先进方法中表现优异,速度快(320 × 320图像尺寸下124 FPS),参数少(8.9 M),实验证明其有效性。

图片

7、Seeing Beyond the Patch: Scale-Adaptive Semantic Segmentation of High-resolution Remote Sensing Imagery based on Reinforcement Learning(ICCV2023)

超越斑块:基于强化学习的超分辨率遥感图像的尺度自适应语义分割

简述:本文提出了GeoAgent,一个自适应的动态尺度感知框架,用于高分辨率遥感影像的语义分割。GeoAgent利用全局缩略图和位置蒙版为每个图像补丁提供上下文信息,并通过比例控制代理选择适当的尺度。特征索引模块增强了智能体对补丁位置的区分能力,双分支分割网络提取并融合多尺度特征。实验结果表明,GeoAgent在公开数据集和新构建的WUSU数据集上都优于其他分割方法,特别是在大规模测绘应用中。

图片

8、DynStatF: An Effcient Feature Fusion Strategy for LiDAR 3D Object Detection(CVPR2023)

DynStatF:一种用于LiDAR 3D目标检测的高效特征融合策略

简述:本文提出了一种新的特征融合策略DynStaF,通过当前单帧的精确位置信息增强多帧提供的丰富语义信息。DynStaF包含邻域交叉注意力(NCA)和动态-静态交互(DSI)模块,通过双路径架构运行,NCA模块将静态分支要素作为查询,动态分支要素作为键值,解决点云稀疏性,只考虑邻域位置。实验表明,DynStaF在nuScenes数据集上显著提升PointPillars性能至61.6%,与CenterPoint结合使用时,达到61.0%的mAP和67.7%的NDS,为最先进性能。

图片

9、Lite DETR : An Interleaved Multi-Scale Encoder for Efficient DETR(CVPR2023)

Lite DETR:用于高效 DETR 的交错式多标度编码器

简述:本文提出了Lite DETR,一个简单高效的端到端目标检测框架,可将检测头的GFLOP降低60%,同时保持99%原始性能。通过交错更新高级和低级特征,研究人员设计高效编码器模块,为更好融合跨尺度特征,还开发键感知可变形注意力来预测更可靠权重。实验验证了Lite DETR的有效性和效率,且高效编码器策略适用于现有DETR模型。

图片

10、CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition(CVPR2023)

CDDFuse:面向多模态图像融合的相关驱动双分支特征分解

简述:本文提出了CDDFuse网络,这是一个新的多模态特征融合方法。它首先利用Restormer模块提取跨模态的浅层特征,然后通过一个双分支Transformer-CNN结构处理全局和局部特征,结合可逆神经网络(INN)来提取高频信息。CDDFuse使用相关驱动损失来优化特征融合,并结合全局和局部融合层生成最终图像。实验证明,CDDFuse在多种图像融合任务中表现优异,并提升了红外-可见光图像的语义分割和目标检测性能。

图片

11、Centralized Feature Pyramid for Object Detection

用于目标检测的集中式特征金字塔

简述:本文提出了一种新的目标检测网络,称为集中式特征金字塔(CFP),它通过全局显式监管来优化特征。CFP使用轻量级MLP捕获全局依赖,并通过可学习的视觉中心机制关注图像的角落区域。这种方法通过从深层次特征中提取的信息来调节浅层次特征,实现了更全面和具有区分性的特征表示。在MS-COCO数据集上的实验表明,CFP能够提升YOLOv5和YOLOX目标检测基线的性能。

图片

码字不易,欢迎大家点赞评论收藏!

关注下方《享享学AI》

回复【多尺度特征融合】获取完整论文

👇

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/660235.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

鸿蒙(HarmonyOS)项目方舟框架(ArkUI)之DatePicker组件

鸿蒙(HarmonyOS)项目方舟框架(ArkUI)之DatePicker组件 一、操作环境 操作系统: Windows 10 专业版、IDE:DevEco Studio 3.1、SDK:HarmonyOS 3.1 二、DatePicker组件 日期选择器组件,用于根据指定日期范围创建日期滑…

字符串操作函数1

1.strcpy使用 使用这个函数我们可以进行字符串拷贝。它有两个参数&#xff0c;第一个参数是指向目标空间&#xff0c;第二个参数是指向需要拷贝的字符串。返回值为拷贝完成后指向的字符串首地址。头文件为<string.h> 演示如下&#xff1a; 注意&#xff1a; • 源字符…

TensorFlow2实战-系列教程4:数据增强

&#x1f9e1;&#x1f49b;&#x1f49a;TensorFlow2实战-系列教程 总目录 有任何问题欢迎在下面留言 本篇文章的代码运行界面均在Jupyter Notebook中进行 本篇文章配套的代码资源已经上传 猫狗识别1 数据增强 猫狗识别2------数据增强 猫狗识别3------迁移学习 对于图像数据…

RS485自动收发电路震荡的问题

电路 设计初衷 电源5V 选择5V的原因&#xff0c;差分2.5V比1.5V可以提高传输能力 TTL输入 3.3V电平满足需求 TTL输出 4.5V了&#xff0c;MCU是3.3V平台 这样就分为两种情况 MCU接收端可以容忍5V输入 MCU接收端不可以容忍5V输入&#xff0c;就要进行电压转换&#xff0c;我这里使…

MacOS X 中 OpenGL 环境搭建 Makefile的方式

1&#xff0c;预备环境 安装 brew&#xff1a; /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)" 安装glfw&#xff1a; brew install glfw 安装glew&#xff1a; brew install glew 2.编译 下载源代码…

本地搭建Plex私人影音网站并结合内网穿透实现公网远程访问

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

【数据库】mysql触发器使用

题目&#xff1a; 创建职工表以及职工工资表职工表字段&#xff1a;工号&#xff0c;姓名&#xff0c;性别&#xff0c;年龄工资表字段&#xff1a;编号自增&#xff0c;职工工号&#xff0c;基础工资10000通过触发器实现&#xff1a;对职工进行添加时 工资表中也要体现当前职…

docker下,容器无法启动,要删除里面的文件

第一步&#xff1a;进入docker cd /var/lib/docker 第二步&#xff1a;查找&#xff0c;我这里是拼音分词器 find ./ -name py 第三步&#xff1a;得到路径 第四步&#xff1a;删除或复制或移动&#xff0c;我这里是删除py文件夹 rm -rf ./over那一串 第五步&#xff1a;想干…

D2025——双通道音频功率放大电路,外接元件少, 通道分离性好,3V 的低压下可正常使用

D2025 为立体声音频功率放大集成电路&#xff0c;适用于各类袖珍或便携式立体声 收录机中作功率放放大器。 D2025 采用 DIP16 封装形式。 主要特点&#xff1a;  适用于立体声或 BTL 工作模式  外接元件少  通道分离性好  电源电压范围宽&#xff08;3V~12V…

【JavaEE spring】SpringBoot 统一功能处理

SpringBoot 统一功能处理 1. 拦截器1.1 拦截器快速⼊⻔1.2 拦截器详解1.2.1 拦截路径1.2.2 拦截器执⾏流程 1.3 登录校验1.3.1 定义拦截器1.3.2 注册配置拦截器 2. 统⼀数据返回格式2.1 快速⼊⻔2.2 存在问题2.3 案例代码修改2.4 优点 3. 统⼀异常处理 1. 拦截器 后端程序根据…

Chakra UI:构建 Web 设计的未来

Chakra UI&#xff1a;构建 Web 设计的未来 在当今的Web开发领域&#xff0c;构建现代、可访问的用户界面是一个重要的任务。为了满足这一需求&#xff0c;开发者需要一个强大而易用的UI组件库。而Chakra UI作为一个基于React的开源组件库&#xff0c;正是为了解决这个问题而诞…

vue3 [Vue warn]: Unhandled error during execution of scheduler flush

文章目录 前言一、报错截图二、排除问题思路相关问题 Vue3 优雅解决方法异步组件异同之处&#xff1a;好处&#xff1a;在使用异步组件时&#xff0c;有几个注意点&#xff1a; vue3 定义与使用异步组件 总结 前言 Bug 记录。开发环境运行正常&#xff0c;构建后时不时触发下面…

hal库stm32串口接收不定长数据

参考博客&#xff1a; https://blog.csdn.net/qq_41830158/article/details/121254705 按下面步骤修改实测可用 步骤&#xff1a; 添加串口接收所需变量   打开uart.c文件&#xff0c;在文件顶部的USER CODE BEGIN 0下方添加下列变量 volatile uint8_t rx1_len 0; //接收…

C语言第十五弹---操作符(上)

✨个人主页&#xff1a; 熬夜学编程的小林 &#x1f497;系列专栏&#xff1a; 【C语言详解】 【数据结构详解】 操作符 1、操作符的分类 2、二进制和进制转换 2.1、2进制转10进制 2.1.1、10进制转2进制数字 2.2、2进制转8进制和16进制 2.2.2、2进制转16进制 3. 原码、反…

C++完成使用map Update数据 二进制数据

1、在LXMysql.h和LXMysql.cpp分别定义和编写关于pin语句的代码 //获取更新数据的sql语句 where语句中用户要包含where 更新std::string GetUpdatesql(XDATA kv, std::string table, std::string where); std::string LXMysql::GetUpdatesql(XDATA kv, std::string table, std…

智能小车案例:基于Raspberry Pi的自动巡航与避障系统

项目背景 随着物联网技术的不断发展&#xff0c;智能小车成为了现代生活和工业自动化中的重要工具。为了实现智能小车的自动巡航与避障功能&#xff0c;我们采用了Raspberry Pi作为主控制器&#xff0c;结合传感器和执行器&#xff0c;构建了一个完整的系统。 所需材料 Raspber…

幻兽帕鲁:10秒开服,一键配置游戏参数教程!

随着游戏行业的不断发展&#xff0c;玩家们对于游戏体验的要求也越来越高。为了满足玩家们的需求&#xff0c;腾讯云提供了游戏联机服务器一键部署方案&#xff0c;本文将为大家详细介绍如何基于腾讯云服务器10秒钟完成开服和配置游戏参数&#xff0c;让大家的游戏体验更加顺畅…

服装产业转型升级,iPayLinks帮助企业拓展市场盈更多

从十万件的大订单转变为几百件的小订单&#xff0c;小单快反模式为中国服装出口带来了机遇&#xff0c;也带来了挑战。 “十三行-中大-鹭江”是广州曾经最具代表性的外贸服装产业带。在过去很长的一段时间里&#xff0c;服装外贸老板在这里创造“神话”&#xff1a;24小时内完…

spdk技术原理简介和实践经验

一、导读 与机械硬盘相比&#xff0c;NVMe-ssd在性能、功耗和密度上都有巨大的优势&#xff0c;并且随着固态存储介质的高速发展&#xff0c;其价格也在大幅下降&#xff0c;这些优势使得NVMe-ssd在分布式存储中使用越来越广泛。由于NVMe-ssd的性能比传统磁盘介质高出很多&…

jvm基础篇之垃圾回收[1](方法区、堆回收)

文章目录 垃圾回收类型手动垃圾回收&#xff1a;C/C的内存管理自动垃圾回收&#xff1a;Java的内存管理自动垃圾回收应用场景不同垃圾回收对比 线程不共享部分的回收方法区的回收手动触发回收 堆回收两种判断方法引用计数法查看垃圾回收日志可达性分析法GC Root对象类型可达性算…