多模态融合目标检测新SOTA!推理速度提升2.7倍,实现最先进性能

为解决传统目标检测在复杂环境下效果不佳等问题,研究者们提出了多模态融合目标检测

通过整合来自多个传感器的数据,充分利用不同传感器的优点,多模态融合目标检测能够更全面地捕捉目标信息,显著提高检测的准确性和鲁棒性,以及模型在各种环境条件下的适应能力。

因此,这种深度学习方法逐渐成为了主流,相关的最新研究成果非常丰富。比如Fusion-Mamba,在公共RGB-IR数据集上实现最佳性能;Fully Sparse Fusion,在推理速度上超越SOTA方法2.7倍。

为方便各位理解和复现,我这次整理了9个最新的多模态融合目标检测方案,已开源的代码都附上了,论文可参考创新点做了简单分析,希望可以给各位带来一些灵感。

论文原文以及开源代码需要的同学看文末

Fusion-Mamba for Cross-modality Object Detection

方法:论文提出了Fusion-Mamba,用于改善不同模态之间的目标检测性能。具体来说,该方法通过在隐状态空间中关联跨模态特征来进行融合,并通过改进的Mamba和门控机制来减少跨模态特征之间的差异,增强融合特征的表示一致性。

创新点:

  • 作者引入了一种名为Fusion-Mamba的新方法,该方法首次利用Mamba进行多模态特征融合。在Fusion-Mamba中,作者设计了两个模块:SSCS模块用于浅层特征融合,DSSF模块用于在隐藏状态空间中进行深层特征融合。通过这两个模块,Fusion-Mamba方法能够减小模态之间的差异,并提高特征融合的一致性和表达能力。

  • 作者引入了一种名为2D选择性扫描机制,用于解决二维视觉数据和一维语言序列之间的不兼容性。SS2D机制通过将图像补丁沿四个不同方向进行扩展,生成四个独立的序列,并利用这些序列建立全局感受野。这种选择性扫描机制能够在不增加计算复杂度的情况下,捕获潜在的相关性,从而建立全面的全局感受野。

Fully Sparse Fusion for 3D Object Detection

方法:本文提出了一种名为Fully Sparse Fusion(FSF)的多模态全稀疏感知框架。该框架通过实例级别融合,将图像信息与LiDAR信息无缝集成,解决了LiDAR-only全稀疏检测器的局限性。FSF框架主要包括双模态实例生成模块和双模态实例预测模块,以及一种双模态实例标签分配策略。

创新点:

  • FSF是一种全稀疏的多模态感知框架,通过实例级融合而不引入任何密集的BEV特征图。

  • FSF无缝集成了2D实例分割和3D实例分割,通过双模态实例生成和双模态基于实例的预测,充分发挥了两个领域的优势。

  • FSF在nuScenes数据集、Waymo Open Dataset和Argoverse2数据集中实现了最先进的性能。特别是在Argoverse2数据集中的长距离检测中,FSF比之前最先进的多模态检测器快2.7倍。

Is-fusion: Instance-scene collaborative fusion for multimodal 3d object detection

方法:论文提出一种创新的多模态融合框架IS-FUSION,用于多模态三维物体检测,通过联合建模多模态实例级和场景级上下文,并有效地增强BEV表示,实现了在竞争性nuScenes基准上的卓越性能,超过了所有现有的3D检测算法。

创新点:

  • IS-FUSION引入了HSF模块和IGF模块,这两个模块能够捕捉到实例级别和场景级别的多模态信息,并且通过增强两者之间的协作来改善BEV表示。

  • IS-FUSION的HSF模块采用了Point-to-Grid和Grid-to-Region transformer attentions来分层提取多模态特征,并能够在不同的粒度上捕捉到场景的上下文信息。IGF模块则通过挖掘实例候选对象、探索实例之间的关系以及聚合局部多模态上下文来增强场景特征,从而获得实例感知的BEV表示。

Transformer-Based Optimized Multimodal Fusion for 3D Object Detection in Autonomous Driving

方法:论文介绍了一个基于多模态融合的三维物体检测模型,通过使用体素作为统一的表示方法。研究利用自注意力和交叉注意力机制的Transformer解码器来提高检测性能,并证明了将多分辨率注意力模块和离散小波变换/反离散小波变换(DWT/IDWT)集成到主干网络中可以改善模型性能。

创新点:

  • 开发了一种多模态融合模型,利用体素作为统一的表示方法,提高了三维物体检测的性能。

  • 使用Transformer解码器通过自注意力和交叉注意力机制来增强检测性能,实现了全局交互。

  • 利用剪枝和量化等网络优化技术,显著减少了内存和计算资源的需求,提高了模型的效率和性能。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“多模态检测”获取全部论文+代码

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/21680.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

弘君资本策略:短期博弈情绪边际降温 关注这四条线索

弘君资本指出,随着商场进入地产政策调查期,短期博弈情绪边沿降温,注重景气边沿改善和工业政策指向的结构性头绪。一是受供应侧节能降碳影响且可继续的提价链;二是获益于全球制造业向上的出口制造链;三是具有全球竞争力…

隐藏饼图的legend,重写legend列表。

因为要实现的饼图效果较复杂,所以,需要重新写列表。 点击右侧列表的圆点,实现隐藏左侧饼图相应环状。 // 饼图,点击自定义列表,显示和隐藏饼图对应的环状数据<template> <div class="index_div"> <a-spin :spinning="aLoading">&l…

Unity开发——编辑器打包、3种方式加载AssetBundle资源

一、创建ab资源 &#xff08;一&#xff09;Unity资源设置ab格式 1、选中要打包成assetbundle的资源&#xff1b; 可以是图片&#xff0c;材质球&#xff0c;预制体等&#xff0c;这里方便展示用预制体打包设置展示&#xff1b; 2、AssetBundle面板说明 &#xff08;1&…

【YOLOv5进阶】——模型结构与模型原理YOLOv5源码解析

一、基础知识 1、backbone backbone是核心组成部分&#xff0c;主要负责提取图像特征。具体来说&#xff0c;backbone通过一系列的卷积层和池化层对输入图像进行处理&#xff0c;逐渐降低特征图的尺寸同时增加通道数&#xff0c;从而保留和提取图像中重要的特征。这些提取出的…

Unity3D获得服务器时间/网络时间/后端时间/ServerTime,适合单机游戏使用

说明 一些游戏开发者在做单机游戏功能时&#xff08;例如&#xff1a;每日奖励、签到等&#xff09;&#xff0c;可能会需要获得服务端标准时间&#xff0c;用于游戏功能的逻辑处理。 问题分析 1、自己如果有服务器&#xff1a;自定义一个后端API&#xff0c;客户端按需请求…

使用Obfuscar 混淆WPF(Net6)程序

Obfuscar 是.Net 程序集的基本混淆器&#xff0c;它使用大量的重载将.Net程序集中的元数据&#xff08;方法&#xff0c;属性、事件、字段、类型和命名空间的名称&#xff09;重命名为最小集。详细使用方式参见&#xff1a;Obfuscar 在NetFramework框架进行的WPF程序的混淆比较…

Spring @Transactional 事务注解

一、spring 事务注解 1、实现层(方法上加) import org.springframework.transaction.annotation.Transactional;Transactional(rollbackFor Exception.class)public JsonResult getRtransactional() {// 手动标记事务回滚TransactionAspectSupport.currentTransactionStatus…

抖店入驻门槛,一降再降,2024年商家入驻抖店最佳的时机来了!

大家好&#xff0c;我是电商糖果 抖店已经发展有四年多的时间了&#xff0c;现在也算是比较成熟的电商平台. 这几年因为直播带货的火爆&#xff0c;再加上抖音的流量支撑&#xff0c;还有抖音在背后的扶持和推广。 让抖店成了电商行业的黑马项目&#xff0c;吸引了不少商家入…

ACWC:Worst-Case to Average-Case Decryption Error

参考文献&#xff1a; [LS19] Lyubashevsky V, Seiler G. NTTRU: Truly Fast NTRU Using NTT[J]. IACR Transactions on Cryptographic Hardware and Embedded Systems, 2019: 180-201.[DHK23] Duman J, Hvelmanns K, Kiltz E, et al. A thorough treatment of highly-efficie…

[element-ui]el-form自定义校验-图片上传验证(手动触发部分验证方法)

背景&#xff1a; 在做导入文件功能的时候&#xff0c;需要校验表单&#xff0c;如图所示 店铺字段绑定在表单数据对象上&#xff0c;在点击确定的时候正常按照表单验证规则去校验&#xff0c;就不再赘述。 文件上传是个异步过程&#xff0c;属性值改变后不会去触发验证规则…

智能管理,无忧报修——高校校园报事报修系统小程序全解析

随着数字化、智能化的发展&#xff0c;高校生活也迎来了前所未有的变革。你是否还在为宿舍的水龙头漏水、图书馆的灯光闪烁而烦恼&#xff1f;你是否还在为报修流程繁琐、等待时间长而焦虑&#xff1f;今天&#xff0c;这一切都将成为过去式&#xff01;因为一款震撼高校圈的新…

【QT5】<总览一> QT环境搭建、快捷键及编程规范

文章目录 前言 一、简单介绍QT 二、安装QT Creator 三、第一个QT项目 四、常用快捷键 五、QT中的编程规范 前言 在嵌入式Linux应用层开发时&#xff0c;经常使用QT作为图形化界面显示工具。为学习Linux下的QT编程&#xff0c;在Ubuntu和开发板中搭建QT开发环境&#xff…

TMS320F280049 ECAP模块--应用(2)

例1-上升沿触发 如下图所示&#xff0c;evt1-4设置为上升沿触发&#xff0c;在每个上升沿ctr值依次加载到cap1-4. 例2-上升下降沿触发 每个边沿都可选为事件&#xff0c;每次事件到来&#xff0c;依次把ctr加载到cap1-4。 例3-差异模式下上升沿触发 差异模式下每次事件到来时…

Qt_C++ RFID网络读卡器Socket Udp通讯示例源码

本示例使用的设备&#xff1a; WIFI/TCP/UDP/HTTP协议RFID液显网络读卡器可二次开发语音播报POE-淘宝网 (taobao.com) #ifndef MAINWINDOW_H #define MAINWINDOW_H#include <QMainWindow> #include <QHostInfo> #include <QNetworkInterface> #include <…

PyQt5串口测试工具

笔者经常会遇到使用上位机进行相关测试的场景&#xff0c;但现成的上位机并不能完全满足自己的需求&#xff0c;或是上位机缺乏使用说明。所以&#xff0c;自己写&#xff1f; 环境说明 pycharm 2023.2.25 python 3.10 anaconda 环境配置 conda create -n envsram ##…

学生信息管理系统C++

设计目的 使学生进一步理解和掌握课堂上所学的面向对象C编程知识&#xff0c;巩固和加深学生对C面向对象课程的基本知识的理解和掌握。掌握C面向对象编程和程序调试的基本技能&#xff0c;学会利用C语言进行基本的软件设计&#xff0c;着重提高运用C面向对象语言解决实际问题的…

Go Modules 使用

文章参考https://blog.csdn.net/wohu1104/article/details/110505489 不使用Go Modules&#xff0c;所有的依赖包都是存放在 GOPATH /pkg下&#xff0c;没有版本控制。如果 package 没有做到完全的向前兼容&#xff0c;会导致多个项目无法运行(包版本需求不同)。 于是推出了g…

秋招突击——第四弹——Java的SSN框架快速入门——Spring(2)

文章目录 前言其他Spring加载properties 容器创建容器获取beanBeanFactory容器总结 注解注解开发对定义bean纯注解开发Bean管理Bean作用范围Bean生命周期 注解开发依赖注入第三方bean管理第三方bean管理第三方bean注入 注解开发总结 Spring整合整合mybatis整合Junit AOPAOP核心…

【C、C++编译工具】CLion工具介绍与安装

一、问题 最近突发奇想想学学最开始接触的语言C&#xff0c;之前大学的时候用的更多的工具还是VC&#xff0c;工作后慢慢接触了CLion&#xff0c;跟pycharm其实差不多&#xff0c;都是集成开发环境&#xff08;IDE&#xff09; 解释&#xff1a;什么是 IDE&#xff1f; 根据计…

2024年5月 | deepin 深度应用商店-应用更新记录

新增应用 序号应用名称deepin 系统版本应用分类应用类型1HitPaw Watermark Removerdeepin V23图形图像wine2PDF to DOCX转换器deepin V23网络应用linux3天工 AIdeepin V20.9效率办公linux4稻壳阅读deepin 20.9 deepin V23效率办公linux5讯飞星火deepin V20.9效率办公linux6文…