多模态融合目标检测新SOTA!推理速度提升2.7倍,实现最先进性能

为解决传统目标检测在复杂环境下效果不佳等问题,研究者们提出了多模态融合目标检测

通过整合来自多个传感器的数据,充分利用不同传感器的优点,多模态融合目标检测能够更全面地捕捉目标信息,显著提高检测的准确性和鲁棒性,以及模型在各种环境条件下的适应能力。

因此,这种深度学习方法逐渐成为了主流,相关的最新研究成果非常丰富。比如Fusion-Mamba,在公共RGB-IR数据集上实现最佳性能;Fully Sparse Fusion,在推理速度上超越SOTA方法2.7倍。

为方便各位理解和复现,我这次整理了9个最新的多模态融合目标检测方案,已开源的代码都附上了,论文可参考创新点做了简单分析,希望可以给各位带来一些灵感。

论文原文以及开源代码需要的同学看文末

Fusion-Mamba for Cross-modality Object Detection

方法:论文提出了Fusion-Mamba,用于改善不同模态之间的目标检测性能。具体来说,该方法通过在隐状态空间中关联跨模态特征来进行融合,并通过改进的Mamba和门控机制来减少跨模态特征之间的差异,增强融合特征的表示一致性。

创新点:

  • 作者引入了一种名为Fusion-Mamba的新方法,该方法首次利用Mamba进行多模态特征融合。在Fusion-Mamba中,作者设计了两个模块:SSCS模块用于浅层特征融合,DSSF模块用于在隐藏状态空间中进行深层特征融合。通过这两个模块,Fusion-Mamba方法能够减小模态之间的差异,并提高特征融合的一致性和表达能力。

  • 作者引入了一种名为2D选择性扫描机制,用于解决二维视觉数据和一维语言序列之间的不兼容性。SS2D机制通过将图像补丁沿四个不同方向进行扩展,生成四个独立的序列,并利用这些序列建立全局感受野。这种选择性扫描机制能够在不增加计算复杂度的情况下,捕获潜在的相关性,从而建立全面的全局感受野。

Fully Sparse Fusion for 3D Object Detection

方法:本文提出了一种名为Fully Sparse Fusion(FSF)的多模态全稀疏感知框架。该框架通过实例级别融合,将图像信息与LiDAR信息无缝集成,解决了LiDAR-only全稀疏检测器的局限性。FSF框架主要包括双模态实例生成模块和双模态实例预测模块,以及一种双模态实例标签分配策略。

创新点:

  • FSF是一种全稀疏的多模态感知框架,通过实例级融合而不引入任何密集的BEV特征图。

  • FSF无缝集成了2D实例分割和3D实例分割,通过双模态实例生成和双模态基于实例的预测,充分发挥了两个领域的优势。

  • FSF在nuScenes数据集、Waymo Open Dataset和Argoverse2数据集中实现了最先进的性能。特别是在Argoverse2数据集中的长距离检测中,FSF比之前最先进的多模态检测器快2.7倍。

Is-fusion: Instance-scene collaborative fusion for multimodal 3d object detection

方法:论文提出一种创新的多模态融合框架IS-FUSION,用于多模态三维物体检测,通过联合建模多模态实例级和场景级上下文,并有效地增强BEV表示,实现了在竞争性nuScenes基准上的卓越性能,超过了所有现有的3D检测算法。

创新点:

  • IS-FUSION引入了HSF模块和IGF模块,这两个模块能够捕捉到实例级别和场景级别的多模态信息,并且通过增强两者之间的协作来改善BEV表示。

  • IS-FUSION的HSF模块采用了Point-to-Grid和Grid-to-Region transformer attentions来分层提取多模态特征,并能够在不同的粒度上捕捉到场景的上下文信息。IGF模块则通过挖掘实例候选对象、探索实例之间的关系以及聚合局部多模态上下文来增强场景特征,从而获得实例感知的BEV表示。

Transformer-Based Optimized Multimodal Fusion for 3D Object Detection in Autonomous Driving

方法:论文介绍了一个基于多模态融合的三维物体检测模型,通过使用体素作为统一的表示方法。研究利用自注意力和交叉注意力机制的Transformer解码器来提高检测性能,并证明了将多分辨率注意力模块和离散小波变换/反离散小波变换(DWT/IDWT)集成到主干网络中可以改善模型性能。

创新点:

  • 开发了一种多模态融合模型,利用体素作为统一的表示方法,提高了三维物体检测的性能。

  • 使用Transformer解码器通过自注意力和交叉注意力机制来增强检测性能,实现了全局交互。

  • 利用剪枝和量化等网络优化技术,显著减少了内存和计算资源的需求,提高了模型的效率和性能。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“多模态检测”获取全部论文+代码

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/21680.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

弘君资本策略:短期博弈情绪边际降温 关注这四条线索

弘君资本指出,随着商场进入地产政策调查期,短期博弈情绪边沿降温,注重景气边沿改善和工业政策指向的结构性头绪。一是受供应侧节能降碳影响且可继续的提价链;二是获益于全球制造业向上的出口制造链;三是具有全球竞争力…

深度解析:5月17日房地产新政及其市场影响

5月17日,中国房地产市场迎来了一系列重要的政策调整,旨在从供需两端同时发力稳定房地产市场。地方政府收回闲置土地和收购库存商品房作保障房的“收储”政策,在中央层面是首次提及,央行也配套设立了3000亿元的保障性住房再贷款。这…

软设之希尔排序

假设有n个元素&#xff0c;先取一个小于n的整数d1作为一个增量&#xff0c;把文件的全部记录分成d1个组。所有距离为d1的倍数的记录放在同一个组中。先在各组中进行直接插入排序;然后&#xff0c;取第二个增量d2<d1重复上诉的分组和排序&#xff0c;直到所取得增量dt1&#…

隐藏饼图的legend,重写legend列表。

因为要实现的饼图效果较复杂,所以,需要重新写列表。 点击右侧列表的圆点,实现隐藏左侧饼图相应环状。 // 饼图,点击自定义列表,显示和隐藏饼图对应的环状数据<template> <div class="index_div"> <a-spin :spinning="aLoading">&l…

fastapi框架搭建的python项目,实现链接数据库,实现用户的登录和注册

好的&#xff0c;下面是重新整理后的完整实现&#xff0c;包含你的 database.py 配置。 1. 安装依赖 确保安装了 FastAPI, SQLAlchemy, psycopg2-binary, PassLib 和 PyJWT 库&#xff1a; pip install fastapi sqlalchemy psycopg2-binary passlib[bcrypt] pyjwt2. 配置数据…

一文速通23种设计模式——单例模式、工厂模式、建造者模式、原型模式、代理模式、装饰器模式、组合模式、组合模式、桥接模式、观察者模式、策略模式……

一文速通23种设计模式 写在前面 本文基于结城浩所著《图解设计模式》&#xff0c;其中所使用代码皆为Java版本。 随书代码下载地址-点击“随书下载” 全文15205字&#xff0c;全部读完需要约20分钟。 目录 一文速通23种设计模式写在前面 第一部分 适应设计模式迭代器模式 (…

leetcode刷题记录29-135. 分发糖果

问题描述 n 个孩子站成一排。给你一个整数数组 ratings 表示每个孩子的评分。 你需要按照以下要求&#xff0c;给这些孩子分发糖果&#xff1a; 每个孩子至少分配到 1 个糖果。相邻两个孩子评分更高的孩子会获得更多的糖果。 请你给每个孩子分发糖果&#xff0c;计算并返回需要…

vue3+ts全局注册方法

目录 使用 provide 和 inject 注册全局mian.ts中注册在组件中使用 还有vue 中的 getCurrentInstance的使用 使用 provide 和 inject 注册全局 mian.ts中注册 // main.jsimport { createApp, provide } from vue; import App from ./App.vue;const app createApp(App);// 创建…

Unity开发——编辑器打包、3种方式加载AssetBundle资源

一、创建ab资源 &#xff08;一&#xff09;Unity资源设置ab格式 1、选中要打包成assetbundle的资源&#xff1b; 可以是图片&#xff0c;材质球&#xff0c;预制体等&#xff0c;这里方便展示用预制体打包设置展示&#xff1b; 2、AssetBundle面板说明 &#xff08;1&…

【YOLOv5进阶】——模型结构与模型原理YOLOv5源码解析

一、基础知识 1、backbone backbone是核心组成部分&#xff0c;主要负责提取图像特征。具体来说&#xff0c;backbone通过一系列的卷积层和池化层对输入图像进行处理&#xff0c;逐渐降低特征图的尺寸同时增加通道数&#xff0c;从而保留和提取图像中重要的特征。这些提取出的…

[Python] 权重越大的元素被选中的概率就越大

random.choices 函数可以根据指定的权重来进行随机选择&#xff0c;而权重越大的元素被选中的概率就越大。 下面是一个示例代码&#xff0c;展示了如何根据元组中的分数来生成对应的随机选择算法&#xff1a; import random# 示例列表 data [("Alice", 80), (&quo…

Unity3D获得服务器时间/网络时间/后端时间/ServerTime,适合单机游戏使用

说明 一些游戏开发者在做单机游戏功能时&#xff08;例如&#xff1a;每日奖励、签到等&#xff09;&#xff0c;可能会需要获得服务端标准时间&#xff0c;用于游戏功能的逻辑处理。 问题分析 1、自己如果有服务器&#xff1a;自定义一个后端API&#xff0c;客户端按需请求…

笔记你没流量,因为你不懂小红书规则!

今天&#xff0c;就让小番来告诉你&#xff0c;小红书两大流量机制「推荐流量」和「搜索流量」算法的秘密&#xff0c;让你彻底明白为什么你的笔记一直默默无闻&#xff01; 图片 我们先看下小红书推荐流量的整个分配流程&#xff0c;可以看到笔记发布之后&#xff0c;平台会…

使用Obfuscar 混淆WPF(Net6)程序

Obfuscar 是.Net 程序集的基本混淆器&#xff0c;它使用大量的重载将.Net程序集中的元数据&#xff08;方法&#xff0c;属性、事件、字段、类型和命名空间的名称&#xff09;重命名为最小集。详细使用方式参见&#xff1a;Obfuscar 在NetFramework框架进行的WPF程序的混淆比较…

Spring @Transactional 事务注解

一、spring 事务注解 1、实现层(方法上加) import org.springframework.transaction.annotation.Transactional;Transactional(rollbackFor Exception.class)public JsonResult getRtransactional() {// 手动标记事务回滚TransactionAspectSupport.currentTransactionStatus…

抖店入驻门槛,一降再降,2024年商家入驻抖店最佳的时机来了!

大家好&#xff0c;我是电商糖果 抖店已经发展有四年多的时间了&#xff0c;现在也算是比较成熟的电商平台. 这几年因为直播带货的火爆&#xff0c;再加上抖音的流量支撑&#xff0c;还有抖音在背后的扶持和推广。 让抖店成了电商行业的黑马项目&#xff0c;吸引了不少商家入…

ACWC:Worst-Case to Average-Case Decryption Error

参考文献&#xff1a; [LS19] Lyubashevsky V, Seiler G. NTTRU: Truly Fast NTRU Using NTT[J]. IACR Transactions on Cryptographic Hardware and Embedded Systems, 2019: 180-201.[DHK23] Duman J, Hvelmanns K, Kiltz E, et al. A thorough treatment of highly-efficie…

[element-ui]el-form自定义校验-图片上传验证(手动触发部分验证方法)

背景&#xff1a; 在做导入文件功能的时候&#xff0c;需要校验表单&#xff0c;如图所示 店铺字段绑定在表单数据对象上&#xff0c;在点击确定的时候正常按照表单验证规则去校验&#xff0c;就不再赘述。 文件上传是个异步过程&#xff0c;属性值改变后不会去触发验证规则…

智能管理,无忧报修——高校校园报事报修系统小程序全解析

随着数字化、智能化的发展&#xff0c;高校生活也迎来了前所未有的变革。你是否还在为宿舍的水龙头漏水、图书馆的灯光闪烁而烦恼&#xff1f;你是否还在为报修流程繁琐、等待时间长而焦虑&#xff1f;今天&#xff0c;这一切都将成为过去式&#xff01;因为一款震撼高校圈的新…

【软件开发】Web前端学习路线

本路径视频教程均来自尚硅谷B站视频&#xff0c;web前端课程我已经收藏在一个文件夹下&#xff0c;B站文件夹同时会收藏其他前端视频&#xff0c;感谢关注。指路&#xff1a;https://www.bilibili.com/medialist/detail/ml3098510045?spm_id_from333.999.list.card_medialist.…