最近发现多模态融合+目标检测实在太热了!顶会频出!像是NeurIPS24 Oral上端到端算法E2E-MFD;ECCV24上性能提升30.8%的FRN;TPAMI24上推理效率狂飙270%倍的FSF……
主要在于:一方面,其能充分利用不同模态数据的互补性,克服传统单一模态数据易受噪声、遮挡、光照变化等影响的缺陷;再结合特定的融合策略,便能显著提升检测的准确性和鲁棒性。另一方面,其应用非常广泛,自动驾驶、智能监控、医疗影像分析等都离不开它。但其也面临数据异构、标注复杂、模态对齐困难等挑战,对其的研究成为了迫切需求。
目前好中稿的该方向有:动态融合、跨模态知识迁移、结合具体的场景(极端天气等)、轻量化设计……为方便大家研究的进行,我给大家准备了13篇必读论文,原文和源码都有!
论文原文+开源代码需要的同学看文末
Weakly Misalignment-free Adaptive Feature Alignment for UAVs-based Multimodal Object Detection
内容:本文提出了一种名为 OAFA的新方法,用于解决无人机(UAV)基于可见光-红外(RGB-IR)多模态图像的目标检测中的弱错位问题。该方法通过 Cross-modality Spatial Offset Modeling (CSOM) 模块建立跨模态公共子空间以估计特征级偏移,并利用 Offset-guided Deformable Alignment and Fusion (ODAF) 模块进行自适应特征对齐和融合,无需严格对齐。实验表明,OAFA 在无人机多模态目标检测任务中达到了最先进的性能,并对弱错位问题表现出较强的鲁棒性。
Reliability-Driven LiDAR-Camera Fusion for Robust 3D Object Detection
内容:本文提出了一种名为 ReliFusion 的新型激光雷达-摄像头融合框架,旨在提高自动驾驶场景下3D目标检测的鲁棒性和准确性。ReliFusion 通过以下三个关键模块实现:时空特征聚合(STFA)模块,用于捕捉多帧间的时空依赖性以稳定预测;可靠性模块,通过跨模态对比学习(CMCL)为每个模态分配置信度分数以量化其可靠性;以及 置信度加权互交叉注意力(CW-MCA)模块,根据置信度动态平衡激光雷达和摄像头的信息。实验表明,ReliFusion 在 nuScenes 数据集上显著优于现有方法,尤其在激光雷达视野受限和传感器故障等挑战性场景下表现出色。
RoboFusion: Towards Robust Multi-Modal 3D Object Detection via SAM
内容:本文提出了一种名为 RoboFusion 的鲁棒多模态 3D 目标检测框架,旨在利用视觉基础模型(如 SAM)提升自动驾驶场景下对分布外(OOD)噪声的鲁棒性。RoboFusion 通过以下策略实现:首先对 SAM 进行自动驾驶场景的预训练得到 SAM-AD;然后引入 AD-FPN 模块对图像特征进行上采样以适配多模态检测器;接着通过深度引导的小波注意力(DGWA)模块对图像特征进行去噪;最后利用自注意力机制的自适应融合模块动态调整融合特征权重。实验表明,RoboFusion 在 KITTI-C 和 nuScenes-C 等噪声数据集上表现出色,显著优于现有方法,同时在干净数据集上也保持了 SOTA 性能。
E2E-MFD: Towards End-to-End Synchronous Multimodal Fusion Detection
内容:本文提出了一种名为 E2E-MFD 的端到端同步多模态融合检测算法,旨在通过简化训练过程实现高效的多模态图像融合与目标检测。E2E-MFD 通过同步联合优化的方式避免了传统方法中因分阶段训练导致的次优解问题,并引入了梯度矩阵任务对齐(GMTA)技术来优化共享参数,确保融合检测网络收敛到最优配置。该方法在多个公开数据集上表现出色,例如在 M3FD 数据集上,其水平目标检测的 mAP50 比现有方法提升了 3.9%,在 DroneVehicle 数据集上,定向目标检测的 mAP50 提升了 2.0%
码字不易,欢迎大家点赞评论收藏!
关注下方《AI科研技术派》
回复【模态目标】获取完整论文
👇