【佳佳怪文献分享】MVFusion: 利用语义对齐的多视角 3D 物体检测雷达和相机融合

标题:MVFusion: Multi-View 3D Object Detection with Semantic-aligned Radar and Camera Fusion

作者:Zizhang Wu , Guilian Chen , Yuanzhu Gan , Lei Wang , Jian Pu

来源:2023 IEEE International Conference on Robotics and Automation (ICRA 2023)

这是佳佳怪分享的第2篇文章

摘要

多视角雷达-摄像头融合三维物体检测为自动驾驶提供了更远的检测范围和更多有用的功能,尤其是在恶劣天气下。目前的雷达-相机融合方法提供了多种将雷达信息与相机数据融合的设计。然而,这些融合方法通常采用多模态特征之间的直接串联操作,忽略了雷达特征的语义一致性和模态之间的充分相关性。在本文中,我们提出了一种新颖的多视图雷达-摄像机融合方法 MVFusion,以实现雷达特征的语义对齐并增强跨模态信息交互。为此,我们通过语义对齐雷达编码器(SARE)将语义对齐注入雷达特征,生成图像引导的雷达特征。然后,我们提出了雷达引导融合变换器(RGFT)来融合雷达和图像特征,通过交叉注意机制从全局范围加强两种模态的相关性。大量实验表明 MVFusion 在 nuScenes 数据集上实现了最先进的性能(51.7% NDS 和 45.3% mAP)。我们将在论文发表后公布我们的代码和训练有素的网络。

在这里插入图片描述
图 1. 基于摄像头的方法 [13] 和我们的 MVFusion 的探测对比。(a) 图像和雷达输入,雷达点的颜色表示与雷达的距离。(b) 3D 检测地面实况。© 基于摄像头的方法 [13] 的结果,该方法未能检测到远处的汽车和近处的行人。(d) 我们的方法利用语义对齐的雷达信息进行了充分的雷达-摄像机融合,成功检测到了丢失的汽车和行人。

在这里插入图片描述
图 2. 我们提出的 MVFusion 概览,主要由五个部分组成:雷达预处理模块、图像编码器、语义对齐雷达编码器(SARE)、雷达引导融合变换器(RGFT)和检测网络。SARE 将语义配准注入雷达特征,而 RGFT 则 RGFT 融合雷达和图像特征,旨在从全局范围充分促进两种模态的互动。多视角雷达表示法参考了文献[15]。

在这里插入图片描述
图 3. 雷达特征提取器(RFE)的结构图,其中包括 用于稀疏雷达特征的残差特征卷积块。
在这里插入图片描述
图 4. 图像制导雷达变换器(IGRT)概览。IGRT 为雷达特征分配可学习的位置编码,以通过多头自注意机制进一步增强 空间信息。
在这里插入图片描述
图 5. 雷达引导融合变换器(RGFT)概述。RGFT 融合了高级雷达和图像特征,在交叉注意机制下实现了充分的相关性。
在这里插入图片描述
图 6. 我们的方法与之前的方法 [13] 的环视检测结果对比。我们用 黄色圆圈表示我们的方法,蓝色圆圈表示 [13] 的方法。我们的方法在不同视角下都能实现正确的目标检测,而我们的方法在不同视角下都能实现充分的目标检测。在不同视角下,我们的方法都能正确检测到物体,其中语义对齐的雷达特征与视觉特征之间充分的雷达-相机互动为三维检测提供了更多有用的线索。
在这里插入图片描述
表1. 在 nuscenes 测试集上使用不同模态的单帧最先进作品比较。表示采用 dd3d [42] 预训练 v2-99 [43] 主干网
在这里插入图片描述
表2. 采用不同骨干网和模态对 nuscenes val 集进行的单帧最新研究成果比较。† 表示采用 dd3d [42] 预先训练的 v2-99 [43] 骨架。
在这里插入图片描述
表3. 对拟议组件的值集进行消融研究。sare "表示语义对齐雷达编码器,"rgft "表示雷达制导融合变换器。
在这里插入图片描述
表4. 语义对齐雷达编码器(SARE)阀值集消融实验。si "表示语义指示器。igt "表示图像制导雷达变换器。

在这里插入图片描述
表5. 雷达制导融合变压器(RGFT)阀组烧蚀研究 变压器(RGFT)。w "表示 “有”,"w/o "表示 “无”。表示 “无”。q’、‘k’、‘v’表示查询、键、值。IMG. 表示图像。concat.’ 表示 “连接”。

结论

本文提供了一种用于三维物体检测的新型多视图雷达-摄像机融合方法 MVFusion,该方法实现了语义对齐雷达特征和鲁棒跨模态信息交互。具体来说,我们提出了语义对齐雷达编码器(SARE)来提取图像引导的雷达特征。在提取雷达特征后,我们提出了雷达引导融合变换器(RGFT),将增强的雷达特征与高级图像特征进行融合。在 nuScenes 数据集上进行的大量实验验证了我们的模型达到了单帧雷达-摄像机融合的最先进性能。未来,我们将汇集多视角相机的时空信息,进一步促进雷达-相机融合。​​

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/38475.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

kubernetes企业级高可用部署

目录 1、Kubernetes高可用项目介绍 2、项目架构设计 2.1、项目主机信息 2.2、项目架构图 1、Kubernetes高可用项目介绍 2、项目架构设计 2.1、项目主机信息 2.2、项目架构图 2.3、项目实施思路 3、项目实施过程 3.1、系统初始化 3.2、配置部署keepalived服务 3.3、…

强制Edge或Chrome使用独立显卡【WIN10】

现代浏览器通常将图形密集型任务卸载到 GPU,以改善你的网页浏览体验,从而释放 CPU 资源用于其他任务。 如果你的系统有多个 GPU,Windows 10 可以自动决定最适合 Microsoft Edge 自动使用的 GPU,但这并不一定意味着最强大的 GPU。 …

Linux/centos上如何配置管理NFS服务器?

Linux/centos上如何配置管理NFS服务器? 1 NFS基础了解1.1 NFS概述1.2 NFS工作流程 2 安装和启动NFS服务2.1 安装NFS服务器2.2 启动NFS服务 3 配置NFS服务器和客户端3.1 配置NFS服务器3.2 配置NFS客户端 4 实际示例4.1 基本要求4.2 案例实现 1 NFS基础了解 NFS&…

LAXCUS如何通过技术创新管理数千台服务器

随着互联网技术的不断发展,服务器已经成为企业和个人获取信息、进行计算和存储的重要工具。然而,随着服务器数量的不断增加,传统的服务器管理和运维方式已经无法满足现代企业的需求。LAXCUS做为专注服务器集群的【数存算管】一体化平台&#…

Jtti:Windows server如何备份与还原注册表

在 Windows Server 中,备份和还原注册表是一项重要的任务,可以帮助你在系统配置更改之前创建一个恢复点,以防止出现问题。以下是在 Windows Server 上备份和还原注册表的步骤: 备份注册表: 1.打开“运行”对话框&…

企业数据库遭到360后缀勒索病毒攻击,360勒索病毒解密

在当今数字化时代,企业的数据安全变得尤为重要。随着数字化办公的推进,企业的生产运行效率得到了很大提升,然而针对网络安全威胁,企业也开始慢慢引起重视。近期,我们收到很多企业的求助,企业的服务器遭到了…

代理模式(Java实现)

代理模式是常见的设计模式之一,顾名思义,代理模式就是代理对象具备真实对象的功能,并代替真实对象完成相应操作,并能够在操作执行的前后,对操作进行增强处理。(为真实对象提供代理,然后供其他对…

threejs使用gui改变相机的参数

调节相机远近角度 定义相机的配置: const cameraConfg reactive({ fov: 45 }) gui中加入调节fov的方法 const gui new dat.GUI();const cameraFolder gui.addFolder("相机属性设置");cameraFolder.add(cameraConfg, "fov", 0, 100).name(…

YOLO格式数据集(.txt)如何转换为VOC格式数据集(.xml)

前言: 安装好python环境与编译器 转换: 将标注文件从文本格式(.txt)转换为 XML 格式(.xml)可以通过以下步骤完成: 解析文本标注文件:打开 .txt 文件,逐行读取每个标注…

Gin模板语法

Gin模板语法 文章目录 <center> Gin模板语法前提提醒Gin框架启动服务器模板解析模板渲染遇到不同目录下相同的文件如何加载和渲染自定义函数加载静态文件 前提提醒 由于有了前面template包的基础,所以该笔记不再过多详细分析 Gin框架启动服务器 语法: r:gin.Default()/…

Medical Isolated Power Supply System in Angola

安科瑞 华楠 Abstract: Diagnosis and treatment in modern hospitals are inseparable from advanced medical equipment, which are inseparable from safe and reliable power supply. Many operations often last for several hours, and the consequences of a sudden pow…

【UE4 RTS】07-Camera Boundaries

前言 本篇实现的效果是当CameraPawn移动到地图边缘时会被阻挡。 效果 步骤 1. 打开项目设置&#xff0c;在“引擎-碰撞”中&#xff0c;点击“新建Object通道” 新建通道命名为“MapBoundaries”&#xff0c;然后点击接受 2. 向视口中添加 阻挡体积 调整阻挡体积的缩放 向四…

【TypeScript】this指向,this内置组件

this类型 TypeScript可推导的this类型函数中this默认类型对象中的函数中的this明确this指向 怎么指定this类型 this相关的内置工具类型转换ThisParameterType<>ThisParameterType<>ThisType TypeScript可推导的this类型 函数中this默认类型 对象中的函数中的this…

华为OD机试-字符串序列判定

题目描述 给定两个字符串 s和 t &#xff0c;判断 s是否为 t 的子序列。 你可以认为 s 和 t 中仅包含英文小写字母。字符串 t 可能会很长&#xff08;长度n ~ 500,000&#xff09;&#xff0c;而 s 是个短字符串&#xff08;长度 <100&#xff09;。字符串的一个子序列是原…

Docker容器:docker基础及安装

文章目录 一.docker容器概述1.什么是容器2. docker与虚拟机的区别2.1 docker虚拟化产品有哪些及其对比2.2 Docker与虚拟机的区别 3.Docker容器的使用场景4.Docker容器的优点5.Docker 的底层运行原理6.namespace的六项隔离7.Docker核心概念 二.Docker安装 及管理1.安装 Docker1.…

【科研论文配图绘制】task1 掌握科研绘图的基本知识

【科研论文配图绘制】task1 掌握科研绘图的基本知识 写在最前 8月份Datawhale组队学习&#xff0c;写下该博客记录学习内容 1.科研论文配图的分类与构成 2.科研论文配图的格式和尺寸 3.科研论文配图中的字体和字号设置 4.科研论文配图的版式设计、结构布局和颜色搭配 占个…

机器学习笔记 - 基于C++的​​深度学习 三、实现成本函数

机器学习中的建模 作为人工智能工程师,我们通常将每个任务或问题定义为一个函数。 例如,如果我们正在开发面部识别系统,我们的第一步是将问题定义为将输入图像映射到标识符的函数F(X)。但是问题是如何知道F(X)公式? 事实上,使用公式或一系列固有规则来定义F(X)是不可行的(…

【Go 基础篇】Go语言指针解析:深入理解内存与引用的奥秘

介绍 指针是计算机编程中的重要概念&#xff0c;它提供了直接访问内存地址的能力&#xff0c;为程序的数据处理和内存管理提供了灵活性和效率。在Go语言&#xff08;Golang&#xff09;中&#xff0c;指针也是一种重要的数据类型&#xff0c;用于处理变量的引用和修改。本篇博…

GraphQL(六)登录态校验Directive

GraphQL Directive&#xff08;指令&#xff09;是GraphQL中的一种特殊类型&#xff0c;它允许开发者在GraphQL schema中添加元数据&#xff0c;以控制查询和解析操作的行为 Directive的详细说明及使用可见GraphQL&#xff08;五&#xff09;指令[Directive]详解 本文将介绍通过…

勘探开发人工智能技术:机器学习(6)

0 提纲 7.1 循环神经网络RNN 7.2 LSTM 7.3 Transformer 7.4 U-Net 1 循环神经网络RNN 把上一时刻的输出作为下一时刻的输入之一. 1.1 全连接神经网络的缺点 现在的任务是要利用如下语料来给apple打标签&#xff1a; 第一句话&#xff1a;I like eating apple!(我喜欢吃苹…