【论文阅读】Multi-Camera Unified Pre-Training via 3D Scene Reconstruction

在这里插入图片描述
论文链接
代码链接
在这里插入图片描述

多摄像头三维感知已成为自动驾驶领域的一个重要研究领域,为基于激光雷达的解决方案提供了一种可行且具有成本效益的替代方案。具有成本效益的解决方案。现有的多摄像头算法主要依赖于单目 2D 预训练。然而,单目 2D 预训练忽略了多摄像头在空间和时间上的相关性。多摄像头系统之间的时空相关性。针对这一局限性,我们提出了首个多摄像头统一预训练框架。
首先重建三维场景作为基础阶段,然后对模型进行微调随后在下游任务中对模型进行微调。具体来说,我们采用 “占位”(Occupancy)作为三维场景的一般表示方法
三维场景的一般表征,使模型能够通过预训练掌握周围世界的几何先验
通过预训练,模型能够掌握周围世界的几何先验。UniScene 的一个显著优势是,它能够利用大量未标记的图像UniScene 的一个显著优势是它能够利用大量未标记的图像-LiDAR 对进行预训练。该所提出的多摄像头统一预训练框架在一些关键任务中取得了可喜的成果,如多摄像头三维物体检测和周边语义场景补全。
物体检测和周边语义场景补全等关键任务中取得了可喜的成果。与单目预训练方法相比,UniScene在多摄像头三维物体检测和周边语义场景补全中,UniScene 的 mAP 和 NDS 分别大幅提高了约 2.0% 和 2.0以及周围语义场景的 mIoU 提高了 3%。在周边语义场景补全方面,mIoU 提高了 3%。通过采用通过采用我们的统一预训练方法,可将三维训练和注释成本降低 25%。注释成本可降低 25%,为实现真实世界中的自动驾驶提供了重要的实用价值。

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决的问题是多摄像头3D感知在自动驾驶领域的挑战,特别是现有多摄像头算法主要依赖于单目2D预训练,忽略了多摄像头系统中的空间和时间相关性。为了解决这个限制,论文提出了一个名为UniScene的首个多摄像头统一预训练框架。该框架首先通过3D场景重建作为基础阶段,然后在下游任务上对模型进行微调。具体来说,论文采用了占用(Occupancy)作为3D场景的通用表示,使模型能够在预训练过程中掌握周围世界的几何先验。通过这种方式,UniScene能够利用大量的未标记的图像-LiDAR对进行预训练,从而提高了多摄像头3D目标检测和周围语义场景完成等关键任务的性能。

对 BEV 感知的结构图
在这里插入图片描述
单目和多目的对比
在这里插入图片描述

Q: 论文如何解决这个问题?

A: 论文提出了一个名为UniScene的多摄像头统一预训练框架,通过以下步骤解决多摄像头3D感知的问题:

  • 3D场景重建:首先,使用多摄像头系统重建3D场景,作为预训练的基础阶段。这一步骤利用了占用(Occupancy)作为3D场景的通用表示,使模型能够通过预训练掌握周围世界的几何先验。
    在这里插入图片描述

  • 无标签预训练:UniScene的预训练过程不需要标签,可以利用自动驾驶车辆收集的大量图像-LiDAR对,这些数据对包含了宝贵的3D空间和结构信息。

在这里插入图片描述

  • 多帧点云融合:由于单帧点云的稀疏性,论文采用了多帧点云融合作为占用标签生成的真值。这通过融合关键帧的LiDAR点云来实现。

在这里插入图片描述

  • 几何占位预测头:在BEV(鸟瞰图)特征上加入一个几何占用预测头,以学习3D占用分布,从而增强模型对3D周围场景的理解。

在这里插入图片描述

  • 预训练和微调:在预训练阶段,使用轻量级解码器来重建占用体素。预训练完成后,丢弃解码器,并使用训练好的模型来初始化多摄像头感知模型,然后在下游任务上进行微调

  • 空间-时间整合:通过利用多个摄像头视图的空间和时间信息,模型能够更好地理解环境的动态特性,并做出更准确的预测。
    在这里插入图片描述

  • 统一表示:统一预训练方法允许模型学习不同摄像头视图之间的共享表示,促进更好的知识迁移,并减少对特定任务预训练的需求。
    在这里插入图片描述

  • 处理遮挡区域:与单目深度估计方法相比,UniScene能够实现遮挡对象的整体3D重建。

  • 在这里插入图片描述

  • 考虑到单帧激光雷达点云的稀疏性,以及由于动态对象的存在而融合大量帧所产生的潜在不精确性,我们融合了一些关键帧的激光雷达点云和生成占用标签。根据3D感知模型的标准实践[45,46,47,48],激光雷达点云被划分为均匀间隔的体素。对于激光雷达点云沿Z×Y×X的维度分别为D×H×W,体素大小相应地确定为vZ×vH×vW。体素的占用,即在每个体素中是否包含点,用作基本事实T∈{0,1}D×H×W×1。1表示已占用,0表示空闲。

  • 介绍了用于预训练多摄像机感知模型的二进制几何占用分类任务。该任务的目的是训练网络基于多视图图像准确预测3D场景的几何占用分布。考虑到大量的空体素,预测占用网格提出了一个不平衡的二元分类问题。为了实现这一点,我们利用预测的占用值P和地面实况占用的体素T来计算二进制占用分类的焦点损失:

在这里插入图片描述
在这里插入图片描述

  • 实验验证:通过在nuScenes数据集上进行广泛的实验,验证了UniScene框架在多摄像头3D目标检测和周围语义场景完成等关键任务中的有效性。

通过这些步骤,UniScene框架能够在预训练阶段利用未标记的数据,同时考虑空间和时间相关性,从而提高了模型对复杂3D场景的理解能力,并减少了对昂贵和耗时的手动3D注释的依赖。

Q: 总结一下论文的主要内容

  • 问题定义:论文针对自动驾驶领域中多摄像头3D感知的问题,提出了现有算法主要依赖单目2D预训练,忽略了多摄像头系统中的空间和时间相关性。

  • UniScene框架:提出了首个多摄像头统一预训练框架UniScene,该框架通过3D场景重建作为预训练的基础阶段,然后在下游任务上对模型进行微调。

  • 占用表示:采用占用(Occupancy)作为3D场景的通用表示,使模型能够在预训练过程中掌握周围世界的几何先验。

  • 无标签预训练:UniScene能够利用大量的未标记的图像-LiDAR对进行预训练,减少了对昂贵3D标注的依赖。

  • 实验验证:通过在nuScenes数据集上的实验,展示了UniScene在多摄像头3D目标检测和周围语义场景完成等任务中的性能提升。

  • 性能提升:与单目预训练方法相比,UniScene在多摄像头3D目标检测任务上实现了约2.0%的mAP和NDS提升,在语义场景完成任务上实现了约3%的mIoU提升。

  • 实际价值:通过采用UniScene的统一预训练方法,可以减少25%的3D训练注释成本,对实际自动驾驶系统的实施具有重要价值。

  • 未来工作:论文指出了UniScene的局限性,并提出了未来工作的方向,包括提高分辨率、处理动态对象、利用显式监督和知识蒸馏技术等。

在这里插入图片描述
fine
uniscense_epoch_24

pretrain
occ_bev_epoch_24

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/29860.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【深度学习】GPT-3,Language Models are Few-Shot Learners(一)

论文: https://arxiv.org/abs/2005.14165 摘要 最近的研究表明,通过在大规模文本语料库上进行预训练,然后在特定任务上进行微调,可以在许多NLP任务和基准上取得显著的进展。虽然这种方法在结构上通常是任务无关的,但…

走进Web3时代的物联网领域:科技的无限可能

随着Web3技术的迅速发展,物联网(IoT)领域正迎来一场深刻的变革。本文将深入探讨Web3时代如何重新定义物联网的边界和未来发展的无限可能性,从技术原理到应用案例,为读者呈现一个充满挑战和机遇的全新科技景观。 1. Web…

GPU微架构综述

GPU微架构综述 摘要 图形处理单元(GPU)已成为现代计算系统中的关键组成部分,不仅在图形渲染方面发挥重要作用,还广泛应用于高性能计算、机器学习和科学计算等领域。本文综述了GPU微架构的发展历程和设计理念,探讨了其…

ffmpeg压缩视频

最近需要压缩视频,windows下没找到好的工具(大部分工具需要收费),于是想到通过ffmpeg工具进行压缩;ffmpeg不仅是一款强大的视频、图片处理工具,还是一款开源的多媒体框架。 windows下可以下载ffmpeg&#…

【数据结构】练习集

数据的逻辑结构说明数据元素之间的顺序关系,它依赖于计算机的存储结构。(F) 在顺序表中逻辑上相邻的元素,其对应的物理位置也是相邻的。(T) 若一个栈的输入序列为{1, 2, 3, 4, 5},则不可能得到…

mediasoup源码分析(三)channel创建及信令交互

mediasoup源码分析--channel创建及信令交互 概述跨职能图业务流程图代码剖析 概述 在golang实现mediasoup的tcp服务及channel通道一文中,已经介绍过信令服务中tcp和channel的创建,本文主要讲解c中mediasoup的channel创建,以及信令服务和medi…

HTML|02HTML标签

HTML标签的语义化 语义化就是&#xff1a;标签的含义HTML标签 排版标签标题标签h<h1></h1> 标签有h1-h6&#xff0c;没有h7段落标签p<p></p>水平线标签hr<hr /> 单标记换行标签br<br />div span标签用来布局的 文本格式化标签<b>&…

编程用什么电脑不卡的:深度解析与推荐

编程用什么电脑不卡的&#xff1a;深度解析与推荐 在编程的世界里&#xff0c;一台流畅不卡的电脑无疑是每个开发者的得力助手。然而&#xff0c;面对市场上琳琅满目的电脑品牌和型号&#xff0c;如何选择一台适合编程的电脑却成为了一个令人困惑的问题。本文将从四个方面、五…

如何避免接口重复请求(axios推荐使用AbortController)

前言&#xff1a; 我们日常开发中&#xff0c;经常会遇到点击一个按钮或者进行搜索时&#xff0c;请求接口的需求。 如果我们不做优化&#xff0c;连续点击按钮或者进行搜索&#xff0c;接口会重复请求。 以axios为例&#xff0c;我们一般以以下几种方法为主&#xff1a; 1…

「C系列」C 头文件及引发方法/操作

文章目录 一、C 头文件二、引用头文件的方法1. 使用尖括号 < > 引用标准库头文件2. 使用双引号 " " 引用用户自定义头文件 三、引用头文件的操作四、相关链接 一、C 头文件 在C语言中&#xff0c;头文件&#xff08;Header Files&#xff09;通常用于包含函数…

bashrc和profile区别

作用与目的&#xff1a; .bashrc&#xff1a;这个文件主要用于配置和自定义用户的终端环境和行为。每次启动新的终端时&#xff0c;.bashrc文件都会被执行&#xff0c;加载用户设置的环境变量、别名、函数等。这使得用户能够根据自己的喜好和需求来定制终端的行为和外观。profi…

如何通过编程获取桌面分辨率、操作像素点颜色、保存位图和JPG格式图片,以及图片数据的处理和存储方式

本节课在线学习视频&#xff08;网盘地址&#xff0c;保存后即可免费观看&#xff09;&#xff1a; ​​https://pan.quark.cn/s/c474d087e76f​​ 在图形编程中&#xff0c;获取桌面分辨率、操作像素点颜色、保存和处理图片数据是常见任务。本文将介绍如何通过编程实现这些操…

沃尔玛验厂报告的颜色分级

Walmart沃尔玛每年评估约 14000 份第三方社会责任验厂报告。沃尔玛验厂总的原则是&#xff0c;工厂从RBA、BSCI、SA8000等11个第三方社会责任验厂标准中&#xff0c;自由选择其中一个来进行验厂&#xff0c;验厂结束以后&#xff0c;把验厂报告提交给沃尔玛&#xff1b;然后沃尔…

【Pmac】PMAC QT联合开发中各种可能遇到的坑

目录 1. 错误 C2027 使用了未定义类型“PCOMMSERVERLib::DEVUPLOAD”2. 输入了正确的pmac的ip地址&#xff0c;没有显示可选的pmac设备3. Pmac DTC-28B无读数 使用QT编写PMAC上位机程序时&#xff0c;利用QT中的dump工具可以将pcommserver.exe转化为pcommserverlib.h和pcommser…

Java并发编程之线程基础

线程通知与等待 Java中的Object类是所有类的父类&#xff0c;鉴于继承机制&#xff0c;Java把所有类都需要的方法放到了Object类里面&#xff0c;其中就包括了线程的通知和等待。 wait以及notify 当一个线程调用一个共享变量的wait()方法时&#xff0c;该调用线程会被阻塞挂…

mysql数据库迁移步骤

备份数据库&#xff1a; mysqldump -u [username] -p[password] [database_name] > [database_name].sql 注意&#xff1a;“-u”与用户名之间有一个空格&#xff0c;而“-p”与密码之间没有空格 恢复数据库&#xff1a; mysql -u [username] -p[password] [database_name]…

调度算法-内存页面置换算法

缺⻚异常&#xff08;缺⻚中断&#xff09; 与⼀般中断的主要区别在于&#xff1a; 缺⻚中断在指令执⾏「期间」产⽣和处理中断信号&#xff0c;⽽⼀般中断在⼀条指令执⾏「完成」后检查和处理中断信号。缺⻚中断返回到该指令的开始重新执⾏「该指令」&#xff0c;⽽⼀般中断返…

【HarmonyOS】鸿蒙应用模块化实现

【HarmonyOS】鸿蒙应用模块化实现 一、Module的概念 Module是HarmonyOS应用的基本功能单元&#xff0c;包含了源代码、资源文件、第三方库及应用清单文件&#xff0c;每一个Module都可以独立进行编译和运行。一个HarmonyOS应用通常会包含一个或多个Module&#xff0c;因此&am…

简单处理字符串——6.14山大软院项目实训1

对于直接输出服务器返回的json到Debug&#xff0c;发现他还包含json的结构&#xff0c;但是不想调试json的返回结构&#xff0c;可以使用简单地处理字符串的方法&#xff0c;而不引入额外的库或复杂的JSON解析&#xff0c;但是这个解决方式是暂时的是投机取巧的&#xff0c;正确…

我主编的电子技术实验手册(08)——串联电阻分压

本专栏是笔者主编教材&#xff08;图0所示&#xff09;的电子版&#xff0c;依托简易的元器件和仪表安排了30多个实验&#xff0c;主要面向经费不太充足的中高职院校。每个实验都安排了必不可少的【预习知识】&#xff0c;精心设计的【实验步骤】&#xff0c;全面丰富的【思考习…