CVPR2023 | 3D Data Augmentation for Driving Scenes on Camera

3D Data Augmentation for Driving Scenes on Camera

摄像机驾驶场景的 3D 数据增强

摘要翻译

驾驶场景极其多样和复杂,仅靠人力不可能收集到所有情况。虽然数据扩增是丰富训练数据的有效技术,但自动驾驶应用中现有的摄像头数据扩增方法仅限于二维图像平面,在三维真实世界场景中可能无法最佳地增加数据多样性。为此,我们提出了一种名为 Drive-3DAug 的三维数据增强方法,旨在增强三维空间中摄像头拍摄的驾驶场景。我们首先利用神经辐射场(NeRF)重建背景和前景物体的三维模型。然后,将位置和方向经过调整的三维物体放置在预定义的背景有效区域,就可以获得增强的驾驶场景。因此,可以有效地扩大训练数据库。然而,三维物体建模受限于图像质量和有限的视角。为了克服这些问题,我们对原始 NeRF 进行了修改,引入了几何矫正损失和对称感知训练策略。我们在 Waymo 和 nuScences 数据集上评估了我们的方法在仅摄像头的单目 3D 检测任务中的应用。在 Waymo 和 nuScences 数据集上,我们提出的数据增强方法分别提高了 1.7% 和 1.4% 的检测准确率。此外,构建的三维模型可作为数字驾驶资产,并可用于不同的检测器或其他三维感知任务。

论文总结

论文《3D Data Augmentation for Driving Scenes on Camera》提出了一种名为Drive-3DAug的3D数据增强方法,用于丰富自动驾驶应用中的训练数据。该方法利用神经辐射场(NeRF)重建背景和前景对象的3D模型,然后将这些对象放置在背景的预定义有效区域中,以创建增强的驾驶场景。作者通过引入几何校正损失和对称感知训练策略来解决3D对象建模的挑战。所提出的方法在Waymo和nuScenes数据集上进行了摄像头仅用单目3D检测的评估,显示出在检测准确性上的显著提升。构建的3D模型也可以用于不同的检测器或其他3D感知任务。

主要要点和关键论点包括

  • 驾驶场景多样化,手动收集所有案例是不可能的。
  • 自动驾驶中现有的针对摄像头数据的数据增强方法限于2D图像平面。
  • 提出的Drive-3DAug方法使用NeRF重建背景和前景对象的3D模型,在3D空间中增强驾驶场景。
  • 该方法通过引入几何校正损失和对称感知训练策略,改进了训练数据库并克服了3D对象建模的限制。
  • Drive-3DAug在Waymo和nuScenes数据集上的摄像头仅用单目3D检测中实现了检测准确性的提升。
  • 构建的3D模型可以用于不同的检测器或其他3D感知任务。

架构

图 2. 用于三维数据增强的 Drive-3DAug 概览。驾驶场景被分解为多个背景和物体。对于每个背景和物体,我们使用多帧视图,通过基于体素的 NeRF [41],分别对其进行重建。为了进一步提高重建质量,我们在 NeRF 中引入了对称约束、几何矫正和深度监控。我们利用训练有素的三维模型在三维空间中编辑场景,并通过渲染组成的新场景生成图像,以完成以下三维感知任务。

架构说明

以下是该架构说明的具体含义:

  1. 驾驶场景分解:Drive-3DAug首先将驾驶场景分解为多个背景和对象。这意味着场景中的每个元素(如车辆、行人、道路、建筑等)被单独识别和处理,以便独立重建。

  2. 基于体素的NeRF重建:对于每个背景和对象,Drive-3DAug使用多帧视图通过基于体素的NeRF(神经辐射场)技术分别进行重建。这种方法允许从一组稀疏的2D图像中重建出每个元素的3D模型。

  3. 重建质量改进:为了进一步提高重建质量,Drive-3DAug引入了对称性约束、几何校正和深度监督。这些技术帮助确保重建的3D模型在形状、结构和深度上更加准确和真实。

    • 对称性约束:假设对象在某些方向上是对称的,以帮助改进形状的重建。
    • 几何校正:调整重建过程,以纠正可能的几何畸变,确保3D模型的正确比例和定位。
    • 深度监督:使用深度信息作为额外的监督信号,以提高重建的深度准确性。
  4. 3D空间中的场景编辑:通过对训练好的3D模型进行操作,Drive-3DAug在3D空间中编辑场景。这可能包括移动、旋转或添加新的对象到场景中,以创造新的训练数据。

  5. 新场景的图像生成:编辑后的新场景通过渲染生成2D图像,这些图像可用于后续的3D感知任务。渲染过程考虑了新组合场景的光照、视角和其他视觉效果,以生成逼真的图像。

总之,Drive-3DAug为驾驶场景的3D数据增强提供了一个全面的框架,通过分解、独立重建和编辑场景中的各个元素,并引入先进的技术改进重建质量,最终生成用于3D感知任务的高质量训练数据。

Drive-3DAug中的NeRF应用

在Drive-3DAug中,使用NeRF来重建背景和前景对象的3D模型具体涉及以下几个步骤:

  1. 3D场景重建:首先,使用NeRF技术从自动驾驶场景的2D图像中重建整个场景的3D模型。这包括场景中的静态背景以及动态的前景对象。

  2. 背景和前景分离:通过适当的方法将重建的3D场景中的背景和前景对象分离开来。这可能涉及到使用额外的信息或技术来识别和区分场景中的不同组成部分。

  3. 数据增强:一旦背景和前景对象被成功重建和分离,就可以在3D空间中对它们进行各种操作,如移动前景对象、改变它们的位置或向场景中添加新的对象。这样做可以生成新的、多样化的训练数据,增强自动驾驶系统的3D感知能力。

        通过这种方式,Drive-3DAug能够在3D空间中灵活地增强驾驶场景,提供更丰富和多样化的数据,以训练和改进自动驾驶系统的性能。这种基于NeRF的3D数据增强方法,相比传统的基于2D图像的增强方法,能够更好地模拟和理解复杂的3D场景和对象间的相互作用,从而提高3D目标检测和场景理解的准确性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/745198.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Flutter 多语言自动化本地化生成器

Flutter 多语言自动化本地化生成器 这是一个为Flutter设计的插件,通过从Excel表格提取的CSV文件自动生成Dart本地化文件,以简化应用程序本地化的流程。这个工具通过自动化创建多语言资源文件,简化了开发人员和翻译人员的工作流程。 特点 默…

国外visa卡怎么办理,可充ChatGPTPLUS、Claude、Midjourney

很多小伙都在使用ChatGPT,但是想充值ChatGPTPLUS缺需要国外的visa卡,拿自己的银联卡,尝试了好多次还是不行,其实用一张国外的visa卡几分钟就可以升级好 办理国外visa卡,点击获取 国外的visa卡,具体要看你…

ArcGIS全系列实战视频教程——9个单一课程组合+系列直播回放

《ArcGIS全系列实战视频教程》是由9个单一课程组合合成。组成一条ArcGIS入门实战各项专题深入应用学习全链条,让你学有方向、学有目的,系统全面掌握ArcGIS。 ArcGIS全系列实战视频教程——9个单一课程组合https://edu.csdn.net/combo/detail/2569 《Ar…

SpringBoot之Bean扫描、Bean注册

目录 Bean扫描 Bean注册 Bean lmport 自定义注解 注册条件 Bean扫描 Bean扫描有两种方式 1、标签:<context:component-scan base-package"com.mybatis"/> 2、注解: ComponentScan(basePackages "com.mybatis") springboot启动类注解可以自…

Postman定义全局变量和环境

Postman定义全局变量和环境 一. 问题二. 配置环境解决 前言 这是我在这个网站整理的笔记,有错误的地方请指出&#xff0c;关注我&#xff0c;接下来还会持续更新。 作者&#xff1a;神的孩子都在歌唱 一. 问题 问题前因&#xff1a;在使用postman调用elasticsearch接口的时候&…

目标检测——YOLOv3算法解读

论文&#xff1a;YOLOv3&#xff1a;An Incremental Improvement 作者&#xff1a;Joseph Redmon, Ali Farhadi 链接&#xff1a;https://arxiv.org/abs/1804.02767 代码&#xff1a;http://pjreddie.com/yolo/ YOLO系列其他文章&#xff1a; YOLOv1通俗易懂版解读SSD算法解读…

rust学习(简单链表)

编写一个简单链表&#xff0c;主要遇到的问题就是next指针&#xff08;按照C的写法&#xff09;的数据如何定义。按照网上的建议&#xff0c;一般定义如下&#xff1a; struct Node {pub value:u32,pub next:Option<Rc<RefCell<Node>>>, //1 }1.用Option主要…

pearlCTF——少部分WP

题型新颖&#xff0c;见识了不少 目录 b4by_jailExcel MayhemRick Roll3 spiesjail_timeWiFi brokenSoundScape b4by_jail 一道沙箱逃逸的题 源代码 #!/usr/local/bin/python import time flag"pearl{f4k3_fl4g}" blacklistlist("abcdefghijklmnopqrstuvwxyz…

【计算机图形学】End-to-End Affordance Learning for Robotic Manipulation

对RLAfford&#xff1a;End-to-End Affordance Learning for Robotic Manipulation的简单理解 1. 为什么要做这件事 在交互环境中学习如何操纵3D物体是RL中的挑战性问题。很难去训练出一个能够泛化到具有不同语义类别、不同几何形状和不同功能物体上的策略。 Visual Afforda…

Jmeter(七) - 从入门到精通 - 建立数据库测试计划实战<MySQL数据库>(详解教程)

1.简介 在实际工作中&#xff0c;我们经常会听到数据库的性能和稳定性等等&#xff0c;这些有时候也需要测试工程师去评估和测试&#xff0c;上一篇文章主要介绍了jmeter连接和创建数据库测试计划的过程,在文中通过示例和代码非常详细地介绍给大家&#xff0c;希望对各位小伙伴…

在 Java 中,如何使用文件保存包含文字和数字的 Swing 表格?

要在Java中使用文件保存包含文字和数字的Swing表格&#xff0c;您可以按照以下步骤进行&#xff1a; 1. 首先&#xff0c;您需要创建一个Swing表格&#xff0c;并向其中添加包含文字和数字的数据。 2. 接下来&#xff0c;您可以使用Java中的文件操作类&#xff08;如FileWrit…

<Senior High School Math>: inequality question

( 1 ) . o m i t (1). omit (1).omit ( 2 ) . ( a 2 − b 2 ) ( x 2 a 2 − y 2 b 2 ) ( x 2 y 2 ) − ( a 2 y 2 b 2 b 2 x 2 a 2 ) ≤ x 2 y 2 − 2 x y ( x − y ) 2 (2). (a^2-b^2)(\frac{x^2}{a^2} - \frac{y^2}{b^2})(x^2y^2)-(\frac{a^2y^2}{b^2}\frac{b^2x^2}{a^…

设置jmeter默认语言为中文

问题描述 通过面板上面的选项修改语言&#xff08;如下图&#xff09;&#xff0c;每次运行程序都需要重新再设置一遍&#xff0c;我需要每次打开都是中文界面 解决方案 进入jmeter的文件目录 bin——> jmeter.properties 打开这个文件 搜索Preferred GUI language在下方添…

微信小程序 uniapp奶茶点单系统r4112

系统功能有&#xff1a;信点单小程序分为小程序部分和后台管理两部分&#xff0c;小程序部分的主要功能包含&#xff1a;用户注册登录&#xff0c;查看商品信息&#xff0c;加入购物车&#xff0c;结算并生成订单&#xff0c;订单管理&#xff0c;资讯管理&#xff0c;个人中心…

hive-批量导出表结构,导入表结构

1、导出hive表结构 datastudio可以连接hive库&#xff0c;通过show databases 语句可以显示hive下建了多少数据库名。 使用use 数据库名&#xff0c;进入某个数据库下&#xff0c;通过show tables可显示该数据库下建了多少张表。 将所有库的表数据整理成库名.表名的形式放入…

2023版IDEA永久破解教程带patch.exe破解程序

2023版IDEA永久破解教程带patch.exe破解程序 第零步&#xff1a;百度云盘获取程序第一步&#xff1a;关闭电脑的病毒和危险防护&#xff08;目的是避免电脑自动清除破解程序&#xff09;1.找到电脑的 病毒和威胁防护2.蓝色按钮表示防护处于开启状态3.关闭成功会展示“实时保护已…

IIOT|QCA9882 vs MT7915: What‘s the difference?

IIOT|QCA9882 vs MT7915: Whats the difference? How to choose? Choosing QCA9882 or MT7915 depends on your specifc needs. lf you need a stable, widely compatible WiFi wireless cardthe QCA9882 is a good choice. lf you need wifi6 solution with DBDC 2.4Ghz 5G…

AI 大模型赋能手机影像,小米14 Ultra 让真实有层次

2月22日&#xff0c;小米龙年第一场重磅发布会&#xff0c;正式发布专业影像旗舰小米14 Ultra。 此前小米发布的两代 Ultra&#xff0c;在不同维度&#xff0c;引领了移动影像行业的走向。最新的小米14 Ultra 在定义的时候&#xff0c;我们反复在思考&#xff1a;怎么才能把移动…

一站式解决方案:uni-app条件编译及多环境配置,appid动态修改攻略!

前言 这篇文章主要介绍uniapp在Hbuilderx 中&#xff0c;通过工程化&#xff0c;区分不同环境、动态修改小程序appid以及自定义条件编译&#xff0c;解决代码发布和运行时手动切换到问题。 背景 在企业级的应用中&#xff0c;通常会分为&#xff0c;开发、联调、生产等多个环…

基于单片机的电子琴设计

基于单片机的电子琴设计 摘 要 读书、看电影、听音乐&#xff0c;都是最常见的丰富内心世界的良剂。听音乐&#xff0c;作为陶冶情操、提升境界最便捷的方式&#xff0c;正受到越来越多人们的欢迎。音乐可以很轻松的融入各种场合&#xff0c;给人们带来很轻松的氛围&#xff…