Waymo研发经理:《自动驾驶感知前沿技术介绍》

Waymo研发经理|自动驾驶感知前沿技术介绍

这是Waymo研发经理(VoxelNet作者)的一个最新分享报告:《自动驾驶感知前沿技术介绍》。在这份报告里,介绍了Waymo在自动驾驶感知中五个研究方向的最新成果。


1. Overview of the autonomous driving system

报告首先是无人驾驶系统的介绍,作者以Waymo第四代无人车系统为例。输入为各种感知系统(视觉、激光雷达、毫米波雷达系统及提前收集好的地图等),通过模块化或端到端处理(如深度神经网络),输出为无人车控制命令(方向盘转角和汽车加速度)。
在这里插入图片描述

下图为主流的无人车模块化设计。输入模块为采集好的地图和各种传感器信号;定位模块根据地图和传感器信号给出当前无人车所在位置;感知模块对定位模块输出、传感器信号和地图信息做感知处理,然后将感知结果发送给行为预测(BP)模块,最后规划模块根据感知、行为预测以及定位结果给出汽车的控制命令,控制模块执行控制命令。
在这里插入图片描述


2. Introduction to perception

下图是感知模块介绍,感知模块输入为传感器数据(摄像头、激光雷达、毫米波雷达)和高精地图,输出为环境表示。
在这里插入图片描述
下图是自动驾驶环境感知中六个主要研究方向:目标检测和追踪(根据激光雷达点云数据估计目标的位置、大小和方向);语义分割(给图像中每个像素分配一个类别);Flow(估计图像中的像素和点云中的每个点下一时刻的运动);深度估计(判断图像中每个像素的深度);行人位置估计(估计行人运动,主要是行人关节运动估计);高精度地图(根据各种传感器输入建立高精度地图)。

在这里插入图片描述


3. New frontiers in scalable perception

下图是感知中Scalability的五个方向:模型泛化能力(模型在不同天气、城市和长尾问题的泛化能力);Quality(模型的检测性能);模型的计算效率(内存和计算速度);自动标注(替代人工标注);仿真数据生成或数据压缩。其中Generalization,Quality,Computational Efficency属于线上模型,而Data Flexibility,Labeling Automation属于线下模型。

在这里插入图片描述在这里插入图片描述

下面作者将根据以上五个方向介绍Waymo的最新研究成果。

3.1 Generalization

这是一篇通过语义点云生成的进行无监督域自适应3D物体检测论文。论文中作者设计了一个SPG模块,可以根据物体的原始点云(即使在遮挡或雨天环境下)生成语义点云,复原物体形状;然后将原始点云与生成的语义点云融合得到增强点云,最后通过一个流行的3D物体检测器进行物体检测。无论是在target domain 还是 source domain,作者设计的SPG模块都极大的提高了3D物体检测器的检测性能。
在这里插入图片描述
下面是论文想要解决的问题,在雨天或遮挡情况下,点云质量下降很厉害,从而影响最终的检测结果。

在这里插入图片描述在这里插入图片描述在这里插入图片描述

本文的核心思想是:在3D物体检测之前,还原物体形状。

SPG模块主要做两件事:3D分割和前景形状还原。首先将点云数据划分为一个个voxel,判断每个voxel是否属于前景voxel,然后则在每个前景voxel中生成语义点云,还原物体形状。
在这里插入图片描述
SPG的pipeline如下图所示,实验发现,只要多增加5%的原始点云,就能多获得500%的前景点云。
在这里插入图片描述
下面是在Waymo Domain Adaptation DatasetKITTI数据集上的检测结果。

在这里插入图片描述在这里插入图片描述

下面是是在遮挡,远距离物体大物体上的可视化检测结果。

在这里插入图片描述在这里插入图片描述在这里插入图片描述

3.2 Quality

这是一篇通过使用注意力网络融合多帧点云信息进行物体检测的方法,与SPG在输入端提高点云质量不同,3D-MAN是在输出端将当前帧与历史帧proposals feature相结合来提高检测结果。

在这里插入图片描述在这里插入图片描述

本文的核心思想是使用同一个主干网(如Pointpillars)对当前帧和历史帧提取Proposal特征,然后使用注意力模块来优化Proposal,最终得到一个更好的检测结果。
在这里插入图片描述

论文处理框架如下图所示:

  • 在第一阶段,使用一个高效的检测器对当前帧输入生成proposal和feature,同时将当前帧与历史帧的proposal和feature存储起来。
  • 在第二阶段,注意力模块首先对当前帧和历史帧的proposal进行alignment操作,然后对不同帧的feature进行aggregation,最终得到检测结果。
    在这里插入图片描述
    下面是在Waymo Open Dataset数据集上的检测结果。
    在这里插入图片描述

3.3 Computational Efficency

这篇论文通过在waymo数据range images上首先使用2D卷积选取物体的前景点,然后对被选取的前景点云进行稀疏卷积操作。通过结合range images上提取的特征,不仅提高了3D物体检测性能,而且还达到了60帧每秒的检测效率。
在这里插入图片描述
由于点云的稀疏性,之前的检测方法(PointPillar和PV-RCNN)只考虑Occupancy Sparsity,判断划分的Voxel是否为空;而本文则是最大化算法的检测效率,内存使用,考虑的是Semantic Sparsity,即判断划分的Voxel是否为前景Voxel。
在这里插入图片描述
算法结构如下,输入为range images,这是将点云转换成图像形式;通过分割模块分割出前景点,同时提取前景点feature;然后进行Sparse Feature Extraxction,最后是Box回归得到proposal。
在这里插入图片描述

下面是在Waymo Open Dataset数据集上的检测结果。

在这里插入图片描述在这里插入图片描述

3.4 Labeling Automation

作者首先介绍了线上模型和线下模型开发的区别。
在这里插入图片描述
这是一篇用于自动标注的3D物体检测方法,检测效果达到了人类标注的性能,作者首先解释了自动标注的重要性。

在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

论文核心思想是:在不同时刻会看到物体不同视角的形状,将不同时刻物体的点汇集起来能够更准确地估计物体的形状和尺寸。
在这里插入图片描述
下面是一辆mini-van的不同帧数物体点汇集起来的样子,帧数越多,估计出来的形状更完整。
在这里插入图片描述
下面是算法的pipeline,首先是对点云序列每一帧进行检测,接着是多物体追踪,然后是同一追踪物体的点云数据提取,这里将物体分为静态和动态来进行标注。
在这里插入图片描述

下面是在Waymo Open Dataset数据集上的检测结果。需要说明的是,IoU=0.8为人工标注时的标准。

在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

3.5 Data Flexibility

在这篇论文中,通过收集来的传感器数据来生成逼真的图像数据,重建3D World;同时生成的数据也可以用于仿真测试。

在这里插入图片描述在这里插入图片描述

下面是具体的实际应用:不同视角和不同场景合成。

在这里插入图片描述在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/439586.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

几种常见软件过程模型的比较

瀑布模型 瀑布模型(经典生命周期)提出了软件开发的系统化的、顺序的方法。其流 程从用户需求规格说明开始,通过策划、建模、构建和部署的过程,最终提供一 个完整的软件并提供持续的技术支持。 优点: 1. 强调开发的…

两篇基于语义地图的视觉定位方案:AVP-SLAM和RoadMap

本文介绍两篇使用语义地图进行视觉定位的论文,两篇论文工程性很强,值得一学。 AVP-SLAM是一篇关于自动泊车的视觉定位方案,收录于 IROS 2020。论文链接为:https://arxiv.org/abs/2007.01813,视频链接为:ht…

【51Nod - 1270】数组的最大代价(dp,思维)

题干&#xff1a; 数组A包含N个元素A1, A2......AN。数组B包含N个元素B1, B2......BN。并且数组A中的每一个元素Ai&#xff0c;都满足1 < Ai < Bi。数组A的代价定义如下&#xff1a; &#xff08;公式表示所有两个相邻元素的差的绝对值之和&#xff09; 给出数组B&…

一步步编写操作系统 56 门、调用门与RPL序 1

小弟多次想把调用门和RPL分开单独说&#xff0c;但几次尝试都没有成功&#xff0c;我发现它们之间是紧偶合、密不可分&#xff0c;RPL的产生主要是为解决系统调用时的“越权”问题&#xff0c;系统调用的实现方式中&#xff0c;以调用门和中断门最为适合。由于以后我们将用中断…

自动驾驶纯视觉3D物体检测算法

视频链接&#xff1a;https://www.shenlanxueyuan.com/open/course/112 这是Pseudo-LiDAR作者最近做的一个分享报告&#xff1a;《Pseudo-LiDAR&#xff1a;基于相机的3D物体检测算法》。在这份报告里&#xff0c;作者主要介绍了博士期间的研究成果&#xff1a;基于深度学习的…

一步步编写操作系统 57 门、调用门与RPL序 2

接上文&#xff1a; 提供了4种门的原因是&#xff0c;它们都有各自的应用环境&#xff0c;但它们都是用来实现从低特权级的代码段转向高特权级的代码段&#xff0c;咱们这里也只讨论有关特权级的功用&#xff1a; 1.调用门 call和jmp指令后接调用门选择子为参数&#xff0c;以…

Coursera自动驾驶课程第15讲:GNSS and INS Sensing for Pose Estimation

在上一讲《Coursera自动驾驶课程第14讲&#xff1a;Linear and Nonlinear Kalman Filters》 我们学习了卡尔曼滤波相关知识&#xff0c;包括&#xff1a;线性卡尔曼滤波&#xff08;KF&#xff09;、扩展卡尔曼滤波&#xff08;EKF&#xff09;、误差卡尔曼滤波&#xff08;ES-…

详解车道线检测数据集和模型 VIL-100: A New Dataset and A Baseline Model for Video Instance Lane Detection

本文介绍一个新的车道线数据集 VIL-100 和检测模型 MMA-Net&#xff0c;论文已收录于 ICCV2021&#xff0c;重点是理解本文提出的 LGMA 模块&#xff0c;用于聚合局部和全局记忆特征。 论文链接&#xff1a;https://arxiv.org/abs/2108.08482 项目链接&#xff1a;https://gi…

七天入门图像分割(1):图像分割综述

最近在研究自动驾驶视觉语义地图构建&#xff0c;因为要使用到语义分割技术&#xff0c;趁此机会学习了百度飞桨的图像分割课程&#xff0c;课程蛮好的&#xff0c;收获也蛮大的。 课程地址&#xff1a;https://aistudio.baidu.com/aistudio/course/introduce/1767 1. 课程简要…

一步步编写操作系统 59 cpu的IO特权级1

在保护模式下&#xff0c;处理器中的“阶级”不仅体现在数据和代码的访问&#xff0c;还体现在指令中。 一方面将指令分级的原因是&#xff0c;有些指令的执行对计算机有着严重的影响&#xff0c;它们只有在0特权级下被执行&#xff0c;因此被称为特权指令&#xff08;Privile…

重读经典:《ImageNet Classification with Deep Convolutional Neural Networks》

9年后重读深度学习奠基作之一&#xff1a;AlexNet【下】【论文精读】这两天偶然间在B站看了李沐博士对AlexNet论文的重新解读&#xff0c;收获满满。AlexNet是当今深度学习浪潮奠基作之一&#xff0c;发表在2012年。在视频中&#xff0c;李沐博士主要是分享了他的三步法快速读论…

一步步编写操作系统 60 cpu的IO特权级2 什么是驱动程序

用户程序可以在由操作系统加载时通过指定整个eflags设置&#xff0c;操作系统如何设置自己的IOPL呢&#xff0c;即使内核IOPL为0也得写进去eflags寄存器中才生效。可惜的是&#xff0c;没有直接读写eflags寄存器的指令&#xff0c;不过可以通过将栈中数据弹出到eflags寄存器中来…

详解惯性导航论文 RINS-W: Robust Inertial Navigation System on Wheels

本文介绍一篇惯性导航定位论文 RINS-W&#xff0c;论文发表于 IROS2019。在本论文中作者提出了仅使用一个IMU进行长时间惯性导航的方法。方法主要包括两个部分&#xff1a; 检测器使用循环神经网络来检测IMU的运动状况&#xff0c;如零速或零横向滑移&#xff1b;使用Invarian…

一步步编写操作系统 61 任务状态段 TSS

I/O位图是位于TSS中的&#xff0c;它可以存在也可以不存在&#xff0c;它只是用来设置对某些特定端口的访问&#xff0c;没有它的话便默认为禁止访问所有端口。正是由于它可有可用&#xff0c;所以TSS的段界限TSS limit&#xff08;即实际大小-1&#xff09;并不固定。当TSS中不…

重读经典:《Deep Residual Learning for Image Recognition》

ResNet论文逐段精读【论文精读】这是李沐博士论文精读的第二篇论文&#xff0c;这次精读的论文是ResNet。ResNet 是 CVPR2016 的最佳论文&#xff0c;目前谷歌学术显示其被引用数已经达到了90000。 ResNet论文链接为&#xff1a;https://arxiv.org/abs/1512.03385。 1.第一遍 …

【CodeForces - 1131F 】Asya And Kittens(并查集,思维)

题干&#xff1a; Asya loves animals very much. Recently, she purchased nn kittens, enumerated them from 11 and nn and then put them into the cage. The cage consists of one row of nncells, enumerated with integers from 11 to nn from left to right. Adjacent…

详解道路标记数据集 CeyMo: See More on Roads -- A Novel Benchmark Dataset for Road Marking Detection

本文介绍一个新的道路标记检测数据集&#xff0c;论文收录于 WACV2022。Ceymo数据集总共包含2887张图片&#xff0c;标注了11类共4706个道路标记实例&#xff0c;图片分辨率为 192010801920\times108019201080。其中&#xff0c;对于每一个道路标记实例&#xff0c;作者采用了三…

动手学无人驾驶(7):车道线检测

最近在研究视觉语义地图&#xff0c;需要进行车道线检测&#xff0c;发现这篇车道线检测论文效果蛮好的 &#xff08;Ultra Fast Structure-aware Deep Lane Detection&#xff09;。论文作者在知乎上已经介绍过了&#xff1a;https://zhuanlan.zhihu.com/p/157530787&#xff…

Coursera自动驾驶课程第16讲:LIDAR Sensing

在第15讲《Coursera自动驾驶课程第15讲&#xff1a;GNSS and INS Sensing for Pose Estimation》 我们学习了自动驾驶定位中常用的两种传感器&#xff1a;IMU&#xff08;惯性测量单元&#xff09; 和GNSS&#xff08;全球导航卫星系统&#xff09;。 本讲我们将学习自动驾驶汽…

DB、ETL、DW、OLAP、DM、BI关系结构图

在此大概用口水话简单叙述一下他们几个概念&#xff1a; &#xff08;1&#xff09;DB/Database/数据库——这里一般指的就是OLTP数据库&#xff0c;在线事物数据库&#xff0c;用来支持生产的&#xff0c;比如超市的买卖系统。DB保留的是数据信息的最新状态&#xff0c;只有一…