Waymo研发经理|自动驾驶感知前沿技术介绍
这是Waymo
研发经理(VoxelNet作者
)的一个最新分享报告:《自动驾驶感知前沿技术介绍》。在这份报告里,介绍了Waymo在自动驾驶感知中五个研究方向
的最新成果。
1. Overview of the autonomous driving system
报告首先是无人驾驶系统的介绍,作者以Waymo
第四代无人车系统为例。输入为各种感知系统
(视觉、激光雷达、毫米波雷达系统及提前收集好的地图等),通过模块化或端到端处理
(如深度神经网络),输出为无人车控制命令
(方向盘转角和汽车加速度)。
下图为主流的无人车模块化设计。输入模块
为采集好的地图和各种传感器信号;定位模块
根据地图和传感器信号给出当前无人车所在位置;感知模块
对定位模块输出、传感器信号和地图信息做感知处理,然后将感知结果发送给行为预测(BP)模块
,最后规划模块
根据感知、行为预测以及定位结果给出汽车的控制命令,控制模块
执行控制命令。
2. Introduction to perception
下图是感知模块介绍,感知模块输入为传感器数据(摄像头、激光雷达、毫米波雷达)和高精地图,输出为环境表示。
下图是自动驾驶环境感知中六个主要研究方向:目标检测和追踪
(根据激光雷达点云数据估计目标的位置、大小和方向);语义分割
(给图像中每个像素分配一个类别);Flow
(估计图像中的像素和点云中的每个点下一时刻的运动);深度估计
(判断图像中每个像素的深度);行人位置估计
(估计行人运动,主要是行人关节运动估计);高精度地图
(根据各种传感器输入建立高精度地图)。
3. New frontiers in scalable perception
下图是感知中Scalability的五个方向:模型泛化能力
(模型在不同天气、城市和长尾问题的泛化能力);Quality
(模型的检测性能);模型的计算效率
(内存和计算速度);自动标注
(替代人工标注);仿真数据生成或数据压缩
。其中Generalization,Quality,Computational Efficency
属于线上模型,而Data Flexibility,Labeling Automation
属于线下模型。
下面作者将根据以上五个方向介绍Waymo
的最新研究成果。
3.1 Generalization
这是一篇通过语义点云生成的进行无监督域自适应3D物体检测论文。论文中作者设计了一个SPG
模块,可以根据物体的原始点云(即使在遮挡或雨天环境下)生成语义点云,复原物体形状
;然后将原始点云与生成的语义点云融合得到增强点云
,最后通过一个流行的3D物体检测器进行物体检测。无论是在target domain
还是 source domain
,作者设计的SPG
模块都极大的提高了3D物体检测器的检测性能。
下面是论文想要解决的问题,在雨天或遮挡情况下,点云质量下降很厉害
,从而影响最终的检测结果。
本文的核心思想是:在3D物体检测之前,还原物体形状。
SPG
模块主要做两件事:3D分割和前景形状还原
。首先将点云数据划分为一个个voxel,判断每个voxel是否属于前景voxel,然后则在每个前景voxel中生成语义点云,还原物体形状。
SPG
的pipeline如下图所示,实验发现,只要多增加5%的原始点云,就能多获得500%的前景点云。
下面是在Waymo Domain Adaptation Dataset
和KITTI
数据集上的检测结果。
下面是是在遮挡,远距离物体
或大物体
上的可视化检测结果。
3.2 Quality
这是一篇通过使用注意力网络
融合多帧点云信息进行物体检测的方法,与SPG在输入端提高点云质量
不同,3D-MAN
是在输出端将当前帧与历史帧proposals feature相结合
来提高检测结果。
本文的核心思想是使用同一个主干网(如Pointpillars)对当前帧和历史帧提取Proposal特征,然后使用注意力模块来优化Proposal,最终得到一个更好的检测结果。
论文处理框架如下图所示:
- 在第一阶段,使用一个高效的检测器对当前帧输入生成proposal和feature,同时将当前帧与历史帧的proposal和feature存储起来。
- 在第二阶段,注意力模块首先对当前帧和历史帧的proposal进行alignment操作,然后对不同帧的feature进行aggregation,最终得到检测结果。
下面是在Waymo Open Dataset
数据集上的检测结果。
3.3 Computational Efficency
这篇论文通过在waymo数据range images
上首先使用2D卷积选取物体的前景点,然后对被选取的前景点云进行稀疏卷积操作。通过结合range images
上提取的特征,不仅提高了3D物体检测性能,而且还达到了60帧每秒的检测效率。
由于点云的稀疏性,之前的检测方法(PointPillar和PV-RCNN)只考虑Occupancy Sparsity
,判断划分的Voxel是否为空;而本文则是最大化算法的检测效率,内存使用,考虑的是Semantic Sparsity
,即判断划分的Voxel是否为前景Voxel。
算法结构如下,输入为range images
,这是将点云转换成图像形式;通过分割模块分割出前景点,同时提取前景点feature;然后进行Sparse Feature Extraxction
,最后是Box回归得到proposal。
下面是在Waymo Open Dataset
数据集上的检测结果。
3.4 Labeling Automation
作者首先介绍了线上模型和线下模型
开发的区别。
这是一篇用于自动标注
的3D物体检测方法,检测效果达到了人类标注的性能,作者首先解释了自动标注的重要性。
论文核心思想是:在不同时刻会看到物体不同视角的形状,将不同时刻物体的点汇集起来能够更准确地估计物体的形状和尺寸。
下面是一辆mini-van
的不同帧数物体点汇集起来的样子,帧数越多,估计出来的形状更完整。
下面是算法的pipeline,首先是对点云序列每一帧进行检测,接着是多物体追踪,然后是同一追踪物体的点云数据提取,这里将物体分为静态和动态来进行标注。
下面是在Waymo Open Dataset
数据集上的检测结果。需要说明的是,IoU=0.8
为人工标注时的标准。
3.5 Data Flexibility
在这篇论文中,通过收集来的传感器数据来生成逼真的图像数据,重建3D World;同时生成的数据也可以用于仿真测试。
下面是具体的实际应用:不同视角和不同场景
合成。