VirtualPainting：新一代多传感器融合方案，大幅提升3D目标检测性能

论文标题：VirtualPainting: Addressing Sparsity with Virtual Points and Distance-Aware Data Augmentation for 3D Object Detection

论文作者：Sudip Dhakal, Dominic Carrillo, Deyuan Qu, Michael Nutt, Qing Yang, Song Fu

导读： 本文提出了一种新颖的方法，它利用图像生成LiDAR虚拟点，通过基于图像的分割网络提供的语义标签来增强这些虚拟点，从而克服点云的稀疏性问题，提高了对稀疏分布对象的检测能力，有效解决了自动驾驶领域的一大痛点。©️【深蓝AI】编译

1.问题引入

3D目标检测在增强自动驾驶汽车场景理解方面起着关键作用。近年来出现了许多3D目标检测方法，这些方法主要利用来自LiDAR和相机传感器的信息来感知周围环境，LiDAR提供具有低分辨率的形状和深度信息的点云，而相机捕获包含丰富的颜色和纹理的图像。

虽然近期基于多模态的3D目标检测取得了明显进步，但它们在处理稀疏点云数据的性能方面依然存在不足。有学者提出了点装饰融合方法试图解决这个问题，如PointPainting，这些方法用相机特征装饰LiDAR点。然而，对于那些缺少相应点云的对象，如远距离和遮挡对象，处理它们的效果仍然不理想。即使这些对象的相机特征有所保留，但如果缺乏关联的点云特征，它们也无法被有效地检测到。所以说，这些方法性能仍然会受到LiDAR点云数据稀疏性的限制，如图1所示。

在这里插入图片描述
图1｜基于绘制方法的局限性。黄圈部分表示图像投影中缺少点云的区域，红框部分表示由于点云稀疏而导致的检测失败的例子。尽管在黄圈内有一些语义线索，但由于没有LiDAR点，这些语义线索无法与LiDAR数据融合。

为了处理LiDAR数据的稀疏性，一些方法采用了生成虚拟点的方法——通过在现有的LiDAR点周围引入「补充点」来增强稀疏点云。例如，MVP 通过使用距离最近的3D点生成虚拟点，以补充2D实例点的深度信息。类似地，SFD也会基于深度补全网络创建虚拟点。这些虚拟点在增强远距离对象的几何表示方面发挥了重要作用（然而，现有的方法还无法充分将语义网络的语义输出与虚拟点结合）。将语义信息融入到增强的点云（包括原始和虚拟点）中，不仅丰富了数据集，而且提高了模型的整体鲁棒性。

目前的大多数融合方法主要集中在不同的融合阶段：

· 前融合，即在早期阶段合并LiDAR和相机数据；

· 特征融合，即通过特征融合来结合来自相机和LiDAR的特征；

· 后融合，即合并来自LiDAR和相机检测框架的输出候选或结果。

需要注意的是，这些方法对训练数据质量的关注度几乎为零。然而训练数据质量是影响目标检测模型质量中的一个关键因素，这些方法使用的数据集往往缺乏稀疏分布对象（如遮挡和远距离对象）。训练数据不足使得训练的模型鲁棒性差，在测试阶段无法有效地检测到远距离对象。因此，融合方法也面临着数据增强不充分的挑战。2D图像数据与3D LiDAR数据之间的差异也使得很难适应一些对后者有效的数据增强技术。

2.方案提出

为了解决这些问题，作者提出了一个“虚拟绘图”的方法。通过使用深补全网络PENET 生成虚拟点来解决LiDAR点云数据的稀疏性问题。这一方法的具体流程为：

首先生成补充的虚拟点，并将它们与原始点合并，从而生成增强的LiDAR点云数据集。然后，该增强数据集利用来自相机的特征，进行一个“绘制”过程。相机生成的特征是语义分数或每个像素的类别分数的形式。将增强的点云与每个像素的类别分数连接，以获得特征丰富的点云。在上述处理的过成中，模型不仅生成了更密集的点云，而且还可以无缝地将相机特征与点云相结合。深补全网络生成的虚拟点与相机特征相关联，这生成了更全面的数据表示。然而在某些情况下，相机特征缺乏对应的LiDAR传感器点，这就导致缺乏传感器点的这些相机特征不会被并入。

此外，作者还集成了一种称为距离感知的数据增强（DADA）的技术，来解决远距离对象训练样本不足和数据增强技术不充分的问题。在这一技术中，作者应用远距离偏移的办法，从最初密集观测的对象中生成稀疏的训练样本。考虑到现实世界场景中经常出现由于遮挡而导致的数据不完整的情况，本文还引入了随机性：选择性地删除部分内容以模拟这种遮挡。通过整合这些训练样本，本模型在测试阶段遇到稀疏分布的对象（如遮挡或远距离对象）时，能够表现出更强的鲁棒性。

3.方法介绍

图2中展示了“虚拟绘图”框架。为了解决LiDAR点云的稀疏性问题和稀疏对象的稀疏训练样本问题，作者提出了一种多模态检测器，通过一系列不同的数据增强过程来增强原始点云数据。

在这里插入图片描述
图2｜虚拟绘图框架的概览。

如上所示，本方法包括五个不同的模块：

1）一个2D语义分割模块，负责计算每个像素的分割分数

2）一个基于图像的深补全网络“PENet”，生成LiDAR虚拟点云

3）虚拟绘图过程，使用语义分割分数绘制虚拟和原始LiDAR点

4）距离感知数据增强（DADA）组件，采用距离感知采样策略，主要从附近的密集对象中生成稀疏训练样本

5）一个3D检测器，用于得到最终的检测结果。

3.1 基于图像的语义网络

相机拍摄的2D图像在纹理、形状和颜色信息方面非常丰富。这种丰富性为点云提供了宝贵的互补信息，从而提升了3D检测的效果。要利用这种协同作用，可以采用语义分割网络生成像素级的语义标签。作者使用了BiSeNet2分割模型，以多视图图像为输入，并为前景实例和背景提供每个像素的分类标签。值得注意的是，这一模块是非常灵活的，可以融合各种语义分割网络以生成语义标签。

3.2 PENet用于生成虚拟点

附近对象在LiDAR扫描中的几何形状通常相对完整，而对于远距离对象则恰恰相反。此外，由于2D图像数据与3D LiDAR数据之间的固有差异，导致了数据增强技术的不足。适用于3D LiDAR数据的一些数据增强技术很难应用于多模态方法。这一障碍在很大程度上使得多模态方法通常低于单模态方法的性能。

为了解决这些问题，作者采用PENet将2D图像转换为3D虚拟点云。该转换操作统一了图像和原始点云的表示，使模型能够像处理原始点云数据一样处理图像；将深补全网络生成的虚拟点与原始点对齐，以创建增强的点云数据；这种方法既增强了稀疏对象的几何信息，又为图像和点云的统一表示建立了联系。

3.3 绘制虚拟点

目前的LiDAR点云绘制方法还没有充分利用将语义网络的语义输出与虚拟点关联的优势。将语义信息融入到增强的点云（包括原始点和虚拟点）中，不仅丰富了数据集，而且提高了模型的鲁棒性。将激光雷达扫描生成的原始点称为“原始点云”，将从深补全网络生成的点称为“虚拟点”。从一组原始点云开始，可以使用已知的投影将其转换为稀疏深度图，还有一个与对应的图像。通过同时将稀疏深度图和对应的图像作为输入提供给深补全网络，可以得到一个密集填充的深度图。使用已知投影，然后可以生成一组虚拟点。

虚拟绘图算法包含三个主要步骤。在第一阶段，利用从深补全网络得到的虚拟点，将它们与原始LiDAR点对齐，有效地生成一个包含N个点的增强的LiDAR点云。在第二阶段，如前所述，分割网络产生C个类别的分数。在第三阶段，增强的LiDAR点投影到图像上，并将与相应的像素坐标对应的分割分数附加到增强的LiDAR点上，从而创建绘制好的LiDAR点。这一转换过程涉及齐次变换，如算法1所示。

在这里插入图片描述
图3 ｜虚拟绘图算法。

3.4 距离感知的数据增强

如前所述，稀疏对象的几何信息缺失会严重影响模型的检测性能。为了克服这一挑战，作者通过从最初密集观测的近距离对象中生成训练样本，来增强模型对稀疏远距离对象几何的理解。尽管已经出现了一些方法来解决这一挑战，例如随机采样或最远点采样，但这些技术通常会导致激光雷达扫描的点云中出现不均匀的分布模式。基于这种情况，作者采用了一种采样策略，它同时考虑了激光雷达扫描机制和场景遮挡。并将点转换为球面坐标系，接着将它们量化为与激光雷达的角分辨率对齐的球面体素。在每个体素内，计算点之间的距离。如果点之间的距离非常接近，几乎可以忽略、且低于预定义的阈值，则选择计算这些点的平均值。这生成了一组样本点，它们的分布模式与真实扫描点非常相似，如图2所示。在训练过程中，需要将这些采样点和边界框信息并入训练样本中，以促进数据增强。这种增强技术有望解决远距离对象训练样本不足的问题。此外，作者还随机删除密集LiDAR点的一部分来模拟遮挡，来间接地解决训练期间遮挡样本稀缺的问题。

3.5 检测器

在最后阶段，3D检测器以绘制增强点云的形式作为输入。由于Backbones或其他组件没有改变，所以将绘制好的点云作为输入到任何3D检测器（如PointRCNN、VoxelNet、PVRCNN、PointPillars等），都可以直接获得最终检测结果。

4.实验结果

作者在KITTI和nuScenes数据集上评估了虚拟绘图方法，与其他单模态和多模态的3D目标检测方法进行了比较。结果表明，本方法在3D和鸟瞰图（BEV）检测基准测试上都取得了显著的提升。

在这里插入图片描述
图4｜增强的LiDAR点云和原始LiDAR点云的对比图。

在这里插入图片描述
表1｜KITTI测试集上的BEV检测基准的结果。

在这里插入图片描述
表2｜基于虚拟绘图的模型与基于绘制的模型的比较。

在这里插入图片描述
表3｜nuScenes测试集上的性能比较。

在这里插入图片描述
表4｜不同的多模态和单模态框架的推理速度。

在这里插入图片描述
表5｜分析KITTI测试集上不同组件的影响，使用40个召回位置的AP（平均精度）指标计算行人和自行车类别的结果。

在这里插入图片描述
表6｜nuScenes数据集上的消融研究。

在这里插入图片描述
图5｜不同检测距离（KITTI测试集）上的性能提升和自行车类别的3D AP。

在这里插入图片描述
图6｜不同检测距离（KITTI测试集）上的性能提升和行人类别的3D AP。

5.结论

本文提出了一种通用的3D目标检测方法，它利用LiDAR点云和相机图像的融合，来提升检测精度，尤其是对于稀疏分布的对象。通过联合使用LiDAR点云和相机图像，来解决LiDAR点云的稀疏性和数据增强不足的问题。使用深补全网络，生成虚拟点云，使LiDAR点云变得更加密集，并采用点绘制机制，将图像语义与增强的LiDAR点云相结合，从而提高了对由于LiDAR点稀疏性而常常被忽略的对象的检测精度。此外，作者设计了距离感知的数据增强技术，使模型对遮挡和远距离对象更具鲁棒性。实验结果表明，本方法可以显著提高检测精度，尤其是对远距离或遮挡对象的检测精度。

编译｜Deep蓝同学

审核｜Los

移步公众号【深蓝AI】，第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态。