两阶段3D目标检测网络 SIENet: Spatial Information Enhancement Network for 3D Object Detection from Point Cloud

本文介绍一篇两阶段的3D目标检测网络：SIENet。这里重点是理解本文提出的 Hybrid-Paradigm Region Proposal Network 和 Spatial Information Enhancement module。

论文链接为：https://arxiv.org/abs/2103.15396

项目链接为：https://github.com/Liz66666/SIENet

0. Abstract

这里先给出本文摘要：

基于LiDAR的3D目标检测对自动驾驶汽车产生了巨大影响。由于LiDAR固有特性限制，距离LiDAR较远的物体收集到的点数相对较少。点云的这种密度不平衡往往会降低检测准确率，但是在之前的研究中都忽略了这一点。

为了解决这一挑战，本文提出了一种新的两阶段3D目标检测网络：SIENet。具体来说，本文设计了 Spatial Information Enhancement（SIE） 模块，用来预测proposals中前景点的空间形状，并提取结构信息进行特征学习进一步优化。预测的空间形状是完整且密集的点集，因此提取的结构信息包含更多的语义表示。此外，本文还设计了 Hybrid-Paradigm Region Proposal Network（HP-RPN），该网络包括多个网络分支，进行特征学习并为SIE模块生成准确的proposals。在KITTI数据集上的实验表明，本文精心设计的SIENet网络取得了目前最好的检测准确率。

1. Introduction & Related Work

( 本文的引言部分和第二部分研究现状这里就不详细介绍了，大家可以查看原文，我在这里大致总结下。)

从下面左边这张图可以看到，现有的3D目标检测算法在近距离（20米以内）的检测准确率都很高（90%左右），但是在远距离（超过40米）它们的准确率下降到了30%~40%左右。

右边这张图说明了点云密度的不平衡性，这里以汽车为例，在近距离内点云数量超过了1000，而在中等距离内点云数量仍然在200个以上，远距离处点云数量只有20个左右。因此需要找到一个办法来解决点云密度不平衡性。

下面介绍研究现状：

3D Object Detection Based on Multi-modality Fusion
多模态融合的3D目标检测方法有MV3D，AVOD，Frustum PointNet，EPNet，3D-CVF。以上方法需要同时使用图像和点云数据，且需要进行数据对齐和投影。
3D Object Detection Based on LiDAR Only
基于LiDAR的检测方法有VoxelNet，SECOND，Part-A2，PointRCNN，3DSSD，STD。但是这些研究都忽视了点云密度不平衡性的问题。
3D Shape Completion
在本文中选择Pcn (Point completion network)算法进行物体空间形状的预测，生成完整且密集的点集。

Detection performance at different distance ranges	Illustration of the point cloud with imbalanced density on the KITTI dataset

2. Our Framework （重点）

下图是SIENet网络整体框架，由HP-RPN和SIE module组成。下面首先介绍HP-RPN，然后介绍SIE module。
在这里插入图片描述

2.1 Hybrid-Paradigm RPN

如下图所示，HP-RPN包含三个分支：SPConv Branch，Auxiliary Branch，Keypoint Branch。首先对点云进行体素化处理，使用SPConv Branch学习voxel特征，然后Keypoint Branch使用注意力机制动态编码voxel 特征，Auxiliary Branch用于学习结构信息。
在这里插入图片描述
下面详解介绍这三个网络分支：

SPConv branch
和SECOND一样，这里将点云划分为一个个相等大小的voxel，堆叠4个稀疏卷积块对输入的体素特征进行8倍下采样，最后使用和SECOND一样的RPN Head生成候选方案。
Auxiliary branch
这里使用了SA-SSD网络中的Auxiliary Network将voxel坐标转换为真实场景坐标，同时使用PointNet++中的特征传播层进行插值，将每一块得到的特征进行结合用以学习结构信息。
Keypoint branch
和PVRCNN中的VSA模块进行voxel特征融合相似，但是由于点云密度不平衡，每个keypoint权重并不一样，使用了Deformable pv-rcnn中的context fusion方法分配关键点权重。

2.2 Spatial Information Enhancement Module

这里有三个问题需要考虑：如何预测空间形状？如何提取结构信息？如何进行特征融合和box优化？

Spatial shape prediction
空间形状预测如下图所示，这里选择PCN作为主干网来进行预测。假设输入点集为： ${Pi∣i=1,…,N}\left\{\boldsymbol{P}_{i} \mid i=1, \ldots, N\right\}$ ，其中 $Pi\boldsymbol{P}_{i}$ 是坐标向量， $N$ 为点的个数。为了减少干扰，这里先使用了Part-A2中的RoI-aware pooling进行点集变换；然后使用一个PointNet得到一个256维的全局特征向量 $v$ ，特征结合得到512维的特征，然后再使用一个PointNet得到1024维的全局特征向量，最后再使用全连接层网络得到新的点集 $P^\hat{\boldsymbol{P}}$ 。
Structure information extraction
现在我们已经有了预测的形状点集 ${P^i∣i=1,…,1024}\left\{\hat{\boldsymbol{P}}_{i} \mid i=1, \ldots, 1024\right\}$ ，我们使用FPS采样 $m$ 个点得到点集 ${Si∣i=1,…,m}\left\{\boldsymbol{S}_{i} \mid i=1, \ldots, m\right\}$ 。对每一个采样点，有 $T$ 个近邻点。使用MSG方法进行多尺度的特征提取得到 $\times\left(C_{1}+C_{1}\right)$ ，最后使用全连接层网络得到全局信息 $Fs∈RC1\boldsymbol{F}^{s} \in \mathbb{R}^{C_{1}}$ 。
Feature fusion and box refinement
特征融合如下图所示。首先使用了PV-RCNN中的RoI-grid pooling捕获网格点近邻 keypoint 的 context 信息，表示为： $Fg={f1g,f2g,…,f216g}∈R216×C2\boldsymbol{F}^{g}=\left\{\boldsymbol{f}_{1}^{g}, \boldsymbol{f}_{2}^{g}, \ldots, \boldsymbol{f}_{216}^{g}\right\} \in \mathbb{R}^{216 \times C_{2}}$ 。然后网格点特征和结构特征进行结合得到新的特征： $Fc=[Fg,Fs]∈R216×(C2+C1)\boldsymbol{F}^{c}=\left[\boldsymbol{F}^{g}, \boldsymbol{F}^{s}\right] \in \mathbb{R}^{216 \times\left(C_{2}+C_{1}\right)}$ ，这里在结合时使用了Perspective-Channel Attention分配特征权重，最后得到增强权重 $Fe∈R216×(C2+C1)\boldsymbol{F}^{e} \in \mathbb{R}^{216 \times\left(C_{2}+C_{1}\right)}$ 。