引言:本文提出了一种基于鸟瞰图(BEV)空间的激光雷达点云分割方法,该方法通过融合极坐标和笛卡尔分区策略,实现了快速且高效的特征融合。该方法利用固定网格对应关系,避免了传统点云交互中的计算瓶颈,并通过混合Transformer-CNN架构增强了场景理解能力。实验结果证明,该方法在性能和推理速度方面均优于现有的多视图融合技术。
©️【深蓝AI】编译
论文标题:PC-BEV: An Efficient Polar-Cartesian BEV Fusion Framework for LiDAR Semantic Segmentation
论文作者:Shoumeng Qiu, Xinrun Li, Xiangyang Xue, Jian Pu
论文链接:https://arxiv.org/pdf/2412.14821
1、背景介绍
激光雷达点云分割是自动驾驶领域的核心任务,其目标在于精细地理解周围环境的语义信息。目前,该领域的方法主要分为三类:基于点的方法、基于体素的方法和基于投影的方法。
其中,基于投影的方法因其能够利用2D卷积神经网络(CNN)高效处理投影点云而受到青睐。但是,相比于计算量大的基于体素方法,从3D到2D的投影过程中不可避免地丢失信息,这限制了这种算法的性能。
为了缩小这一性能差距,多视图融合技术应运而生,通过整合不同投影技术捕获的互补信息。近期的多视图融合方法,如AMVNet、GFNet和CPGNet,通过基于点的特征交互增强了表示学习。
然而,由于缺乏视图间的固定对应关系,这些方法需要进行高成本的网格采样和散射操作,影响了实时性能。此外,特征融合通常仅限于点存在的区域,可能会忽略周围区域中有价值的上下文信息。
▲图1 | 与其他基于投影的方法比较,结果展示了本文方法在性能和速度方面的优越性。©️【深蓝AI】编译
2、方法提出
为了克服这些限制,作者提出了一种创新的多分区特征融合框架,完全在BEV空间内操作,充分利用了极坐标和笛卡尔分区方案之间的固定对应关系。该方法受到BEV中极坐标分区与范围视图中球坐标分区相似性的启发,并且实验表明不同分区方法的性能具有互补性。
为了促进极坐标和笛卡尔分支之间的特征融合,作者引入了一种高效且有效的基于重映射的融合方法。利用极坐标和笛卡尔空间分区在相同BEV空间内固有的固定坐标对应关系,预先计算对应参数,再通过精心设计的重映射操作实现高效特征融合。这种方法比以往的基于点的特征交互方法快170倍。此外,所有的特征融合在BEV空间位置操作,不仅实现了密集融合,还保留了比以往基于点的方法更多的宝贵上下文信息。
作者还提出了一种混合Transformer-CNN架构,用于BEV特征提取。Transformer块中的自注意力捕获全局场景信息,然后是一个轻量级的U-net样式CNN用于详细特征提取。实验结果表明,这种架构在保持实时推理能力的同时增强了模型性能。
▲图2 | 极坐标-笛卡尔BEV融合框架用于3D点云语义分割任务的流程图。©️【深蓝AI】编译
3、方法详解
3.1. 极坐标-笛卡尔BEV融合框架
作者提出的极坐标-笛卡尔BEV融合框架用于激光雷达语义分割的概述如图2所示。它包括两个分支:笛卡尔分支和极坐标分支。给定一个点云,由N个激光雷达点组成,其中是相对于扫描仪的笛卡尔坐标,是返回激光束的强度。
作者对BEV投影应用两种不同的分区策略:笛卡尔和极坐标。点云仅沿x和y轴进行量化,以实现高效的2D基础特征提取。对于点云P,点首先通过简化的PointNet进行编码,该PointNet仅由全连接层、批量归一化和ReLU层组成。随后,提取的特征被重新散射回BEV空间,分别表示为和。作者使用两个具有相同结构但不同参数的网络执行特征提取。这两个分支的特征在过程中进行双向交互,包括特征对齐和融合,最终预测结果也从这两个分支的融合中得出。每个分支的特征提取网络是本文提出的Transformer-CNN混合架构,包括两个标准Transformer块和一个CNN网络。
在两个分支之间的双向特征交互之前,首先对两个分支的特征执行空间对齐。具体来说,假设和分别来自极坐标和笛卡尔分支,作者使用极坐标到笛卡尔和笛卡尔到极坐标的重映射操作来对齐不同分区策略下的空间特征。
其中和分别指从极坐标空间到笛卡尔空间和从笛卡尔空间到极坐标空间的重映射。重映射操作的详细信息将在特征融合通过重映射小节中说明。对于特征融合,作者采用常用的连接操作。例如,当将极坐标分支的特征融合到笛卡尔分支时,作者首先将空间变换特征与连接起来。然后,使用简单的卷积操作将特征的通道大小减少到原始大小。融合过程可以表示为:
对于最终的语义预测,由于本方法的目标是为场景中的每个点提供语义预测,因此需要获取每个点在投影空间中用于类别预测的特征。对于从不同分支提取了特征,以前方法中的常见做法是通过网格采样(GS)操作检索每个点的相应特征。然后从不同分支采样的特征被融合。最后,融合的特征用于获得最终的语义预测结果。以前的基于点的输出融合可以表示为(这里作者假设使用连接操作进行融合):
为了进一步加速模型推理,作者使用重映射操作对一个分支的特征与另一个分支对齐,这使模型能够仅对重映射分支执行一次网格采样。在论文中,作者选择将从极坐标分支提取的特征与笛卡尔空间对齐,因为作者实验发现这比相反的方式表现略好。作者将重映射的极坐标特征与笛卡尔特征连接,然后使用网格采样获得每个点的BEV位置特征。因此,作者方法中的最终点级特征输出可以表示为:
其中。最后,融合的特征被送入最终的语义分类器:
▲图3 | 在不同设置下,比较先前的基于点的方法和基于重映射的方法的特征交互操作过程。©️【深蓝AI】编译
3.2. 特征融合通过重映射
与以前的多视图融合方法在不同投影空间中操作,由于投影过程中的信息丢失导致动态网格到网格的对应关系不同,本设计的方法从两个分区分支在同一BEV空间下的固定位置对应关系中受益,这为本设计提供了改进特征融合过程效率的机会。
具体来说,作者采用重映射技术来对齐两种不同分区方法下的特征。鉴于两个分支之间网格对应关系是固定的,重映射参数可以预先计算,以实现高效特征融合。作者提供了重映射操作的详细步骤,突出了基于重映射的交互相对于基于点的交互的优势。以从极坐标空间到笛卡尔空间的重映射过程为例,注意从笛卡尔到极坐标空间的重映射遵循相同的原则。
对于笛卡尔分支中的每个网格,作者将网格中心的坐标记为,其中。接下来,需要确定它们在极坐标分支中的特征融合对应的坐标。为了实现这一点,首先计算网格中心点在真实世界BEV空间中的坐标。随后,便可以轻松计算每个点在极坐标分支下的坐标,遵循极坐标分区机制:,。
到目前为止,建立了笛卡尔和极坐标分支之间的坐标对应关系,这是固定的,所以可以预先计算融合。可以将网格中心视为一个点,并应用以前的基于点的方法进行特征融合;然而,作者的实验表明,这种方法在实践中是低效的。
为了更高效和有效地进行特征融合,作者开发了一种基于重映射的特征融合操作,显著提高了两个分支之间的特征对齐速度。传统的基于点的方法之所以慢,主要是因为网格采样操作和散射回操作。它们将每个点单独视为点级并行处理,导致实验中的缓存未命中率高。
与基于点的方法不同,作者的基于重映射的操作考虑了空间位置的连续性,使过程更友好于内存访问,并显著加快了计算速度。图3比较了不同特征融合方法。需要注意的是,并非一个分支中的每个网格在另一个分支中都有对应的区域,由于空间占用模式的变化。
如果一个分支中的空间位置在另一个分支中不可用,则简单地对该位置应用零填充。更详细的效率分析可以在补充材料中找到。基于重映射的融合方法通过在融合过程中整合更多的上下文信息提供了额外的优势。
如图4所示,基于点的方法仅在存在点的区域进行融合,丢弃了没有点的特征,作者称之为稀疏融合。相比之下,基于重映射的方法使整个BEV空间内的融合成为可能,实现了密集融合,丰富了来自另一分支的特征信息。
▲图4 | 基于点的交互结果与基于重映射的交互结果之间的比较。©️【深蓝AI】编译
3.3. Transformer-CNN混合架构
作者提出了一种Transformer-CNN混合网络,用于BEV表示中的特征提取。作者首先使用Transformer的自注意力机制捕获全局场景信息,然后通过轻量级CNN进行进一步的特征提取。以笛卡尔BEV特征为例说明详细的特征提取过程。首先将特征划分为块,,其中。每个块然后使用核大小为的卷积操作编码成向量。将编码的块记为,其中。由于注意力机制缺乏区分输入序列中位置信息的能力,作者引入了正弦位置编码到特征中。最终的块嵌入输入自注意力可以表示为:。然后,作者采用多头自注意力,输出通过前馈网络(FFN)模块。作者将Transformer块中的最终块嵌入记为。将输出特征从2D形状的重塑为标准3D特征图。之后,对输出进行双线性上采样,以匹配投影伪图像的全分辨率:
其中。作者采用简单的加法操作来融合和:
富含全局信息的特征然后被送入一个高效的CNN模型进行进一步提取。作者使用了一个U-net架构的CNN。实验表明,本文的Transformer-CNN混合架构在性能和推理速度方面都提供了优势。
4、实验结果
作者在SemanticKITTI和nuScenes数据集上进行了广泛的实验,证明了本方法以更快的推理速度实现了最先进的性能。
▲表1 | 在SemanticKITTI 测试集的定量比较。©️【深蓝AI】编译
▲表2 | 在SemanticKITTI 验证机的定量比较。©️【深蓝AI】编译
▲表3 | 在nuScenes测试集定量比较。©️【深蓝AI】编译
▲表4 | 基于重映射的交互效率的对比。©️【深蓝AI】编译
▲表5 | 在nuScenes验证集上的消融研究。©️【深蓝AI】编译
5、本文总结
本文介绍了一种新颖的实时激光雷达点云分割方法。该技术采用作者研发的高效重映射空间对齐融合策略,通过优化内存连续性,不仅大幅提升了处理速度,而且在性能上超越了传统的基于点的交互方法,同时还能保留更为详尽的上下文信息。
此外,文章中还介绍了一种Transformer-CNN混合架构,该架构在维持实时处理能力的基础上,进一步增强了模型的整体性能。通过在SemanticKITTI和nuScenes数据集上进行的广泛实验,充分验证了该方法的有效性和高效率。
展望未来,研究者可以会进一步探索将此技术应用于由多相机图像数据生成的BEV(鸟瞰图)表示,以拓展其应用范围。