【原文链接】Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction

原文链接：https://openaccess.thecvf.com/content/CVPR2023/papers/Huang_Tri-Perspective_View_for_Vision-Based_3D_Semantic_Occupancy_Prediction_CVPR_2023_paper.pdf

1. 引言

体素表达需要较大的计算量和特别的技巧（如稀疏卷积），BEV表达难以使用平面特征编码所有3D结构。

本文提出三视图（TPV）表达3D场景。为得到空间中一个点的特征，首先将其投影到三视图平面上，使用双线性插值获取各投影点的特征。然后对3个投影点特征进行求和，得到3D点的综合特征。这样，可以以任意分辨率描述3D场景，并对不同的3D点产生不同的特征。此外，本文还提出基于Transformer的编码器（TPVFormer），以从2D图像获取TPV特征。首先，在TPV网格查询与2D图像特征之间使用图像交叉注意力，将2D信息提升到3D。然后，在TPV特征之间使用跨视图混合注意力进行TPV跨平面交互。

在这里插入图片描述

本文进行的任务为3D语义占用估计，其中训练时只有稀疏激光雷达语义标签，但测试时需要所有体素的语义预测，如上图所示。但由于没有基准，只能进行定性分析，或在两个代理任务上进行定量分析：激光雷达分割（稀疏训练、稀疏测试）和3D语义场景补全（密集训练、密集测试）。两任务均仅使用图像数据；对激光雷达分割任务，仅使用激光雷达点云进行点查询以计算评估指标。

3. 提出的方法

3.1 将BEV推广到TPV

在这里插入图片描述
本文提出三视图（TPV）表达，不需像BEV表达一样压缩某轴，且可以避免体素表达的立方复杂度，如上图所示。具体来说，学习3个轴对齐的正交平面：
$T=[T^{HW},T^{DH},T^{WD}],T^{HW}\in\mathbb{R}^{H\times W\times C},T^{DH}\in\mathbb{R}^{D\times H\times C},T^{WD}\in\mathbb{R}^{W\times D\times C}$

分别表达俯视图、侧视图和前视图。

点查询的形式：给定世界坐标系下的查询点 $(x, y, z)$ ，TPV表达首先聚合其在三视图平面上的投影，以得到点的综合描述。设投影到TPV平面的坐标为 $[(h, w), (d, h), (w, d)]$ ，采样的特征为 $t_{hw},t_{dh},t_{wd}]$ ，则聚合特征为：
$t_{ij}=\mathcal{S}(T,(i,j))=\mathcal{S}(T,\mathcal{P}_{IJ}(x,y,z)),(i,j)\in\{(h,w),(d,h),(w,d)\}\\ f_{xyz}=\mathcal{A}(t_{hw},t_{dh},t_{wd})$

其中 $\mathcal{S}$ 为采样函数， $\mathcal{A}$ 为聚合函数， $\mathcal{P}$ 为投影函数（由于TPV平面与世界坐标系对齐，实际仅进行缩放）。

体素特征的形式：TPV平面会沿其正交方向复制自身并与来自其余视图的特征求和，得到3D特征空间。其存储与计算复杂度为 $O (H W + DH + W D)$ 。

总的来说，TPV可以通过多视图的相互补充提供更细粒度的3D场景理解，同时保持高效性。

3.2 TPVFormer

本文使用TPV编码器（TPVFormer），通过注意力机制将图像特征提升到TPV平面。

总体结构：本文引入TPV查询、图像交叉注意力（ICA）与跨视图混合注意力（CVHA）以保证有效生成TPV平面，如下图所示。TPV查询就是TPV平面上的网格特征， $t\in T$ ，用于编码视图特定的信息。跨视图混合注意力在同一平面或不同平面上各TPV查询之间交互，以获取上下文信息。图像交叉注意力则使用可变形注意力聚合图像特征。
在这里插入图片描述
本文还进一步建立了两种Transformer块：混合-交叉注意力块（HCAB，由CVHA与ICA组成，位于TPVFormer的前半部分，查询图像特征中的视觉信息）与混合注意力块（HAB，仅含CVHA，位于HCAB之后，专门进行上下文信息编码）。

TPV查询：每个TPV查询对应相应视图中 $s\times s \ \text{m}^2$ 的2D单元格区域或沿正交方向延伸的3D柱状区域。TPV查询首先会使用原始视觉信息增强（HCAB），再通过来自其余查询的上下文信息细化（HAB）。TPV查询被初始化为可学习参数。

图像交叉注意力：使用可变形注意力以节省计算。对于 $(h, w)$ 处的查询 $t_{hw}$ ，首先通过逆投影函数 $\mathcal{P}^{-1}_{HW}$ 计算其世界坐标系下的坐标 $(x, y)$ ，然后沿平面的正交方向均匀采样 $N_{HW}^{ref}$ 个参考点：
$(x,y)=\mathcal{P}^{-1}_{HW}(h,w)=((h-\frac H 2)\times s,(w-\frac W 2)\times s)\\ \text{Ref}_{hw}^w=\{(x,y,z_i)\}^{N_{HW}^{ref}}_{i=1}$

其中 $\text{Ref}_{hw}^w$ 表示查询 $t_{hw}$ 在世界坐标系下的参考点集。其余平面的查询类似，需要注意不同平面的 $N^{ref}$ 不同，因为不同轴的范围不同。然后，将参考点投影到像素坐标系，以采样图像特征：
$\text{Ref}_{hw}^p=\mathcal{P}_{pix}(\text{Ref}_{hw}^w)$

其中 $\text{Ref}_{hw}^p$ 为查询 $t_{hw}$ 在像素坐标系下的参考点集， $\mathcal{P}_{pix}$ 为由相机内外参确定的透视投影函数。若存在 $N_c$ 个相机，则生成的参考点集为 $\{\text{Ref}_{hw}^{p,j}\}_{j=1}^{N_c}$ 。此外，可以剔除为落在图像范围外的参考点以节省计算。最后，将 $t_{hw}$ 通过两个线性层生成偏移量与注意力权重，并通过加权求和采样图像特征产生更新的TPV查询：
$\text{ICA}(t_{hw},I)=\frac 1{|N_{hw}^{val}|}\sum_{j\in N_{hw}^{val}}\text{DA}(t_{hw},\text{Ref}_{hw}^{p.j},I_j)$

其中 $N_{hw}^{val}$ 为有效视图的集合， $I_j$ 为视图 $j$ 的图像特征， $\text{DA}$ 为可变形注意力函数。

跨视图混合注意力：该步骤使不同视图能交换信息，以提取上下文。同样使用可变形注意力，其中TPV平面作为键与值。首先将参考点分为3个不相交的子集，分属俯视图、侧视图和前视图：
$R_{hw}=R^{top}_{hw}\cup R_{hw}^{side}\cup R_{hw}^{front}$

为收集俯视图平面的参考点，进行查询 $t_{hw}$ 所在邻域内的随机采样。对侧视图与前视图，沿正交方向均匀采样并投影到侧视平面与前视平面：
$R_{hw}^{side}=\{(d_i,h)\}_i,R_{hw}^{front}=\{(w,d_i)\}_i$

然后进行可变形注意力：
$CVHA(t_{hw})=\text{DA}(t_{hw},R_{hw},T)$

3.3 TPV的应用

需要将TPV平面 $T$ 转化为点或体素特征以输入任务头。

点特征：给定世界坐标系下的点坐标，与点查询相同，将点投影到TPV平面上检索特征并求和。

体素特征：将TPV平面沿正交方向广播得到3个大小相同的特征张量，并求和。

为进行分割任务，本文在点或体素特征上添加2层MLP以预测语义标签。

4. 实验

4.1 任务描述

3D语义占用预测：使用稀疏语义标签（激光雷达点）训练，但测试时需要生成所有体素的语义占用。

激光雷达分割：对应点查询形式，预测给定点的语义标签。注意仍使用RGB图像输入。

语义场景补全（SSC）：使用体素标签监督训练。该任务对应体素查询形式。评估时，场景补全使用IoU（忽略类别），SSC使用mIoU。

4.2 实施细节

3D语义占用预测和激光雷达分割：训练时使用交叉熵损失和lovasz-softmax损失。其中3D语义占用预测会从稀疏点云生成逐体素的伪标签（不含点的体素标记为空），损失函数均使用体素预测；激光雷达分割任务使用点预测计算lovasz-softmax损失，体素预测计算交叉熵损失以提高点分类精度并避免语义模糊。

语义场景补全：使用MonoScene的损失。