1.HDMapNet
整体的网络架构如图所示,最终的Decoder输出三个分支,一个语义分割,一个embedding嵌入分支,一个方向预测。然后通过后处理将这些信息处理成向量化的道路表示。
img2bev的方式之前有IPM,通过假设地面的高度都为0来完成转换,但是因为存在地面倾斜和车的颠簸,我们并不能保证车道线被正确投影到BEV上。而LSS的话,由于没有显式的深度作为监督,所以效果也不是很好。这里我们采用VPN的方式,使用全连接网络来学习如何进行视角变换。
埋坑:这里的后处理是如何进行一个向量化的道路表示?
2.MapTR
使用纯相机来生成在线高精地图,img2bev使用的地平线提出的GKT方法,对于BEV query,先通过内外参得到其在图像上的先验位置(可能对应多张图),并提取附近w*h核区域的特征,然后和bev query做交叉注意力机制。
3.SuperFusion
采用多层级的图像点云特征融合来做。
首先是数据层面的融合,先将点云投影到图像,然后稀疏深度与图像进行concate,同时利用双线性插值得到密集深度图,对LSS的深度估计进行监督。
特征层面的融合,将点云的BEV特征作为Q去查询图像的特征,做cross-attention得到新的BEV特征,并通过一系列的卷积融合。得到点云BEV最终特征。
BEV层面的融合,将图像特征通过LSS转到BEV后,与点云BEV特征融合,但是由于内外参以及深度估计误差,所以直接concate会导致特征对不齐。所以它先concate然后学习一个flow field,根据据flow field对图像BEV特征进行重新计算(每个位置一个流动方向,然后双线性插值得到流动后的特征来作为当前图像BEV特征),然后再将两者concate。