文章目录
- 1. LSS-Based
- 1.1 BevDet
- 1.2 BevDepth
- 1.3 BevStereo
- 1.4 SoloFusion
- 1.4 VideoBev
- 1.5 总结
- 2. Bev IPM Based(3D to 2D)
- 2.1 Bevformer v1
- 2.1 Bevformer v2
- 2. sparse query
- 2.1 petr v1
- 2.2 petr v2
- 2.3 stream petr
- 2.4 DETR 3d
- 2.5 sparse4D
- sparse4D v1
1. LSS-Based
1.1 BevDet
通过Lift splat 对于2d 特征中的每个pixel(特征点)估计一个3d的深度分布,这样就可以将2d点投影到3d空间上。这样就可以拿到UVD个3d特征点,然后通过voxel pooling 对高度方向拍平, 这样就得到Bev空间的特征图。然后再通过Bev encoder以及任务头。
BevDet的网络结构如上图所示,它实现了多视角的特征融合。还需要实现时序的融合,这个扩展就想对比较简单了。
- 将上一帧的Bev特征,通过ego pose 对齐到当前帧的Bev空间中
- 然后和当前帧的Bev特征进行特征维度的concate。
- 然后接Bev encoder 和 Bev Head, 这样就拿到了带2帧时序特征信息的融合。
1.2 BevDepth
Lift splat第一步就是做深度估计,