BEV感知算法学习
3D目标检测系列
Mono3D(Monocular 3D Object Detection for Autonomous Driving)
流程:
- 通过在地平面上假设先验,在3D空间中对具有典型物理尺寸的候选边界框进行采样;
- 然后我们将这些方框投影到图像平面上,从而避免了图像中的多尺度搜索;
- 我们通过利用多个特征对候选框进行评分:类语义、实例语义、轮廓、对象形状、上下文和位置先验;
- 经过非极大值抑制,得到最终的目标建议集。
PointPillars: Fast Encoders for Object Detection from Point Clouds
BEV系列
- LSS(Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D)
三个步骤:Lift, Splat, Shoot
1. Lift
目的:将图像从二维坐标系提升到所有相机共享的三维帧。
每个像素都分配了一组离散的深度,这样整个图像的维度就是D×H×W(跟点云一样)。对于每个像素p,网络预测了一个上下文向量c和深度分布α,点 p d p_{d} pd处的特征 c d c_{d} cd就可以表示为:
c d = α d c c_{d} = α_{d}c cd=αdc也就是说,射线上每个点的特征由α和c的外积决定。
2. Splat:Pillar Pooling