BevDet是一个LSS-Based的实时高性能的多相机3D检测模型,它用4阶段的范式去做3D目标检测,设计上同时支持Segmentation。何谓4阶段范式:
- 1.图像域的特征提取(
Image -view Encoder
) - 2.视角转换 (
View Transformer
) - 3.Bev空间特征提取(
BEV Encoder
) - 4.任务头
Head
它涉及 Image View Space 和 Bev Space
1. 核心介绍
1.1 模块介绍
(1) Image View Encoder
BevDet首先需要做image的特征提取,对应Image View Encoder
这部分。使用传统的ResNet-50
或SwinTransformer
作为Backbone, 在Neck部分使用FPN
或者FPN-LSS
(简化版的FPN),对16倍和32倍特征进行融合,最终得到融合后的下采样16倍的特征。