基于语义和几何约束的方法
1. Deep3DBox
3D Bounding Box Estimation Using Deep Learning and Geometry [CVPR2017]
- https://arxiv.org/pdf/1612.00496.pdf
- https://zhuanlan.zhihu.com/p/414275118
核心思想:通过利用2D bounding box与3D bounding box之间的几何约束,结合相机内参以及目标的物理尺寸和朝向信息,构造方程组求解出目标的位置信息
基于2D Box预测3D Box时的假设:3D Box在图像平面上的投影应该与其对应的目标的2D Box紧密贴合。如Figure 2所示,目标的2D Box的四条边都分别包含至少1个3D Box的角点投影
2. CenterNet3D
CenterNet3D: An Anchor Free Object Detector for Point Cloud
- https://arxiv.org/pdf/2007.07214.pdf
CenterNet3D:回归2D框的中心点
Centernet检测头在点云3D检测和BEV检测上也适用,如Centerpoint,BEVDet、BEVDepth
- 2D框的中心点和3D投影点的位置偏差,距离越近越大,特别是截断物体偏差很大,所以不用2D框中心索引3D信息(不准确)
- Center3D:
- backbone:dla3d
- 分类头:heatmap分类信息,focal loss,分类标签是高斯形状
- 回归头:8个通道,(1,2,3,2)=(depth,keypoint_量化误差,长宽高,航向角)
3. KM3D
Monocular 3D Detection with Geometric Constraints Embedding and Semi-supervised Training
- https://arxiv.org/pdf/2009.00764.pdf
- RTM3D:https://arxiv.org/pdf/2001.03343.pdf
KM3D:回归3D投影点+3D数据增强
KM3D的几何推理模块(GRM)代替了RTM3D的后处理
- 网络结构继承CenterNet,backbone是dla34,回归头类别一样
- 分类头回归的是3D投影点信息
- 数据增强:
- 外观增强(内外参不用变换):颜色抖动,随机mask
- 几何信息增强(内外参要变换):图像仿射变换,缩放等
- 3D数据增强
- 提点最明显:带iou碰撞的Mixup,涨点4.5
- CutPaste涨点4.2
- Pix-aug + mosaic掉点,其余的均有涨点
- Pedestrian和Cyclist因为样本数量较少,不具备参考意义