3DIoUMatch: Leveraging IoU Prediction for Semi-Supervised 3D Object Detection
论文链接:https://arxiv.org/pdf/2012.04355.pdf
代码链接:https://github.com/yezhen17/3DIoUMatch
作者单位:Stanford University等
发表平台:CVPR 2021
1. 摘要(Abstract)
半监督领域伪标签存在问题:
- 只使用teacher network预测出的pseudo-label并不准,含噪太多,根本没法训练
- 分类得分进行过滤,还是含噪太多;
- 基于IoU的定位难点是难以设置合适的阈值。如果阈值太低,噪声过多;如果阈值太高,保留下来的pseudo label太少,不利于训练
2. 相关工作(Related Work)
3. 文章主体
因此,作者提出了一种two-stage的过滤策略:输入label和unlabel data → label data直接送入student network,unlabel data送入teacher network得到pseudo label → labels 和pseudo labels用于监督student训练,如下图。
- 如何对indoor和outdoor scene同时有效:
- 分别采用了两个不同的框架处理不同场景的任务,利用VoteNet处理indoor scene,利用PV-RCNN处理outdoor scene
- 生成高质量的pseudo label:直接只用pseudo label或者只利用classification进行过滤,并不能取得好的效果。因此,尝试引入IoU作为localization score。基于IoU的过滤可分为两个阶段(two-stage):
- 第一阶段:用一个比较低的IoU阈值进行第一次过滤,但是过滤完依然会存在大量的重复框
- 第二阶段:利用改进的NMS去除重复框。这里作者有两点考量:
- 1.作者认为通用的NMS仅仅使用了object score而忽略了localization score,因此不太准;
- 2.作者认为并不用完全去除重复框,因为过于苛刻的阈值设计会导致pseudo label特别少从而影响student network的训练。所以,作者考虑了一种lower-half suppression,其实就是把重复框按照分类得分和定位得分去除一半。
4. 实验效果
定量结果
-
在ScanNet和SUN RGB-D上的结果
-
在KITTI数据集上1% labeled的结果