3DIoUMatch: Leveraging IoU Prediction for Semi-Supervised 3D Object Detection

论文链接：https://arxiv.org/pdf/2012.04355.pdf
代码链接：https://github.com/yezhen17/3DIoUMatch
作者单位：Stanford University等
发表平台：CVPR 2021

1. 摘要（Abstract）

半监督领域伪标签存在问题：

只使用teacher network预测出的pseudo-label并不准，含噪太多，根本没法训练
- 分类得分进行过滤，还是含噪太多；
- 基于IoU的定位难点是难以设置合适的阈值。如果阈值太低，噪声过多；如果阈值太高，保留下来的pseudo label太少，不利于训练

2. 相关工作（Related Work）

3. 文章主体

因此，作者提出了一种two-stage的过滤策略：输入label和unlabel data → label data直接送入student network，unlabel data送入teacher network得到pseudo label → labels 和pseudo labels用于监督student训练，如下图。

在这里插入图片描述

如何对indoor和outdoor scene同时有效：
- 分别采用了两个不同的框架处理不同场景的任务，利用VoteNet处理indoor scene，利用PV-RCNN处理outdoor scene
生成高质量的pseudo label：直接只用pseudo label或者只利用classification进行过滤，并不能取得好的效果。因此，尝试引入IoU作为localization score。基于IoU的过滤可分为两个阶段（two-stage）：
- 第一阶段：用一个比较低的IoU阈值进行第一次过滤，但是过滤完依然会存在大量的重复框
- 第二阶段：利用改进的NMS去除重复框。这里作者有两点考量：
  - 1.作者认为通用的NMS仅仅使用了object score而忽略了localization score，因此不太准；
  - 2.作者认为并不用完全去除重复框，因为过于苛刻的阈值设计会导致pseudo label特别少从而影响student network的训练。所以，作者考虑了一种lower-half suppression，其实就是把重复框按照分类得分和定位得分去除一半。