计算机视觉研究院 | 智慧工地：2PCNet，昼夜无监督域自适应目标检测（附原代码）

本文来源公众号“计算机视觉研究院”，仅用于学术分享，侵权删，干货满满。

原文链接：智慧工地：2PCNet，昼夜无监督域自适应目标检测（附原代码）

由于缺乏夜间图像注释，夜间目标检测是一个具有挑战性的问题。尽管有几种领域自适应方法，但实现高精度结果仍然是一个问题。

01 前景概要

在使用公认的师生框架的方法中，特别是对于小规模和低光物体，仍然可以观察到假阳性误差传播。我们提出了一种两阶段一致性无监督领域自适应网络2PCNet来解决这些问题。该网络在第一阶段使用来自教师的高置信度边界框预测，并将其附加到学生的区域建议中，供教师在第二阶段重新评估，从而产生高置信度和低置信度伪标签的组合。夜间图像和伪标签在用作学生的输入之前被缩小，从而提供更强的小规模伪标签。为了解决图像中弱光区域和其他夜间相关属性引起的错误，我们提出了一种称为NightAug的夜间特定增强管道。该管道涉及将随机增强（如眩光、模糊和噪声）应用于日间图像。在公开数据集上的实验表明，我们的方法比最先进的方法和直接在目标数据上训练的监督模型获得了20%的优越结果。

02 背景&动机

夜间目标检测在许多应用中都是至关重要的。然而，通过监督方法对注释数据的要求是不切实际的，因为带有注释的夜间数据很少，并且监督方法通常容易过度拟合训练数据。除其他原因外，这种稀缺性是由于光线条件差，使得夜间图像难以注释。因此，不假设注释可用性的方法更有优势。领域自适应（DA）是解决这一问题的有效方法，它允许使用现成的注释源日间数据集。

为了解决这个问题，我们提出了2PCNet，一种用于夜间目标检测的两阶段一致性无监督域自适应网络。我们的2PCNet将在第一阶段预测的高度自信的伪标签的边界框与学生的区域建议网络（RPN）提出的区域合并在一起。然后，教师在第二阶段使用合并后的提议来生成一组新的伪标签。这提供了高置信度和低置信度伪标签的组合。然后将这些伪标签与学生生成的预测进行匹配。然后，我们可以利用加权一致性损失来确保无监督损失的更高权重基于更强的伪标签，但允许较弱的伪标签影响训练。

配备了这种两阶段策略，我们解决了小规模对象的错误问题。我们设计了一种学生缩放技术，故意缩小学生的夜间图像及其伪标签。为了生成准确的伪标签，教师的图像保持在其全尺寸。这导致更容易预测的较大对象的伪标签被缩小到较小的对象，从而提高学生的小规模表现。夜间图像存在日间场景中未发现的多种复杂情况，如黑暗区域、眩光、突出的噪声、突出的模糊、不平衡的照明等。所有这些都造成了问题，因为接受日间图像训练的学生更倾向于日间域的特征。为了缓解这个问题，我们提出了NightAug，一组随机的夜间特定增强。NightAug包括在白天的图像中添加模拟夜间条件的人造眩光、噪音、模糊等。通过NightAug，我们能够减少学生网络对源数据的偏见，而不会导致对抗性学习或计算密集型翻译。总体而言，使用2PCNet，我们可以在图1中看到我们的结果在质量上的改进。

03 新框架设计

我们的2PCNet的体系结构如下图所示。我们的2PCNet由一个学生和一个教师网络组成。该学生是一个多域网络，在标记的白天图像（用NightAug增强）和未标记的夜间图像上进行训练。老师专注于夜间图像，为学生生成伪标签，是学生的指数移动平均值（EMA）。

在初始预训练阶段之后，教师开始产生伪标签，这允许学生初始化特征提取器和检测器。在2PCNet的第一阶段的每次迭代中，教师从夜间图像中产生伪标签。通过置信阈值对这些伪标签进行过滤。这是为了确保只给学生高置信度的伪标签。然后将来自伪标签的边界框与学生的RPN生成的区域建议相结合。合并后的区域建议然后用于从学生的RoI网络生成预测。在第二阶段，教师使用相同的合并区域建议来生成一组匹配的伪标签，其中每个伪标签都有从学生那里获得的相应预测。

Two-Phase Consistency

由于日间源图像和夜间目标图像之间存在较大的域间隙，教师无法生成高质量的伪标签。这种情况通常发生在整个场景中，但特别是对于具有强烈夜间特征的区域，例如弱光、眩光、不均匀照明等。教师只为与白天有更多相似性的区域生成自信的伪标签，因为它偏向于白天域。这种偏差给使用硬阈值来过滤分类交叉熵损失的伪标签的方法带来了问题。剩下的伪标签只包含具有日间属性的简单样本。因此，学生不会从较难（例如较暗）的区域学习。

由于对难样本（即具有高水平夜间属性的区域）的了解最少，教师开始预测高度自信但不正确的伪标签。当老师向学生提供这些不正确的伪标签时，一个粘性循环开始了，老师反过来用不正确的知识更新。因此，错误通过训练继续传播。在我们的案例中，这些误差明显发生在黑暗/眩光区域和小尺度物体中。为了解决错误传播的问题，我们设计了一种两阶段的方法，将高置信度的伪标签与其不太置信度的对应标签结合在一起。这种组合允许自信标签的高精度，并将不太自信标签的额外知识提炼到学生身上。

（从左到右，从上到下）GT边界框，教师预测的具有非极大抑制（NMS）和阈值（Bp）的边界框，由Bp指导的学生预测的边界框（Bstudent），以及教师预测的一致性损失的边界框。

Student-Scaling

为了确保不会忘记先前标度的知识，应用了标度因子的高斯函数。高斯函数的范数是从调度值中获得的。为了防止由于伪标签太小而产生额外的噪声，将去除面积低于阈值的标签。

NightAug

夜间图像有一系列日间场景中没有的复杂情况。这导致了师生框架中的一个问题，即学生会偏向于源领域。以前的方法试图解决这个问题，但要么需要计算密集型翻译，要么在框架中添加额外的领域分类器，这使训练变得复杂。我们提出了NightAug，一种夜间特定的增强管道，它是计算光，不需要训练。NightAug由一系列增强组成，目的是引导白天图像的特征与夜间图像的特征相似。