论文速读：通过目标感知双分支蒸馏进行跨域目标检测（CVPR2022）

原文标题：Cross Domain Object Detection by Target-Perceived Dual Branch Distillation

中文标题：通过目标感知双分支蒸馏进行跨域目标检测

论文地址： https://arxiv.org/abs/2205.01291

代码地址： GitHub - Feobi1999/TDD

这篇文章是由中科院深圳先进研究院、商汤科技研究院、北航等机构发布的

1、摘要

跨域目标检测是一项现实且具有挑战性的任务。由于数据分布的大幅偏移和目标域数据缺乏详细的标注信息，跨域目标检测性能往往不尽人意。为了解决这个问题，作者提出了一种新颖的目标感知双分支蒸馏（TDD）框架。通过将源域和目标域的检测分支集成在统一的师生学习方案中，可以有效地减少域漂移，并产生可靠的监督。首先在两个域之间引入一个不同的目标提案感知器，它通过迭代交叉注意来促使目标感知上下文，自适应增强源检测器对目标图像中的目标的感知能力。随后设计了一种简洁的双分支自蒸馏策略用于模型训练，该策略可以通过两个分支的自蒸馏逐步集成来自不同领域互补对象的知识。最后对跨域目标检测中的许多广泛使用的场景进行了广泛的实验，结果表明，作者的 TDD 在所有基准测试中都显著优于最先进的方法。

2、Introduction

2.1、跨域目标检测面临的挑战和困难

在先进的深度神经网络的帮助下，目标检测取得了显著的成功；然而在自动驾驶和移动机器人等现实应用中，它仍然面临挑战；由于天气、照明、物体外观等各种条件，数据差异往往很大。因此近年来，跨域目标检测受到了广泛的关注；这个问题有两个难点。首先，目标检测更容易受到域漂移的影响；其主要原因是目标检测侧重于实例级预测，对各种图像风格和内容的目标变化更为敏感。其次，目标标注信息的获取成本和劳动强度较高，导致在新领域中缺乏对目标有监督式判别。这两者都不可避免地降低了目标域的检测性能。

2.2、现有方法的瓶颈和局限

近年来，人们提出了几种跨域目标检测方法；遗憾的是它们大多集中在域漂移或标签上的缺陷，这限制了它们在跨域目标检测中的能力。例如，领域自适应domain adaption方法提出通过对抗性训练来减少领域漂移；在这种对抗设计中，除了模型优化不稳定外，网络的识别能力也受到限制；如下图1所示，基于对抗性的GPA往往会对目标域特征显著的区域产生错误的预测。半监督方法UBT缺乏对雾中物体的感知，而基于对抗性的GPA试图识别雾中的物体，但给出了一些错误的预测，例如第一排是摩托车，第二排是人。作者的方法可以更准确地预测边界框和物体类别。

基于自训练的方法从半监督学习的角度研究问题，并提出通过标签蒸馏生成伪对象监督。通过这种方式，许多先进的半监督方法可以转移到这个任务中。然而这些方法往往不足以处理复杂的领域转移,像UBT这样的半监督方法很难感知目标域中的目标,因此这两种解在跨域目标检测中都不能令人满意。

2.3、本文提出的方法

在此基础上，作者提出了一种新的目标感知双分支蒸馏（TDD）框架，该框架可以在简洁的双分支检测网络中通过对象感知和知识蒸馏有效地解决领域转移和标签缺陷问题。具体来说，该的网络由一个源自适应分支（source-adaptive branch）和一个类目标分支（target-like branch）组成，这两个分支都被精心设计以面向目标来减少域转移。对于源自适应分支，作者引入了一个独特的目标提案感知器（distinct Target Proposal Perceiver），它利用迭代交叉注意力（iterative cross-attention）来发现每个提案的目标域上下文；它可以自适应增强源分支以感知目标域图像中的对象。对于类目标分支，将源域的图像转换为类目标域的图像，通过使用这些已标注的图像训练该分支，可以可靠地学习目标域的判别性目标知识。最后，作者设计了一种简明的双分支自蒸馏网络训练策略，这是一个定制的mean-teacher风格框架，用于从源自适应分支和类目标分支生成目标域图像的伪标签注释。通过以上精心设计的三个训练步骤，即联合域预训练、跨域蒸馏和双教师提炼，我们可以逐步整合来自不同领域的互补目标知识，以促进跨领域目标的检测。

2.4、本文贡献

综上所述，本文有以下贡献。首先，作者开发了一种新颖的目标感知双分支蒸馏（TDD）框架，该框架利用两个不同的检测分支通过统一的师生学习方式来解决域漂移和标签缺陷问题。其次，作者引入了一个智能目标提案感知器模块，它可以通过提案上下文中的交叉注意转换器自适应地引导源检测分支感知目标域对象。最后，作者对许多广泛使用的基准进行了广泛的实验，本文的 TDD 大大优于最先进的方法。

3、Related Work

3.1、目标检测

目标检测（Object detection）是计算机视觉的基本任务之一。近年来，在深度神经网络强大的表示能力的推动下，目标检测取得了良好的性能。以往的工作大致可分为两级和单级探测器。最近，一些基于无锚（anchor-free）和transformer的方法也在检测任务中脱颖而出。

3.2、跨域目标检测（Cross domain object detection）

首先，有研究提出图像和实例层域分类器，通过对抗学习的方式实现特征对齐。在此基础上，有研究分别针对局部特征和全局特征实施强-弱对齐策略（strong-weak alignment strategy）。有研究采用多级域特征对齐（multi level domain feature alignment）。也有研究在多标签分类模型的帮助下，利用图像级和实例级预测之间的分类一致性。还有研究提出了一种中心感知特征对齐（center-aware feature alignment）方法，允许判别器聚焦于来自目标区域的特征。其他一些研究在对抗性学习阶段增加了额外的限制或者强调处理前景和背景特征的不同策略。

另一种主流方法致力于解决目标域标注不准确的问题。有研究使用目标域中的原始标记数据和经过精炼改进的机器生成伪标签来重新训练目标检测器。有研究从半监督学习的角度出发，并将目标之间的关系融入师生模块一致性成本的度量中。也有研究提出了一种同时利用类源（source-like）图像和类目标（target-like）图像的跨域蒸馏（cross-domain distillation）方法，它采用软标签和实例选择的方法来解决Mean-Teacher中的模型偏差；与之不同的是，作者的方法提出了一个双分支框架和一个跨领域感知器，用于师生相互学习。

3.3、半监督目标检测（Semi-supervised object detection）

当训练集只有一部分注释时，半监督目标检测试图解决这个问题。在此背景下，有研究提出了一种基于一致性的方法，强制输入图像及其翻转版本之间保持预测一致性。有研究使用少量已标注的数据预先训练检测器，并在未标注数据上生成伪标签来微调预训练检测器。有研究提出了采用强增强和弱增强来改进平均教师法，通过EMA训练可以得到更准确的伪标签。这些方法由于数据集相似，可以很容易地应用于跨域目标检测问题，但它们没有考虑到数据域之间的差异性，这不可避免地限制了它们的检测性能。

4、Proposed Methods

4.1、Overview

如下图所示，作者提出了一个新的目标感知双分支蒸馏框架（TDD），它同时解决了跨域目标检测任务中域漂移和缺乏标注信息的问题。

首先，作者从输入图像的角度介绍了一个风格迁移（Style Transfer）模块，它用于将源域图像转换为类似目标域的样式，从而可以通过这种类似目标域的迁移域来弥合领域差距。此外，由于类目标域图像继承了相应源域图像的标签注释，因此可以在类目标域中用作额外的目标监督。在本文中主要使用一种简洁有效的傅立叶变换方法作为该模块。

其次，从模型体系架构的角度设计了一种新型的双分支检测网络。通过这种设计，可以有效地从不同的领域提取互补的目标知识，从而提高目标图像上的目标检测性能。该网络由一个共享权重的提案提取器（proposal extractor）和两个单独的检测分支组成；前者允许构造所有图像的域不变特征空间，用于域泛化；而后者保留了每幅图像的域特定目标特征，用于域区分；具体两个检测分支分别是源自适应(Source-Adaptive，SA)分支和类目标(Target-Like，TL)分支；作者使用源域图像的提案来训练SA分支，同时用类目标域图像的提案来训练TL分支；此外，将真实目标域图像的提案发送到两个分支中，以便从源域和类目标域学习对象知识。但是源域可能与目标域有很大不同，在这种情况下，如果没有任何面向目标域的引导，就无法在 SA 分支中准确地检测到目标域图像的提案。为了解决这个问题，作者设计了一种新颖的目标提案感知器（Target Proposal Perceiver），它巧妙地在两个分支中的提案特征之间使用迭代交叉注意；在这种情况下，作者利用TL分支的上下文提案作为指导，可以有效地指导SA分支感知目标域中的目标提案。

最后，作者从有监督的角度介绍了一种简洁的双分支自蒸馏方法。如前所述，目标域中的所有图像都没有任何标注信息，因此在目标域产生可靠的监督是至关重要的。由于双分支网络可以从SA和TL分支的协同合作中构造出每个目标域图像的鉴别伪标签，为了有效地利用这些伪标签，自蒸馏是基于师生相互学习的，它可以在训练过程中动态调整教师分支，逐步提高两个分支的目标域监督。