论文速读:通过目标感知双分支蒸馏进行跨域目标检测(CVPR2022)

原文标题:Cross Domain Object Detection by Target-Perceived Dual Branch Distillation

中文标题:通过目标感知双分支蒸馏进行跨域目标检测

论文地址: https://arxiv.org/abs/2205.01291

代码地址: GitHub - Feobi1999/TDD

这篇文章是由中科院深圳先进研究院、商汤科技研究院、北航等机构发布的

1、摘要

跨域目标检测是一项现实且具有挑战性的任务。由于数据分布的大幅偏移和目标域数据缺乏详细的标注信息,跨域目标检测性能往往不尽人意。为了解决这个问题,作者提出了一种新颖的目标感知双分支蒸馏(TDD)框架。通过将源域和目标域的检测分支集成在统一的师生学习方案中,可以有效地减少域漂移,并产生可靠的监督。首先在两个域之间引入一个不同的目标提案感知器,它通过迭代交叉注意来促使目标感知上下文,自适应增强源检测器对目标图像中的目标的感知能力。随后设计了一种简洁的双分支自蒸馏策略用于模型训练,该策略可以通过两个分支的自蒸馏逐步集成来自不同领域互补对象的知识。最后对跨域目标检测中的许多广泛使用的场景进行了广泛的实验,结果表明,作者的 TDD 在所有基准测试中都显著优于最先进的方法。

2Introduction

2.1、跨域目标检测面临的挑战和困难

在先进的深度神经网络的帮助下,目标检测取得了显著的成功;然而在自动驾驶和移动机器人等现实应用中,它仍然面临挑战;由于天气、照明、物体外观等各种条件,数据差异往往很大。 因此近年来,跨域目标检测受到了广泛的关注;这个问题有两个难点。首先,目标检测更容易受到域漂移的影响;其主要原因是目标检测侧重于实例级预测,对各种图像风格和内容的目标变化更为敏感。其次,目标标注信息的获取成本和劳动强度较高,导致在新领域中缺乏对目标有监督式判别。这两者都不可避免地降低了目标域的检测性能。

2.2、现有方法的瓶颈和局限

近年来,人们提出了几种跨域目标检测方法;遗憾的是它们大多集中在域漂移或标签上的缺陷,这限制了它们在跨域目标检测中的能力。例如,领域自适应domain adaption方法提出通过对抗性训练来减少领域漂移;在这种对抗设计中,除了模型优化不稳定外,网络的识别能力也受到限制;如下图1所示,基于对抗性的GPA往往会对目标域特征显著的区域产生错误的预测。半监督方法UBT缺乏对雾中物体的感知,而基于对抗性的GPA试图识别雾中的物体,但给出了一些错误的预测,例如第一排是摩托车,第二排是人。作者的方法可以更准确地预测边界框和物体类别。

基于自训练的方法从半监督学习的角度研究问题,并提出通过标签蒸馏生成伪对象监督。通过这种方式,许多先进的半监督方法可以转移到这个任务中。然而这些方法往往不足以处理复杂的领域转移,像UBT这样的半监督方法很难感知目标域中的目标,因此这两种解在跨域目标检测中都不能令人满意。

2.3、本文提出的方法

在此基础上,作者提出了一种新的目标感知双分支蒸馏(TDD)框架,该框架可以在简洁的双分支检测网络中通过对象感知和知识蒸馏有效地解决领域转移和标签缺陷问题。具体来说,该的网络由一个源自适应分支(source-adaptive branch)和一个类目标分支(target-like branch)组成,这两个分支都被精心设计以面向目标来减少域转移。对于源自适应分支,作者引入了一个独特的目标提案感知器(distinct Target Proposal Perceiver),它利用迭代交叉注意力(iterative cross-attention)来发现每个提案的目标域上下文;它可以自适应增强源分支以感知目标域图像中的对象。对于类目标分支,将源域的图像转换为类目标域的图像,通过使用这些已标注的图像训练该分支,可以可靠地学习目标域的判别性目标知识。最后,作者设计了一种简明的双分支自蒸馏网络训练策略,这是一个定制的mean-teacher风格框架,用于从源自适应分支和类目标分支生成目标域图像的伪标签注释。通过以上精心设计的三个训练步骤,即联合域预训练跨域蒸馏双教师提炼,我们可以逐步整合来自不同领域的互补目标知识,以促进跨领域目标的检测。

2.4、本文贡献

综上所述,本文有以下贡献。首先,作者开发了一种新颖的目标感知双分支蒸馏(TDD)框架,该框架利用两个不同的检测分支通过统一的师生学习方式来解决域漂移和标签缺陷问题。其次,作者引入了一个智能目标提案感知器模块,它可以通过提案上下文中的交叉注意转换器自适应地引导源检测分支感知目标域对象。最后,作者对许多广泛使用的基准进行了广泛的实验,本文的 TDD 大大优于最先进的方法。

3、Related Work

3.1、目标检测

目标检测(Object detection)是计算机视觉的基本任务之一。近年来,在深度神经网络强大的表示能力的推动下,目标检测取得了良好的性能。以往的工作大致可分为两级和单级探测器。最近,一些基于无锚(anchor-free)和transformer的方法也在检测任务中脱颖而出。

3.2、跨域目标检测(Cross domain object detection)

首先,有研究提出图像和实例层域分类器,通过对抗学习的方式实现特征对齐。在此基础上,有研究分别针对局部特征和全局特征实施强-弱对齐策略(strong-weak alignment strategy)。有研究采用多级域特征对齐(multi level domain feature alignment)。也有研究在多标签分类模型的帮助下,利用图像级和实例级预测之间的分类一致性。还有研究提出了一种中心感知特征对齐(center-aware feature alignment)方法,允许判别器聚焦于来自目标区域的特征。其他一些研究在对抗性学习阶段增加了额外的限制或者强调处理前景和背景特征的不同策略。

另一种主流方法致力于解决目标域标注不准确的问题。有研究使用目标域中的原始标记数据和经过精炼改进的机器生成伪标签来重新训练目标检测器。有研究从半监督学习的角度出发,并将目标之间的关系融入师生模块一致性成本的度量中。也有研究提出了一种同时利用类源(source-like)图像和类目标(target-like)图像的跨域蒸馏(cross-domain distillation)方法,它采用软标签和实例选择的方法来解决Mean-Teacher中的模型偏差;与之不同的是,作者的方法提出了一个双分支框架和一个跨领域感知器,用于师生相互学习。

3.3、半监督目标检测(Semi-supervised object detection)

当训练集只有一部分注释时,半监督目标检测试图解决这个问题。在此背景下,有研究提出了一种基于一致性的方法,强制输入图像及其翻转版本之间保持预测一致性。有研究使用少量已标注的数据预先训练检测器,并在未标注数据上生成伪标签来微调预训练检测器。有研究提出了采用强增强和弱增强来改进平均教师法,通过EMA训练可以得到更准确的伪标签。这些方法由于数据集相似,可以很容易地应用于跨域目标检测问题,但它们没有考虑到数据域之间的差异性,这不可避免地限制了它们的检测性能。

4、Proposed Methods

4.1、Overview

如下图所示,作者提出了一个新的目标感知双分支蒸馏框架(TDD),它同时解决了跨域目标检测任务中域漂移和缺乏标注信息的问题。

首先,作者从输入图像的角度介绍了一个风格迁移(Style Transfer)模块,它用于将源域图像转换为类似目标域的样式,从而可以通过这种类似目标域的迁移域来弥合领域差距。此外,由于类目标域图像继承了相应源域图像的标签注释,因此可以在类目标域中用作额外的目标监督。在本文中主要使用一种简洁有效的傅立叶变换方法作为该模块。

其次,从模型体系架构的角度设计了一种新型的双分支检测网络。通过这种设计,可以有效地从不同的领域提取互补的目标知识,从而提高目标图像上的目标检测性能。该网络由一个共享权重的提案提取器(proposal extractor)和两个单独的检测分支组成;前者允许构造所有图像的域不变特征空间,用于域泛化;而后者保留了每幅图像的域特定目标特征,用于域区分;具体两个检测分支分别是源自适应(Source-Adaptive,SA)分支和类目标(Target-Like,TL)分支;作者使用源域图像的提案来训练SA分支,同时用类目标域图像的提案来训练TL分支;此外,将真实目标域图像的提案发送到两个分支中,以便从源域和类目标域学习对象知识。但是源域可能与目标域有很大不同,在这种情况下,如果没有任何面向目标域的引导,就无法在 SA 分支中准确地检测到目标域图像的提案。为了解决这个问题,作者设计了一种新颖的目标提案感知器(Target Proposal Perceiver),它巧妙地在两个分支中的提案特征之间使用迭代交叉注意;在这种情况下,作者利用TL分支的上下文提案作为指导,可以有效地指导SA分支感知目标域中的目标提案。

最后,作者从有监督的角度介绍了一种简洁的双分支自蒸馏方法。如前所述,目标域中的所有图像都没有任何标注信息,因此在目标域产生可靠的监督是至关重要的。由于双分支网络可以从SA和TL分支的协同合作中构造出每个目标域图像的鉴别伪标签,为了有效地利用这些伪标签,自蒸馏是基于师生相互学习的,它可以在训练过程中动态调整教师分支,逐步提高两个分支的目标域监督。

5、Conclusion

在这项工作中,作者提出了一个新的目标感知双分支蒸馏框架。通过目标建议感知器和双分支自蒸馏过程,共同解决了跨域目标检测中的域移位和标记不足问题。最后在多个基准上进行了广泛的实验,结果清楚地表明本文的TDD超越了现有的最先进的模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/56480.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在IDEA中配置Selenium和WebDriver

前言: 在当今自动化测试和网络爬虫的领域,Selenium是一个被广泛使用的工具。它不仅能够模拟用户与浏览器的交互,还能进行网页测试和数据抓取。而为了使用Selenium与谷歌/Edge浏览器进行自动化测试,配置合适的WebDriver至关重要。本…

Java--练习--DVD管理系统

一、详细代码 package demo2.Test;import java.text.ParseException; import java.text.SimpleDateFormat; import java.util.Date; import java.util.Scanner;public class DVD2 {//DVD管理系统//声明三个数组 用来存储 名称 状态 借出日期 借出次数String[] names new St…

游戏引擎哪家强?选哪一个更有钱途

游戏引擎乃是构筑及开发视频游戏的软件架构。其供应一整套工具与库,以处置常见的游戏开发事务,诸如渲染图形、模拟物理、管控音频等等。凭借对游戏引擎的运用,开发人员能够将精力倾注于构建其游戏的独特之处,而非再度发明此类基础…

【游戏模组】极品飞车12无间风云冬季mod,冬天版本的无间风云你体验过吗

各位好,今天小编给大家带来一款新的高清重置魔改MOD,本次高清重置的游戏叫《极品飞车12无间风云》。 《极品飞车12:无间风云》是由Black Box游戏制作室开发的竞速类游戏,于2008年11月18日在北美首发、2008年11月21日在欧洲先后推…

【深入学习Redis丨第八篇】详解Redis数据持久化机制

前言 Redis支持两种数据持久化方式:RDB方式和AOF方式。前者会根据配置的规则定时将内存中的数据持久化到硬盘上,后者则是在每次执行写命令之后将命令记录下来。两种持久化方式可以单独使用,但是通常会将两者结合使用。 一、持久化 1.1、什么…

MySQL【知识改变命运】04

复习: 1:CURD 1.1Create (创建) 语法: insert [into] 表名 [column[,column]] valuse(value_list)[,vaule_list]... value_list:value,[value]...创建一个实例表: 1.1.1单⾏数据全列插⼊ values_l…

Python爬虫之正则表达式于xpath的使用教学及案例

正则表达式 常用的匹配模式 \d # 匹配任意一个数字 \D # 匹配任意一个非数字 \w # 匹配任意一个单词字符(数字、字母、下划线) \W # 匹配任意一个非单词字符 . # 匹配任意一个字符(除了换行符) [a-z] # 匹配任意一个小写字母 […

CSS之一

目录 简介 CSS 语法规范 CSS 代码风格 1.样式格式书写 2.样式大小写 CSS 基础选择器 选择器分类 标签选择器 类选择器 案例之画盒子 多类型使用 id选择器 通配符选择器 font-family设置字体 字体系列 字体大小 字体粗细 文字样式 字体复合属性 示例 CSS 文…

解决关于HTML+JS + Servlet 实现前后端请求Session不一致的问题

1、前后端不分离情况 在处理session过程中,如果前后端项目在一个容器中,session是可以被获取的。例如如下项目结构: 结构 后端的代码是基本的设置值、获取值、销毁值的内容: 运行结果 由此可见,在前后统一的项目中&a…

《Linux从小白到高手》综合应用篇:详解Linux系统调优之服务器硬件优化

List item 本篇介绍Linux服务器硬件调优。硬件调优主要包括CPU、内存、磁盘、网络等关键硬件组。 1. CPU优化 选择适合的CPU: –根据应用需求选择多核、高频的CPU,以满足高并发和计算密集型任务的需求。CPU缓存优化: –确保CPU缓存&#x…

SAP导出excel报错:发现“EXPORT.XLSX“中的部分内容有问题。是否让我们尽量尝试恢复?如果您信任此工作簿的源,请单击“是”。

1.问题描述:SAP报表程序导出excel的时报错 2.问题原因 文本信息中包含了非法符号(SAP不认识的符号) 比如:NLSY10 3.解决方式,把这个文本信息特殊符号去掉,就可以恢复正常了。 怎么找这个特殊符号&#…

2019年计算机网络408真题解析

第一题: 解析:OSI参考模型第5层完成的功能 首先,我们需要对OSI参考模型很熟悉:从下到上依次是:物理层-数据链路层-网络层- 运输层-会话层-表示层-应用层,由此可知,题目要问的是会话层的主要功能…

第十五章 RabbitMQ延迟消息之延迟插件

目录 一、引言 二、延迟插件安装 2.1. 下载插件 2.2. 安装插件 2.3. 确认插件是否生效 三、核心代码 四、运行效果 五、总结 一、引言 上一章我们讲到通过死信队列组合消息过期时间来实现延迟消息,但相对而言这并不是比较好的方式。它的代码实现相对来说比…

嵌入式开发:STM32 硬件 CRC 使用

测试平台:STM32G474系列 STM32硬件的CRC不占用MCU的资源,计算速度快。由于硬件CRC需要配置一些选项,配置不对就会导致计算结果错误,导致使用上没有软件计算CRC方便。但硬件CRC更快的速度在一些有时间资源要求的场合还是非…

使用python批量替换文件夹文件名(已亲测)

1. 需要使用高版本的python,本机版本 3.12.4 2. 配置国内Python镜像源 常用的国内Python镜像源: 清华大学TUNA镜像源:这是非常受欢迎的一个镜像源,提供了高速且稳定的服务。 地址:https://pypi.tuna.tsinghua.edu.cn/simple 临时…

基于DCGM+Prometheus+Grafana的GPU监控方案

目录 前言一、指标导出器1、DCGM:获取远程节点的信息 2、 DCGM-Exporter收集多节点信息更改收集指标 二、 Prometheus - From metrics to insight修改配置文件查看收集结果 三、Grafana仪表板展示导入数据源创建仪表板更多仪表板 前言 基于DCGM(NVIDIA …

DNS安全概述

一、DNS的解析过程 1.递归解析 递归解析是一种由DNS客户端(通常是用户的应用程序,如一个浏览器)向本地DNS解析器发出解析请求,然后本地DNS解析器负责查询最终结果并将结果返回给客户端,而中间的所有查询请求都由本地D…

LabVIEW空间相机测控系统

空间相机是遥感技术中的核心设备,其在太空中的性能对任务的成功至关重要。为了确保空间相机能够在极端环境下稳定工作,地面模拟测试成为必不可少的环节。LabVIEW开发的空间相机测控系统,通过对温度、应力和应变等参数进行高精度测量&#xff…

云贝教育 |【技术文章】OpenTenBase_V2.6基于麒麟V10源码编译安装

本文为云贝教育 刘老师 原创,请尊重知识产权,转发请注明出处,不接受任何抄袭、演绎和未经注明出处的转载。 前言:什么是OpenTenBase OpenTenBase 是一个提供写可靠性,多主节点数据同步的关系数据库集群平台。你可以…

LabVIEW智能可变温循环PCT测试系统

随着全球能源危机的加剧和环境保护需求的提升,开发和利用清洁能源已成为全球必然趋势。氢能作为一种高效的替代能源,正逐步受到关注。然而,储氢技术的研究至关重要,尤其是储氢材料的PCT(Pressure-Composition-Temperat…