DETRs with Collaborative Hybrid Assignments Training论文笔记

news/2025/4/27 4:45:18/文章来源:https://blog.csdn.net/xijuezhu8128/article/details/132456190

Title：[DETRs with Collaborative Hybrid Assignments Training

Code

文章目录

1. Motivation
2. one to one VS one to many
3. Method
- （1）Encoder feature learning
- （2）Decoder attention learning

1. Motivation

当前的DETR检测器中，为了实现端到端的检测，使用的标签分配策略是二分匹配，使得一个ground-truth只能分配到一个正样本。分配为正样本的queries太少，从而导致对encoder的输出监督过于稀疏（sparse）。

与二分匹配相反，在传统的检测器（如Faster-RCNN、ATSS）中，一个ground-truth会根据位置关系分配到多个anchor作为正样本。这种标签分配方式能够为特征图上的更多区域提供位置监督，就能让检测器的特征学习得更好。

Co-DETR的关键就是利用通用的one-to-many label assignments来提高DETR检测器训练encoder和decoder的有效性及效率。

2. one to one VS one to many

为了比较这两种不同的标签分配方法在Encoder特征图上的差异，论文直接把Deformable-DETR的decoder换成了ATSS head，使用相同的可视化方法进行了比较，效果如下：
在这里插入图片描述
很明显，一些显著区域中的特征在one to many matching方法中被充分激活，但在one to one matching中很少被激活。因此，论文认为正是这两种分配方式的差异使得DETR模型中的encoder特征表达能力减弱了。

在这里插入图片描述
同时，作者还对encoder生成的特征表示和decoder中的attention进行了定量分析：

左边的IoF-IoB曲线表明ATSS相较于Defomable DETR更容易区分前景和背景；
右边的IoF-IoB曲线表明Group DETR（其将更多的正样本query引入到decoder中）和Co-Deformable-DETR拥有更多的正样本query，其更有利于cross attention的学习。

最终的结论同样是：一对一匹配相比于一对多匹配会分别损害encoder特征和decoder中attention的学习。

3. Method

在这里插入图片描述

为了能够让DETR检测器利用到一对多匹配的优势，论文基于DETR的训练框架引入了两点改进，分别对应到上文提到的encoder feature learning和decoder attention learning。

Co-DETR只在训练阶段加入辅助检测头，因此仅在训练阶段中引入额外的计算开销，不会影响到模型推理的效率。

（1）Encoder feature learning

在上文的分析中，我们发现在encoder后插入一个传统的ATSS检测头就能让encoder的特征更加显著。

受到这个的启发，为了增强encoder的学习能力，论文首先利用multi-scale adapter，将encoder输出的特征转化为多尺度的特征。

对于使用单尺度特征的DETR，这个adapter的结构就类似于simple feature pyramid。而对于多尺度特征的DETR，这个结构就是恒等映射。之后我们将多尺度的特征送入到多个不同的辅助检测头，这些检测头都使用一对多的标签分配。

由于传统检测器的检测头结构轻量，因此带来的额外训练开销较少。

（2）Decoder attention learning

为了增强decoder的attention学习，我们提出了定制化的正样本query生成。

在上文的分析中，我们发现传统检测器中的anchor是密集排列的，且能够提供dense且尺度敏感的监督信息。

那么我们能不能把传统检测器中的anchor作为query来为attention的学习提供足够的监督呢？当然是可以的，在上一步中，辅助的检测头已经分配好了各自的正样本anchor及其匹配的ground-truth。

我们选择直接继承辅助检测头的标签分配结果，将这些正样本anchor转化为正样本query送到decoder中，在loss计算时无需二分匹配，直接使用之前的分配结果。

与其他引入辅助query的方法相比，这些工作会不可避免地引入大量的负样本query，而我们只在decoder引入了正样本，因此带来的额外训练代价也较小。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/50022.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【C#学习笔记】数据类中常用委托及接口——以List＜T＞为例

【C#学习笔记】数据类中常用委托及接口——以List＜T＞为例

文章目录 List\<T\>/LinkedList \<T\>为什么是神？（泛型为什么是神）一些常见，通用的委托和接口ComparisonEnumerator List<T>/LinkedList <T>为什么是神？（泛型为什么是神&#xff0…

阅读更多...

打印技巧——word中A4排版打印成A3双面对折翻页

打印技巧——word中A4排版打印成A3双面对折翻页

在进行会议文件打印时，我们常会遇到需要将A4排版的文件，在A3纸张上进行双面对折翻页打印，本文对设置方式进行介绍： 1、在【布局】选项卡中，点击右下角小箭头，打开页面设置选项卡 1.1在【页边距】中将纸张…

阅读更多...

发力服务业务，龙湖集团半程领跑赢在“智慧”

发力服务业务，龙湖集团半程领跑赢在“智慧”

成立三十载，龙湖集团一直是房地产行业“特立独行”的存在。一方面，龙湖在对外战略方面长期量入为出，从不背上过重的“包袱”。不久前，一则消息引发市场关注：龙湖集团提前偿还17亿元债务，已基本全部还清…

阅读更多...

Unity 3D之利用Vector3 计算移动方向，以及实现位移多少

Unity 3D之利用Vector3 计算移动方向，以及实现位移多少

文章目录先分析代码，从代码中了解Vector3 moveDirection new Vector3(10f, 0f, 100f);合法吗Vector3 moveDirection new Vector3 (xf,yf,zf)不是用来表示三维坐标的怎么表示在某个方向的位移先分析代码，从代码中了解这段代码是一个在游戏开发中常见…

阅读更多...

基于Jenkins自动打包并部署docker、PHP环境，ansible部署-------从小白到大神之路之学习运维第86天

基于Jenkins自动打包并部署docker、PHP环境，ansible部署-------从小白到大神之路之学习运维第86天

第四阶段提升时间：2023年8月23日参加人：全班人员内容： 基于Jenkins部署docker、PHP环境目录一、环境部署 （一）实验环境，服务器设置 （二）所有主机关闭防火墙和selinu…

阅读更多...

【案例】登录注册

【案例】登录注册

<template><div class"loginhome"><Header :butShow"butShow"></Header><div class"formdiv"><div style"text-align:center;padding:10px;"><h3>你好登录账号{{ stauts 3? 注册:登录 }}…

阅读更多...

光谱成像系统视觉均匀校准积分球光源

光谱成像系统视觉均匀校准积分球光源

数字相机的光谱灵敏度是成像传感器、光学透镜、滤光片以及相机内部图像处理过程等诸多因素的综合结果。即使是同一台相机，采用不同的光学镜头和不同的滤光片，由于光学系统的结构和光学材料的透过率不同，导致整个成像系统的光谱灵敏度也有所差…

阅读更多...

大数据数据仓库

大数据数据仓库

一.在线教育 1.数据采集 1.数仓概念数据仓库是为企业制定决策，提供数据支持的。数据采集和存储、对数据进行计算和分析 2.项目架构 2.数据分类业务数据用户行为数据爬虫数据 2.离线数仓 3.实时数仓

阅读更多...

LVS之keepalived

LVS之keepalived

1、keepalived 概述总结：Keepalived 软件就是通过VRRP协议来实现高可用功能。应用场景：企业应用中，单台服务器承担应用存在单点故障的危险单点故障一旦发生，企业服务将发生中断，造成极大的危害 VRRP通信原理&…

阅读更多...

gRpc的四种通信方式详细介绍

gRpc的四种通信方式详细介绍

🌷🍁 博主猫头虎带您 Go to New World.✨🍁 🦄 博客首页——猫头虎的博客🎐 🐳《面试题大全专栏》文章图文并茂🦕生动形象🦖简单易学！欢迎大家来踩踩~🌺 &a…

阅读更多...

微服务 Eureka

微服务 Eureka

Eureka Eureka是Netflix开源的一个用于构建基于微服务架构的服务发现和注册中心技术。在微服务架构中，系统被拆分成多个小型、自治的服务，每个服务负责特定的业务功能。这些服务需要能够相互发现和通信，这就是Eureka所提供的功能。 Eureka主…

阅读更多...

网络互联与互联网 - TCP 协议详解

网络互联与互联网 - TCP 协议详解

文章目录 1 概述2 TCP 传输控制协议2.1 报文格式2.2 三次握手，建立连接2.3 四次挥手，释放连接 3 扩展3.1 实验演示3.2 网工软考 1 概述在 TCP/IP 协议簇中有两个传输协议 TCP：Transmission Control Protocol，传输控制协议&…

阅读更多...

利用tidevice+mysql+grafana实现ios性能测试

利用tidevice+mysql+grafana实现ios性能测试

利用tidevicemysqlgrafana实现ios性能测试 1.什么是tidevice？ tidevice是一个可以和ios设备进行通信的工具，提供以下功能： 截图获取手机信息ipa包的安装和卸载根据bundleID 启动和停止应用列出安装应用信息模拟Xcode运行XCTest&#xff0c…

阅读更多...

机器学习深度学习——针对序列级和词元级应用微调BERT

机器学习深度学习——针对序列级和词元级应用微调BERT

👨‍🎓作者简介：一位即将上大四，正专攻机器学习的保研er 🌌上期文章：机器学习&&深度学习——NLP实战（自然语言推断——注意力机制实现） 📚订阅专栏：机…

阅读更多...

【C++设计模式】用简单工厂模式实现按汽车重量输出汽车类型

【C++设计模式】用简单工厂模式实现按汽车重量输出汽车类型

2023年8月24日，周四凌晨 #include<iostream>class CarType{ public:virtual std::string getType()0; };class MiniCar:public CarType{ public:std::string getType() override{return "小型车";}; };class MidSizeCar:public CarType{ public:std…

阅读更多...

游戏出海需知：Admob游戏广告变现策略

游戏出海需知：Admob游戏广告变现策略

越来越多的出海游戏公司更加重视应用内的广告变现，而 AdMob因为其提供的丰富的广告资源，稳定平台支持，被广泛接入采用。 Admob推出的广告变现策略包括bidding、插页式激励视频、开屏广告、各种细分功能的报告等等。一、Bidding 竞价策略 …

阅读更多...

CSS background 背景

CSS background 背景

background属性为元素添加背景效果。它是以下属性的简写，按顺序为： background-colorbackground-imagebackground-repeatbackground-attachmentbackground-position 以下所有示例中的花花.jpg图片的大小是4848。 1 background-color background-col…

阅读更多...

解决docker无法执行定时任务问题

解决docker无法执行定时任务问题

背景在docker里面想创建定时任务，但是发现时间到了并没有执行，第一时间想到应该是没有开启crond服务，然后执行systemctl status crond.service报错如下所示： System has not been booted with systemd as init system (PID 1).…

阅读更多...

ReactNative 密码生成器实战

ReactNative 密码生成器实战

效果展示图使用插件 Formik 负责表单校验、监听表单提交、数据校验错误信息展示 Yup 负责表单校验规则分析页面从上述的展示图我们可以看到的主要元素有：输入框、单选按钮和按钮。其中生成的密码长度不可能很大也不可能为负数和 0，所以我们可以限…

阅读更多...

QGraphicsItem的缩放

QGraphicsItem的缩放

QgarphicsItem是Qt视图体系中的项。QGraphicsItem本身是不支持鼠标拖动来缩放的，本文介绍如何通过更改鼠标事件来修改项的大小。下文代码实现的功能为：按住shift，再用鼠标拖动，可以改变Box的大小。定义类Boxclass Box:public QG…

阅读更多...

最新文章