DEYOv2: Rank Feature with Greedy Matchingfor End-to-End Object Detection

摘要

与前代类似, DEYOv2 采用渐进式推理方法 来加速模型训练并提高性能。该研究深入探讨了一对一匹配在优化器中的局限性,并提出了有效解决该问题的解决方案,如Rank 特征和贪婪匹配 。这种方法使DEYOv2的第三阶段能够最大限度地从第一和第二阶段获取信息,而 无需 NMS ,实现端到端优化 。通过组合密集查询、稀疏查询、一对多匹配和一对一匹配,DEYOv2 充分利用了每种方法的优势。与端到端模型DINO 相比, DEYOv2 在两个 epoch 设置中提供了 2.1AP 1.4AP 的显著性能提升。据我们所知,DEYOv2是第一个完全端到端的对象检测器,它结合了经典检测器和基于查询的检测器的各自优势。

1、介绍

经典检测器有一个共同点,它们严重依赖手工制作的组件,如非极大值抑制( NMS )。因为这些检测算法通常输出多个候选边界框,每个边界框对应于可能存在对象的区域。然而,这些候选框之间往往存在重叠或冗余,需要进行筛选和优化。
尽管 NMS 是一种有用的对象检测算法,但它确实有一些局限性。有一个问题是,他 可能会无意中删除与 得分最高的边界框明显重叠的边界框 尤其是在对象密集或大小相似的区域 。此外, NMS 的有效性可能会受到所选IoU 阈值的影响,这可能会导致检测结果的显著变化。在稀疏场景中,它可能会成为经典检测器的性能瓶颈。
检测转换器 DETR 提出了一种创新的基于转换器的对象检测器,该检测器利用了基于转换器的编码器 - 解码器框架。DETR 不依赖 NMS 的手动组件,而是使用匈牙利损失来预测一对一的对象集 ,带来端到端优化。NMS 在拥挤场景中表现不佳,因为它只根据 IoU 和类别简单信息对对象进行集群, 可能会将大小相 似的不同对象分组为一组 。相反, DETR 利用查询之间的交互来利用更复杂的信息并区分它们之间的关系。与NMS 相比,这种方法使 DETR 预测一对一对象集的策略更加合理, 从而在拥挤场景中比使用 NMS 的经典检测器具有更好的性能。
尽管 DETR 引起了研究界的极大兴趣,但它也存在许多问题。首先,应该注意的是, DETR 的收敛速度很慢,需要500 个训练 epoch 才能获得可接受的性能。然而, DEYO 算法从循序渐进的思想中获得了灵感,
为改进 DETR 提供了一个新的视角。 DEYO 使用低成本和高质量 YOLO 预测作为第二阶段 DETR-like 模型 的输入,以降低 DETR-like 模式预测一对一对象集的难度。 DEYO 结合了经典检测和基于查询的检测器各自的优势,从而提高了整体性能。同时, DEYO 也发现了一对一标签分配的局限性 。由于 DETR 使用一对一匹配,因此采用了建立分数差距的策略来抑制冗余的边界框 。这意味着 解码器需要对查询之间的关系 进行建模,并区分最佳和冗余边界框 DEYO 的实验表明,解码器在处理大量几乎相似的冗余边界框方面非常弱。随着proposal 查询的拥塞增加,性能逐渐降低,甚至在不使用 NMS 时训练崩溃。如图 3 所示,随着IoU 阈值的升高,这意味着拥塞增加的查询被输入解码器,性能也会下降,并且当不使用 NMS时,AP 会骤降至 0 。我们发现,在后处理中使用具有低 IoU 阈值的 NMS 并不能缓解这种性能下降。这表明影响最终性能的不仅仅是冗余边界框,但是丰富的bounding box 也严重阻碍了探测器在训练过程中的训练和优化。上述现象表明,基于查询的检测器的过滤能力有限,其对边界框的抑制策略不好,并且对查询初始化有严格要求,这在一定程度上限制了基于查询检测器的设计。DEYO 简单地通过使用 NMS 滤掉冗余的边界框来解决这个问题 ,但如图 9 所示,由于 NMS-IoU 阈值的降低,第一阶段的有效信息损失更大,这不仅破坏了DETR 的端到端优势,还限制了第一阶段的高效信息传输。就像经典的探测器一样,这个问题在拥挤的场景中会加剧。那么,有没有一种方法可以减少信息丢失,实现更优雅,并避免冗余边界框引起的优化?DEYOv2 通过引入 Rank 特征和贪婪匹配 来解决上述问题。 Rank 特征是指通过 置信度对边界框进行排序并通过嵌入进行编码后的 Rank 特征 。将其添加到解码器的查询中,可以使检测器更容易地学习到非极大值抑制策略,从而使检测器面临拥挤的环境。边界框仍然可以保持良好的过滤 效果。贪婪匹配可以不使用额外的标签,使用 GT 作为基准,对每个边界框进行聚类和监督,并引导模型 从每个类中选择具有最大 Rank 的边界框来保留 Rank 特征和贪婪匹配启用 DEYOv2 在从一对多标签分配到一对一标签分配的过度过程中摆脱对NMS 的依赖,它解决了 Transformer 编码器在过滤冗余边界框以实现端到端优化时遇到的优化问题。
在本文中,我们提出了一种称为 DEYOv2 的三阶段对象检测网络的新范式,据我们所知,它是第一个完全端到端的检测器,它结合了经典检测器和基于查询的对象检测器的各自优势。因此,我们的DEYOv2成为端到端目标检测器的新技术。
贡献
1 )我们 提出了第一个完全端到端的对象检测器 ,该检测器结合了经典检测器和基于查询的对象检测器各自的优点,它不仅优于目前最好的端到端检测器,而且不需要依赖手动组件NMS 来过滤掉阶段 1 的冗余边界框,因此推理速度不会延迟并保持稳定。
2 )我们深入分析了冗余 bounding boxes 对端到端优化的影响,并 提出了 Rank 特征和贪婪匹配 ,以使用更合理的策略来过滤掉大量密集的冗余bounding box

2、动机

结合前面的讨论,我们认为 DETR 的解码器在建立每个边界框之间的关系非常成功,和拥挤的边界框相比,应该更难区分稀疏边界框,并且DEYO 在低 IoU 阈值上实现了良好的性能,这表明 DETR 可以很好的处理稀疏边界盒的聚类,因此,DETR 也应该能够很好地处理拥挤的边界框的聚类,后者的难度明显低于前者。这启发我们重新审视当前的滤波策略,分析拥挤的边界盒阻碍检测器优化的原因,并提出有效的解决方案。我们猜测,对于几乎相似的边界框,尽管检测器可以很好地对他们进行聚类,但很难学习到从聚类中选择并保留边界框的有效策略。在极端情况下,对于n 个相同的边界框,使用一对一的标签分配,DETR 不可能从原始数据中学习有效的过滤策略。同时,当边界框过于相似时,也可能导致二进制匹配的不稳定性。进一步阻碍优化,DEYO 简单地使用 NMS 来通过建立 IoU 间隙来避免优化问题。我们认为,建立分数差距也应该取得类似的效果。

3、方法

3.1 Rank 特征

如图 4 所示,当遇到几乎相同的边界框时,检测器很难学习有效的策略来选择要保留的边界框,而这正是NMS擅长的。非极大值策略可以使 NMS 从大量几乎相同的冗余边界框中选择一个边界框,而不会导致性能损失。我们尝试了几种策略,让模型直接从原始数据中学习非最大值抑制策略 ,但都以 失败 告终。为了降低模型的训练难度,受[12] 的启发,引入了 Rank 特征来解决这个问题。研究发现, 添加 Rank 特征 比直接将置信度传递给模型表现得更好 。我们认为性能更好的原因是 Rank 特征可以使模型更容易地学习 非最大值抑制策略 。这是 因为 Rank 特征可以迫使几乎相同的边界框之间存在差距 ,因为即使置信度相同,排名仍然存在顺序差距。根据这个阶差模型,很容易学会选择排名靠前的边界框来保持,这样对于n个相同的边界框,模型仍然可以根据rank 特征区分它们之间的区别,并选择保留的顶级边界框。

3.2 贪婪匹配

在处理几乎相同的冗余边界框时,由于一对一匹配的局限性,与一对一的匹配一样, 基于最小化二分匹 配矩阵的代价来确定边界框保留是不合理的 。我们 提出了一种称为贪婪匹配的标签分配方法 ,其中为每个边界框分配一个具有最小匹配损失的基本事实标签,并且成本矩阵计算方法与阶段3 的一对一匹配一致。我们根据基本事实对边界框进行聚类,并只保留每个聚类中排名最高的边界框,为保留的边界框分配标签1 ,为过滤掉的边界框指定标签 0 。由于很难用电流检测器实现置信度和 IoU 之间的严格正相关,这导致了如图5 所示的情况,其中高 rank 并不一定意味着良好的定位。仅仅靠 rank 进行选择会影响模型选择更好边界框的能力,导致选择位置不佳的高分红色边界框,最终损害模型性能。为了解决这一现象,引入了一个 \theta值来调整标签分配。具体来说,我们将rank-1 分配给 IoU 小于 y rank 小于的对象, 并且只保留rank 大于 1 的对象。这种方法允许更合理的标签分配和更高的性能。此外,通过基于边界框各自的基本事实对其进行聚类。我们的方法引导模型放弃局部对象较差的聚类,降低了任务难度大,加强了过滤策略的学习。

4DEYOv2

4.1 model概述

我们的模型使用 YOLOv5x 作为第一阶段, DINO 作为第三和第二阶段,提供了一个新的基于渐进推理的三阶段模型。YOLOv5x 是经典 YOLO 系列的探测器;它包含一个主干,一个包含 FPN+PAN 的颈部,以及一个输出三尺度预测的头部。作为一个类似DETR 的模型, DINO 包含主干、多层变换编码器、多层变换解码器和多个预测头。它使用锚边界框的静态查询和动态初始化,并涉及用于比较去噪训练的额外CDN分支。DEYOv2 DINO 最大的区别在于, DEYOv2 的第三阶段使用来自第二阶段的高质量建议查询来初 始化查询,整个DEYOv2 模型如图 6 所示。

4.2 密集查询到稀疏查询

由于变换器的计算复杂度随着查询数量的增加而二次增加,因此基于查询的数量通常为 300900 ,并以YOLOv5为例,它可以提供数以万计的查询,这比基于查询的检测器多了几个数据集,并且与基于查询的检测设备相比,维护单个查询的成本要低。我们认为,密集查询中包含的信息可以大大减轻后续稀疏查询检测的负担,从而使stage2 stage3 在密集场景中可以实现更好的性能。然而,由于转换器的计算复杂度与序列呈二次关系,这限制了第2 阶段和第 3 阶段的查询数量。因此,我们使用查询选择器来选择高质量的查询,并在有限的查询中尽可能多地保留原始密集查询中包含的信息。因此,我们使用查询选择器来选择高质量的查询,并在有限的查询中尽可能保留原始密集查询中包含的信息。第3 阶段的查询比第1 阶段少,这使得我们可以对查询之间的关系进行建模,并且我们可以像稀疏查询中注入更多信息;即使维护单个稀疏查询的成本高于密集查询的成本,该成本也可以是准确性和速度之间的良好权衡。我们使用一个简单的top-k 和适配器模块来完成从密集查询到稀疏查询的转换。我们相信适配器模块可以最大限度地保留原始密集查询的信息,并是不同输出层查询的维度与稀疏查询的维度一致。

4.3查询选择器

对于端到端优化,我们只需要使用 top-k 来完成从密集查询到稀疏查询的替换。然而,应该注意的是,NMS仍然是最大程度地保留阶段 1 信息的过渡方法。如图 7 所示,由于 stage1 中存在大量冗余边界框,因 此直接使用top-k 选择策略会导致所选查询中存在大量信息溶于。 NMS 可以解决这个问题, DEYOv2 中采用NMS 的动机与 DEYOv2 不同,只是为了尽可能地过滤掉冗余信息。由于查询过滤器的存在,我们不必担心IoU 阈值的设置不合理,这使得模型的优化变得困难。这使我们能够基于 PRE-Matching 快速调整IoU阈值参数,而不像 DEYO 那样只有在得道训练的最终结果后才能评估 IoU 阈值的质量。

4.4 查询筛选器

DEYOv2 使用查询过滤器,放弃了 NMS 对过滤冗余边界框的依赖,完全实现了端到端。查询筛选器只需要设置一个置信阈值过滤候选边界框像大多数端到端检测器一样,以完成冗余边界框的过滤。在DEYOv2中,我们将置信阈值设置为 0.1 ,我们使用贪婪匹配为查询过滤器的输出分配标签。我们使用焦点损失来监督查询过滤器对冗余边界框的过滤。通过一个简单的策略:0 表示过滤掉的, 1 表示保留的,
并将大量高置信度的类似冗余对象返回到低置信度。基于这种策略,可以将建立的分数差距传递给阶段
3 ,这便于阶段 3 进一步过滤边界框。由于过滤查询的数量不是恒定的,如图 8 所示,我们将过滤查询插入解码器的init 查询中,可以保证批量培训。

4.5一对多与一对一匹配

正如本文前面多分析的, IoU 和置信度之间的严格正相关是当前检测器的一个困难条件。在贪婪匹配中,我们用实际边界框过滤掉IoU<0.6 的所有边界框,使模型获得更好的性能。其次,贪婪匹配聚类围绕基本事实,这两者都会导致一些定位不佳的边界框进行过滤。查询过滤过滤掉一些冗余的边界框,代价是一些定位不好的边界框的召回率,这在一定程度上影响了最终的性能,所以我们使用具有一对一匹配的stage3来补偿这部分性能损失。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/754286.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Pytorch环境下基于Transformer模型的滚动轴承故障诊断

注意力机制是深度学习中的重要技术之一&#xff0c;正日益受到重视关注。注意力机制作为一种信息贡献筛选的方法被提出&#xff0c;它可以帮助神经网络更多地关注与任务相关的特征&#xff0c;从而减少对任务贡献较小信息的影响。因此&#xff0c;利用注意机制可以提高神经网络…

ArcGIS巧思制作3D景观地图

John Nelson 又制作了一个制图教程视频,我原以为只是一个简单的局部场景DEM夸张实现的3D地图。 不过细看以后…… 还就是比较简单的3D场景地图,操作不难,但是 John Nelson 就是天才。 为什么? 他使用 ArcGIS Pro,在普通的3D地图中,不仅仅是图层混合制作地形效果,还巧妙的…

51-32 CVPR’24 | 3DSFLabelling,通过伪自动标注增强 3D 场景流估计

24 年 2 月&#xff0c;鉴智机器人、剑桥大学和上海交通大学联合发布CVPR24工作&#xff0c;3DSFLabelling: Boosting 3D Scene Flow Estimation by Pseudo Auto-labelling。 提出 3D 场景自动标注新框架&#xff0c;将 3D 点云打包成具有不同运动属性的 Boxes&#xff0c;通过…

【光伏监控系统的相关产品有哪些】Acrel-1000DP分布式光伏监控系统

光伏发电系统是指无需通过热过程直接将光能转变为电能的发电系统。通常由光伏方阵、蓄电池组&#xff08;蓄电池控制器&#xff09;、逆变器、交流配电柜和太阳跟踪控制系统等设备组成。其特点是可靠性高、使用寿命长、不污染环境、能独立发电又能并网运行。 分布式光伏监控系…

高防服务器秒解是什么意思

高防服务器秒解是指高防服务器在遭受大规模的DDoS攻击时&#xff0c;能够迅速解决问题或应对攻击。DDoS攻击是指攻击者通过向目标服务器发送大量的请求&#xff0c;使服务器资源耗尽或无法正常响应其他合法用户的请求&#xff0c;从而导致服务不可用。高防服务器通过具备高性能…

upload-labs-pass01

1.安装好环境进入关卡&#xff08;记得打开小皮&#xff09; 2.可以看到第一关是要求上传图片&#xff0c;但是同时限制了图片类型&#xff0c;那么如果我们将木马写入图片&#xff0c;但是类型又不在白名单&#xff0c;就要想办法绕过 3.可以看到这里的要求是有check&#xff…

数据结构:栈「详解」

目录 一&#xff0c;栈的定义 二&#xff0c;栈的基本操作 1&#xff0c;顺序栈 1.1顺序栈的基本概念 1.2顺序栈的基本操作 2&#xff0c;链栈 2.1链栈的基本概念 2.2链栈的种类 2.3链栈的基本操作 三&#xff0c;栈的应用 1&#xff0c;函数递归调用 2&#xff0c;…

基于支持向量机(svm)的人脸识别

注意&#xff1a;本文引用自专业人工智能社区Venus AI 更多AI知识请参考原站 &#xff08;[www.aideeplearning.cn]&#xff09; 数据集加载与可视化 from sklearn.datasets import fetch_lfw_people faces fetch_lfw_people(min_faces_per_person60) # Check out sample…

REDHAWK——连接(续)

文章目录 前言一、突发 IO1、数据传输①、输入②、输出 2、突发信号相关信息 (SRI)3、多输出端口4、使用复数数据①、在 C 中转换复数数据 5、时间戳6、端口统计①、C 二、消息传递1、消息生产者①、创建一个消息生产者②、发送消息 2、消息消费者①、创建消息消费者②、注册接…

优化选址问题 | 基于节约算法求解考虑碳排放及带时间窗的物流选址问题附matlab代码

目录 问题代码问题 节约算法(Savings Algorithm)通常用于解决车辆路径问题(Vehicle Routing Problem, VRP),特别是当需要考虑如何有效地组织车辆的路线以最小化总行驶距离时。然而,当问题扩展到包括碳排放和带时间窗的物流选址问题时,算法需要相应的调整。 在这个扩展…

VSCode创建用户代码片段-案例demo

示例 - 在线生成代码片段 Vue3代码片段 {"vue3": {scope": "javascript,typescript,html,vue","prefix": "vue3","body": ["<template>","$1","</template>",""…

webpack5零基础入门-11处理html资源

1.目的 主要是为了自动引入打包后的js与css资源&#xff0c;避免手动引入 2.安装相关包 npm install --save-dev html-webpack-plugin 3.引入插件 const HtmlWebpackPlugin require(html-webpack-plugin); 4.添加插件&#xff08;通过new方法调用&#xff09; /**插件 *…

Coursera上Golang专项课程3:Concurrency in Go 学习笔记(完结)

Concurrency in Go 本文是 Concurrency in Go 这门课的学习笔记&#xff0c;如有侵权&#xff0c;请联系删除。 文章目录 Concurrency in GoMODULE 1: Why Use Concurrency?Learning Objectives M1.1.1 - Parallel ExecutionM1.1.2 - Von Neumann BottleneckM1.1.3 - Power W…

K8S POD 启动探针 startupProbe 的使用

当我们启动一个POD 时&#xff0c; 当k8s detect 里面的容器启动成功时&#xff0c; 就会认为这个POD 启动完成了&#xff0c; 通常就会在状态里表示 ready 1/1 … 例如 rootk8s-master:~# kubectl get pods NAME READY STATUS RESTARTS AGE bq-api-demo 1…

数字创新的引擎:探索Web3的前沿科技和商业模式

随着数字化时代的不断发展&#xff0c;Web3作为下一代互联网的重要组成部分&#xff0c;正逐渐成为数字创新的引擎。本文将深入探讨Web3的前沿科技和商业模式&#xff0c;揭示其在数字创新领域的重要作用和潜力。 1. 区块链技术的革命性 Web3的核心是区块链技术&#xff0c;它…

Memcached-分布式内存对象缓存系统

目录 一、NoSQL 介绍 二、Memcached 1、Memcached 介绍 1.1 Memcached 概念 1.2 Memcached 特性 1.3 Memcached 和 Redis 区别 1.4 Memcached 工作机制 1.4.1 内存分配机制 1.4.2 懒惰期 Lazy Expiration 1.4.3 LRU&#xff08;最近最少使用算法&#xff09; 1.4.4…

Apache Doris 如何基于自增列满足高效字典编码等典型场景需求

自增列&#xff08;auto_increment&#xff09;是数据库中常见的一项功能&#xff0c;它提供一种方便高效的方式为行分配唯一标识符&#xff0c;极大简化数据管理的复杂性。当新行插入到表中时&#xff0c;数据库系统会自动选取自增序列中的下一个可用值&#xff0c;并将其分配…

以太坊开发学习-solidity(二)值类型

文章目录 第一个Solidity程序编译并部署代码变量值类型1. 布尔型2. 整型3. 地址类型4. 定长字节数组 第一个Solidity程序 开发工具&#xff1a;remix 本教程中&#xff0c;我会用remix来跑solidity合约。remix是以太坊官方推荐的智能合约开发IDE&#xff08;集成开发环境&#…

SpringBoot如何优雅实现远程调用

微服务之间的通信方式 常见的方式有两种&#xff1a; RPC——代表-dubbo HTTP——代表-SpringCloud 在SpringCloud中&#xff0c;默认是使用http来进行微服务的通信&#xff0c;最常用的实现形式有两种&#xff1a; RestTemplate Feign

【Spring 篇】走进Java NIO的奇妙世界:解锁高效IO操作的魔法

欢迎来到Java NIO的神奇之旅&#xff01;在这个充满活力的世界里&#xff0c;我们将一起揭示Java NIO&#xff08;New I/O&#xff09;的奥秘&#xff0c;探索其在高效IO操作中的神奇魔法。无需担心&#xff0c;即使你是Java的小白&#xff0c;也能轻松领略这个强大而灵活的IO框…