DETR解读,将Transformer带入CV

论文出处

[2005.12872] End-to-End Object Detection with Transformers (arxiv.org)

一个前置知识

匈牙利算法:来源于二部图匹配,计算最小或最大匹配

算法操作:在n*n的矩阵中

  1. 减去行列最小值,更新矩阵(此时行或者列最少一个0)

  2. 最少的横线来覆盖有0的行列,横线数量等于n结束算法,否则进入循环

  3. 循环操作:取未被横线覆盖的最小值k,所有未被覆盖的数都减去k(这个步骤至少增加一个0),横线的交点加上k,再次画横线判断

匈牙利算法在CV中用于对目标检测结果的匹配,前后帧之间相同目标的匹配,实现框随目标的运动。

具体的在CV任务中匈牙利算法的匹配代价用框中点之间欧式距离, 也可以是IoU(即框之间的重合度)

DETR:Transformer实现的端到端检测算法

模型训练思路

提前用超参数设置一些预测框,然后根据图像标注的信息得知图像中的物体正确的框选。预测框要和真实的那几个框一一对应,例如图中原本只标注了2个框,但是预测了100个,是从100个中选两个对应上。然后匈牙利算法计算匹配损失,反向传播

测试阶段

计算预测框的类别置信度,达到阈值则可以保留

Transformer先编码图像信息,然后解码,自注意力机制学习图像信息

object query查询图像中是否有物体

这里和NLP任务有明显的不同点。即当前输出是不依赖前一个输出,虽然是用decoder但是多目标的检测是可以并行的

具体操作步骤

  1. backbone卷积提取特征,

  2. Encoder,特征结合位置编码,两者相加生成Q,K。做多头注意力。每次编解码都使用位置编码

  3. Decoder:可以看做两层,先query初始为0,object query这两个query是学习anchor特征,两者相加生成Q,K。再加入图像特征(上一层输出再叠加object query为Q,Encoder输出加上位置编码生成K),学习预测物体类别,坐标,预测框信息等

  4. 输出:预测类别的标签,预测框的坐标

再介绍几个改进

Deformable DETR

文章出处:[2010.04159] Deformable DETR: Deformable Transformers for End-to-End Object Detection (arxiv.org)

提出可变注意力,这个改进对DETR来说十分关键。不再做全局注意力,只对关键部份做注意力。不仅仅是解决普通DETR计算量大和收敛慢的问题,做局部的注意力使得模型更能学习到关键特征,而不是无用的信息

在这个模型中,查询的Q还是来自特征提取和位置编码。但是K的查询几个点是由用户指定的,而且点的位置是由网络学习得到的。可以理解为最终值是一个点和图中的几个关键点做多头注意力得到。

先对输入Z分别做位置编码得到查询位置的偏移量和Attention Weight,还要对Z做线性变换得到Value。通过位置偏移量就能得到要查询位置的坐标,进一步去除对应位置的Value

Multi-scale Deformable Attention:

多尺度是为了在不同的尺度都能够学习到特征,大尺度对小物体的特征学习有效,小尺度学习大物体特征有效,使用多个尺度做注意力机制模型学习到更多的东西。先分别提取多张不同尺度的feature map,转换成线性之后连接起来,当做一个token,做注意力

RT-DERT

论文出处:

[2304.08069] DETRs Beat YOLOs on Real-time Object Detection (arxiv.org)

RT DETR的提出使得DETR路线的可用性和落地的可能性更进一步。这篇文章提出的实时端到端目标检测器,出发点就是提高模型训练和推理速度。

作者提到他发现模型执行时间取决于:预测框的数量,score threshold类别阈值,IoU threshold冗余框阈值

于是针对这些问题他做了几点创新:

  1. 只对最小尺度的特征图做可变注意力,其他的尺度做特征融合
  2. 基于IoU的查询选择,提高性能
  3. 推理加速,直接使用前几个decoder的输出

 

AIFI

对于最小尺度的一个特征图做Transformer encoder,以往是多个尺度的特征拉长成一个很长的一维token,这里减少了计算量。而且小尺度的语义特征更加丰富。

CCFM

每个尺寸两两之间都做特征的融合,做上采样或下采样匹配尺寸,最终拼接成一个列表

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/653098.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

搜维尔科技:【简报】元宇宙数字人赛道,优秀作品赏析《大福太郎》

这次采用亮眼的浅粉做为发色,为了贴合她小警察的身分 给了她一顶特制的警帽,上面有大福的荧光蓝叶片作为标 志,而在配件及裙子上也加入了许多科技元素的小巧思。 学校: 朝阳科技大学(台湾) 选手&#xff…

消息中间件之RocketMQ(二)

RocketMQ支持的消息类型 了解之前,首先要熟悉RocketMQ中的组件架构设计 1.顺序消息 将同一个订单(即具有相同的orderId)的消息按状态先后顺序消费的,所以消息生产者调用send方法发送时需要传入MessageQueueSelector接口的,实现类,将order…

【GitHub项目推荐--开源PDF 工具】【转载】

12 年历史的 PDF 工具开源了 最近在整理 PDF 的时候,有一些需求普通的 PDF 编辑器没办法满足,比如 PDF 批量合并、编辑等。 于是,我就去 GitHub 上看一看有没有现成的轮子,发现了这个 PDF 神器「PDF 补丁丁」,让人惊…

Vue+OpenLayers7入门到实战:快速搭建Vue+OpenLayers7地图脚手架项目。从零开始构建Vue项目并整合OpenLayers7.5.2

返回《Vue+OpenLayers7》专栏目录:Vue+OpenLayers7 前言 本章针对Vue初学者,对Vue不熟悉,甚至还不会Vue的入门学生读者。 本章会详细讲解从NodeJS环境到npm环境的各个步骤,再到使用vue-cli脚手架快速生成项目,以及添加OpenLayers7地图库依赖,编写简单的xyz高德地图显示…

RuoYi-Vue前后端分离后台开发框架运行详细教程

一、官网下载代码 RuoYi-Vue是一款基于SpringBootVue的前后端分离极速后台开发框架。 若依官网:http://ruoyi.vip演示地址:http://vue.ruoyi.vip代码下载:https://gitee.com/y_project/RuoYi-Vue 下载之后解压,ruoyi-ui是前端代…

opencv学习二值分析

内容来源于《opencv4应用开发入门、进阶与工程化实践》 二值分析: 常见的二值化方法: 基于全局阈值(threshold)得到的二值图像;基于自适应阈值(adaptiveThreshold)得到的二值图像&#xff1…

JavaScript高级:构造函数

1 引言 构造函数是一种特殊的函数&#xff0c;主要用来初始化对象&#xff1b;常规的 {...} 语法允许创建一个对象&#xff0c;但是通过构造函数可以快速创建多个类似的对象 2 约定 1. 命名以大写字母开头&#xff1b; 2. 它们只能由 “new” 操作符来执行 <script>//…

【C++】filesystem

文章目录 1. 基本配置1.1. VS2019修改C标准1.2. filesystem的引入 2. 日常使用2.1. 认识2.2. 控制台输入路径并对路径进行基本操作 <filesystem>是C 17标准引入的标准库&#xff0c;主要用于处理文件系统的目录和文件操作&#xff0c;接下来总结该库的基本配置和日常使用…

BIGVGAN: A UNIVERSAL NEURAL VOCODER WITHLARGE-SCALE TRAINING——TTS论文阅读

笔记地址&#xff1a;https://flowus.cn/share/a16a61b3-fcd0-4e0e-be5a-22ba641c6792 【FlowUs 息流】Bigvgan 论文地址&#xff1a; BigVGAN: A Universal Neural Vocoder with Large-Scale Training Abstract 背景&#xff1a; 最近基于生成对抗网络&#xff08;GAN&am…

【第十八课】DFS:深度优先搜索( acwing-843 n-皇后问题 / c++代码 )

目录 错误写法(可跳 DFS-剪枝 代码 思路二&#xff1a; 原始解法 错误写法(可跳 看到这道题&#xff0c;我想这不还是n个数的全排列的问题么?也就是把数字变成了字符&#xff0c;一些输出格式上的变化。于是就在原有代码上修改一下应该就行。 我的思路就还是path存有可能…

跨站脚本攻击漏洞概述-XSS

什么是跨站脚本攻击 跨站脚本( Cross-site Scripting ) 攻击&#xff0c;攻击者通过网站注入点注入客户端可执行解析的payload(脚本代码)&#xff0c;当用户访问网页时&#xff0c;恶意payload自动加载并执行&#xff0c;以达到攻击者目的(窃取cookie、恶意传播、钓鱼欺骗等)。…

十大排序算法之非线性时间比较类排序

前言 接下来就开始我们的算法学习之路了&#xff0c;代码会分别使用Java与Python来实现&#xff0c;数据处理的算法很多&#xff0c;排序是最基础且最重要的一类&#xff0c;大多数人都是通过学习排序算法入门的。接下来让我们一起学习闻名遐迩的十大排序算法&#xff0c;它们…

非官方 Bevy 作弊书07-09

源自 网页 Working with 2D - Unofficial Bevy Cheat Book 个人用 有道 翻译&#xff0c;希望能够帮助像我一样的 英语不好 的 bevy 初学者 非官方 Bevy 作弊书 7 使用 bevy 2D 本章涵盖与使用 Bevy 制作 2D 游戏相关的主题。 2D Camera Setup - Unofficial Bevy Cheat Book 非…

【LeetCode: Z 字形变换 + 模拟】

&#x1f680; 算法题 &#x1f680; &#x1f332; 算法刷题专栏 | 面试必备算法 | 面试高频算法 &#x1f340; &#x1f332; 越难的东西,越要努力坚持&#xff0c;因为它具有很高的价值&#xff0c;算法就是这样✨ &#x1f332; 作者简介&#xff1a;硕风和炜&#xff0c;…

Redis学习——高级篇②

Redis学习——高级篇② Redis7高级之BigKey&#xff08;二&#xff09; 1.MoreKey案例2.BigKey案例2.1 多大算 BigKey以及它的危害2.2 如何产生、发现、删除 3. bigKey生产调优 Redis7高级之BigKey&#xff08;二&#xff09; 1.MoreKe…

【高效开发工具系列】Java读取Html

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

Linux系统安装Nginx

一、Nginx的简介 Nginx是一个高性能的HTTP和反向代理web服务器&#xff0c;是由伊戈尔赛索耶夫为俄罗斯访问量第二站点开发的&#xff0c;因它的稳定性、丰富的功能集、简单的配置文件和低系统资源的消耗而闻名&#xff0c;第一个公开版本0.1.0发布于2004年10月4日。 Nginx是一…

C# RichTextBox常用属性、方法学习1

1 字体 Font font1 new Font("宋体", 18); richTextBox1.Font font1; Font font2 new Font("宋体", 10, FontStyle.Underline); richTextBox1.SelectionFont font2; 定义字体&#xff0c;可以带2个参数&#…

LeetCode---122双周赛

题目列表 3010. 将数组分成最小总代价的子数组 I 3011. 判断一个数组是否可以变为有序 3012. 通过操作使数组长度最小 3013. 将数组分成最小总代价的子数组 II 一、将数组分成最小总代价的子数组I 这道题纯纯阅读理解题&#xff0c;关键在于理解题意。注意&#xff1a;第一…

总体方差与样本方差的区别是什么?

总体方差和样本方差是统计学中两个重要概念&#xff0c;它们在定义和计算上有所不同&#xff0c;主要区别体现在数据集的性质和计算公式的分母上&#xff1a; 1. 总体方差&#xff08;Population Variance&#xff09;&#xff1a; 定义&#xff1a; 总体方差是指将一个完整数…