t-rex2开放集目标检测

论文链接:http://arxiv.org/abs/2403.14610v1

项目链接:https://github.com/IDEA-Research/T-Rex

这篇文章的工作是基于t-rex1的工作继续做的,核心亮点:

  1. 是支持图片/文本两种模态的prompt进行输入,甚至进一步利用两种模态的组合来达到检测和检索的目的,比如文本检索目标、以图搜图或者两个组合的方式
  2. 还有一个非常关键的地方,t-rex2开放了一个负样本抑制的方法,这个极大的缓解了开集目标检测器中使用clip作为head导致的分类器出问题从而有大量误检的情况

可以作为zero-shot的检测器或者一些快速数据集生成的data-engine方式

1、核心框架

text-cv的双模态通用框架还是同时对文本和图像做编码,如文中所说,text依旧使用clip做文本编码,图像上用的是deformable detr(DETR的升级版本),将单/多个图像转换为视觉embedding,然后进一步的利用了一个文本\图像对齐的模块来显示对齐,因此网络能够从文本和图像中互相学习到对方的feature,然后持续地提高相互的能力,该方法适用于4(3)种工作流:

  1. 交互式视觉prompt,类似于SAM,可以理解为框选一个目标后找到同一类目标(跨多个图像来框选也可以)
  2. 文本prompt,类似于clip或者glip/groundingdino的输入方式
  3. 混合prompt输入,结合文本和图像一起做inference

t-rex2模型框架:

如上图框架所示,一句话总结流程,分别对视觉和文本做特征提取, 视觉上结合backbone做视觉编码、输入prompt做位置编码、初始化向量concat(全局注意力+特征聚合)、交叉注意力得到最终的特征提取,然后结合DINO系系列的box预测方式得到各个roi的坐标,利用clip的方式预测出label(训练和完整的inference代码似乎没有开源出来,只能看论文上的工作去猜了,源码更新后再把本文完善下);

框架支持同时对visual和text prompts进行encoder:

对于visual prompt,对于给定的归一化的坐标或者box位置4维坐标,文中提到继承于DETR依旧使用正余弦编码将其编码为位置embedding,然后使用一个线性层将其进行变换(物理意义上可能是一次特征提取?),其中B代表box的prompt,P代表point的prompt,如下图中的1式和2式所示,进一步地,此时文中初始化了一个可学习的embedding(这里特别像DETR系列后续的工作,初始化一个embedding作为类似于anchor或者其他作用)C并广播到K维度,C`是来自其他所有视觉输入的一个聚合向量,然后将C+C`的值相加后然后与第一步提取的位置向量进行通道上的concat(我听下来理解这段是将C广播得到C`,然后将B全局提取得到B`,然后做concat,具体还得看代码理解下),paper写的太复杂了,最后使用交叉注意力后在各个FPN层的特征中得到query,从框架上可以看到这些query物理意义上应该是自注意力到各个层关注的roi部分,然后如5式做自注意力的特征提取,这样保证提取出来的query应该是结合视觉prompt得到的(在前向做inference时是不是会因为不同的输入promp导致每一次inference的特征不一样)

对于text prompt,使用clip将其进行编码,此处略过,文章也没提,有兴趣的同学直接参照clip进行理解就好了;

BOX解码器:最后就是box解码器了,参照DINO以及他们实验室的工作,将传统检测的anchor作为query初始化,然后与grounding-dino一样是直接预测出各层目标的x、y、w、h,将解码器预测出的值得到Qdec,得到最后的box坐标:

类别估计就是使用clip的方式做predict了,毕竟开集检测应该都是这个套路(晚点还得看看代码确认下)

     文中提到了对每一个视觉目标和文本目标做对齐,类似于一个相互蒸馏的过程:

训练过程(损失函数):

损失函数分为5部分,对于框,使用L1+GIOU作为损失函数,对于分类,使用clip的logits和直接提取的logits计算相似性,还有一个是align对齐,L-DINO应该是文中提及的DINO中的加入噪声训练的部分,文中这里有一个细节,就是使用DETCLIP的方式,对于图片正样本边界以外的数据,随机进行负样本采集,这应该是一种很好的负样本抑制策略

输入的处理:

如果是多个输入,则对其求均值,如果结合文本,则是(视觉+文本)/2就可以了:

2、其他细节

训练集的维护:当前各种多模态模型的关键是数据集如何从各种乱七八糟来源上获取,本文也提到了,还未看,略过

结果对标:

其他细节进一步读paper再来改正和补充

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/768283.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CCF-CSP认证考试 202303-5 施肥 35/60/75/100分题解

更多 CSP 认证考试题目题解可以前往:CSP-CCF 认证考试真题题解 原题链接: 202303-5 施肥 时间限制: 2.0s 内存限制: 1.0GB 问题描述 春天到了,西西艾弗岛上的 n n n 块田地需要施肥了。 n n n 块田地编号为 1 , 2…

基于Google云原生工程师的kubernetes最佳实践(二)

目录 二、应用部署篇 为deployment打上丰富的label,以便selecting 使用sidecar容器部署agent、proxy等组件 使用init container处理依赖关系,而不要用sidecar 镜像tag使用版本号,不要用latest或空tag 为pod设置readiness和liveness探针 不要给所有服务都使用LoadBalance…

【微服务】以模块化单体架构开发微服务应用

目录 推荐超级课程: Docker快速入门到精通Kubernetes入门到大师通关课AWS云服务快速入门实战我们知道,起初,单体应用有显著的优势:它们更容易开发和部署。从开发人员的角度来看,这种简单性是有益的。一切都是集中的,可以快速更新任何部分的业务逻辑并立即看到结果。这种开…

竞赛 python opencv 深度学习 指纹识别算法实现

1 前言 🔥 优质竞赛项目系列,今天要分享的是 🚩 python opencv 深度学习 指纹识别算法实现 🥇学长这里给一个题目综合评分(每项满分5分) 难度系数:3分工作量:4分创新点:4分 该项目较为新颖…

ETL数据倾斜与资源优化

1.数据倾斜实例 数据倾斜在MapReduce编程模型中比较常见,由于key值分布不均,大量的相同key被存储分配到一个分区里,出现只有少量的机器在计算,其他机器等待的情况。主要分为JOIN数据倾斜和GROUP BY数据倾斜。 1.1GROUP BY数据倾…

第七届蓝桥杯大赛软件赛省赛Java 大学C组题解

文章目录 A 有奖猜谜思路解题方法复杂度Code B 煤球数目思路解题方法复杂度Code C 平方怪圈思路解题方法复杂度Code D 凑算式思路解题方法复杂度Code E 搭积木思路解题方法复杂度Code F 冰雹数思路解题方法复杂度Code G 四平方和思路解题方法复杂度Code I 密码脱落思路解题方法…

Windows + RTX4090驱动,CUDA安装

Nvidia驱动下载安装 NVIDA Drivers驱动 https://www.nvidia.com/Download/index.aspx?langen-us CUDA安装 https://developer.nvidia.com/cuda-toolkit-archive ​ (1)nvidia-smi -L查看自己的显卡型号。 (2)然后在https://ww…

【短接笔记本或者台式机的CMOS针脚解决电脑开机无法启动BIOS无法进入问题】

为什么要执行短接笔记本或者台式机的CMOS针脚操作? 问题:可以解决如下图所示,技嘉小雕主板开机时按delete键无法进入BIOS主板界面,长时间等待之后依然无法进入BIOS主板界面,则判定为主板问题。此时短接CMOS针脚可清空…

深度解析单例模式

一、概述 1.1 特点 单例类。只有一个实例对象;该单例对象必须由单例类自行创建单例类对外提供一个访问该单例的全局访问点。 1.2 优缺点 优点: 保证内存里只有一个实例,减少了内存的开销。可以避免对资源的多重占用 缺点: 没有接口,扩展困…

IOS面试题编程机制 26-30

26. 简述IOS是如何实现autoreleasepool?autoreleasepool 自动释放池,在池子里的对象如果没有被强引用都会自动释放掉,自动释放池的主要底层数据结构是:__AtAutoreleasePool、AutoreleasePoolPage,调用了autorelease的对象最终都是通过 AutoreleasePoolPage 对象来管理的。…

IOS面试题编程机制 31-35

31. KVC和KVO的keyPath一定是属性么?KVC 支持实例变量, KVO 只能手动支持 实例变量。即KVO需要自己在set方法里实现willChangeValueForKey didChangeValueForKey 还要自己实现 automaticallyNotifiesObserversForKey 手动进行监听。 ----------------------------------- // …

nodejs+vue高校工作室管理系统python-flask-django-php

系统根据现有的管理模块进行开发和扩展,采用面向对象的开发的思想和结构化的开发方法对高校工作室管理的现状进行系统调查。采用结构化的分析设计,该方法要求结合一定的图表,在模块化的基础上进行系统的开发工作。在设计中采用“自下而上”的…

python(django(自动化))之流程接口展示功能前端开发

1、创建模板代码如下&#xff1a; <!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><title>测试平台</title> </head> <body role"document"> <nav class "navbar n…

Redis - list 列表

前言 列表类似于 Java 中的数组或者顺序表&#xff0c;在 Redis 中&#xff0c;可以对列表两端插⼊&#xff08;push&#xff09;和弹出&#xff08;pop&#xff09;&#xff0c;还可以获取指定范围的元素列表、 获取指定索引下标的元素等。列表是⼀种⽐较灵活的数据结构&#…

(一)基于IDEA的JAVA基础7

关系运算符 运算符 含义 范例 结果 等于 12 false &#xff01; 不等于 1&#xff01;2 true > 大于 1>2 false < 小于 …

微服务(基础篇-001-介绍、Eureka)

目录 认识微服务&#xff08;1&#xff09; 服务架构演变&#xff08;1.1&#xff09; 单体架构&#xff08;1.1.1&#xff09; 分布式架构&#xff08;1.1.2&#xff09; 微服务&#xff08;1.1.3&#xff09; 微服务结构 微服务技术对比 企业需求 SpringCloud(1.2) …

思科网络中DHCP中继的配置

一、什么是DHCP中继&#xff1f;DHCP中继有什么用? &#xff08;1&#xff09;DHCP中继是指一种网络设备或服务&#xff0c;用于在不同的子网之间传递DHCP&#xff08;动态主机配置协议&#xff09;消息。DHCP中继的作用是帮助客户端设备获取IP地址和其他网络配置信息&#x…

jvm底层

逐步细化 静态链接&#xff1a;静态方法(符号引用)替换为内存指针或者句柄直接引用) 动态链接&#xff1a;程序期间将符号引用替换为直接引用 对象头&#xff1a; 指针压缩&#xff1a; -XX:UseCompressedOops 开启指针压缩 减少内存消耗&#xff1b;大指针在主内存 缓存间移…

6.3 BP神经网络

在多层感知器被引入的同时&#xff0c;也引入了一个新的问题&#xff1a;由于隐藏层的预期输出并没有在训练样例中给出&#xff0c;隐藏层结点的误差无法像单层感知器那样直接计算得到。 为了解决这个问题&#xff0c;反向传播&#xff08;BP&#xff09;算法被引入&#xff0…

centos glibc 升级导致系统崩溃

centos 7.9默认的glibc为2.17&#xff0c;因为要安装一些软件&#xff0c;需要升级到glibc 2.18&#xff0c;而从源码进行编译和安装&#xff0c;安装失败&#xff0c;导致系统崩溃。 系统崩溃首先想到的是利用启动盘进行救援&#xff0c;而利用centos 7.9的启动盘始终无法挂载…