【论文阅读】YOLO-World | 开集目标检测

在这里插入图片描述

  • Date:2024.02.22,Tencent AI Lab,华中科技大学
  • Paper:https://arxiv.org/pdf/2401.17270.pdf
  • Github:https://github.com/AILab-CVC/YOLO-World

论文解决的问题: 通过视觉语言建模和大规模数据集上的预训练来增强YOLO的开发词汇检测能力。

YOLO-world提出了一种prompt-then-detect范式:先提示,再检测。即将单词先转化成一系列离线的embedding,再将其重参数为模型的参数,参与到目标检测任务中来。相当于在部署的时候可以直接砍掉CLIP部分,直接把想要检测的类别的text embedding放到YOLO-World中进行推理,所以前向速度非常快。

文章目录

  • 1 文章贡献
  • 2 网络结构
    • 2.1 RepVL-PAN(Reparameterizable Vision-Language PAN)
    • 2.2 Text Contrastive Head
  • 3 训练过程
    • 3.1 损失函数
    • 3.2 训练策略
  • 4 训练数据的生成
  • 5 消融实验上的一些结论

1 文章贡献

  • 推出了一个可部署的开放词汇目标检测器YOLO-World,可用于部署。具有较强的零样本能力,在LVIS数据集上的map指标为35.4,fps为52(V100);
  • 提出了一个可重参数化的网络的结构RepVL-PAN来连接视觉和文本特征;

2 网络结构

在这里插入图片描述

  • text encoder使用的预训练的CLIP的text encoder,当文本是描述时,使用n-gram算法提取名词
  • 文本的特征于图像的特征(multi-scale)在RepVL-PAN结构中进行融合
  • RepVL-PAN输出Image-aware的text embedding,检测段输出bbox和text-aware的image embedding
  • 最后再通过计算text embedding和image embedding之间距离来判断目标框中的类别
  • YOLO backbone使用的是YOLOv8

2.1 RepVL-PAN(Reparameterizable Vision-Language PAN)

在这里插入图片描述

  • Text-guide CSPLayer: 采用max-sigmoid attention来实现文本和图像的融合其中 X l X_l Xl是来自不同层的图像特征,W是text embedding,计算特征图与text embedding的相似度矩阵,取最大值在sigmoid后作为权重加权原特征图
    X l ′ = X l ⋅ δ ( max ⁡ j ∈ { 1.. C } ( X l W j ⊤ ) ) ⊤ X_l^{\prime}=X_l \cdot \delta\left(\max _{j \in\{1 . . C\}}\left(X_l W_j^{\top}\right)\right)^{\top} Xl=Xlδ(j{1..C}max(XlWj))
    不过在代码实现的时候,其实concat了每一个block的输出:
    在这里插入图片描述

    # yolo_world/models/layers/yolo_bricks.py:145行
    def forward(self, x: Tensor, guide: Tensor) -> Tensor:"""Forward process."""x_main = self.main_conv(x)x_main = list(x_main.split((self.mid_channels, self.mid_channels), 1))x_main.extend(blocks(x_main[-1]) for blocks in self.blocks)x_main.append(self.attn_block(x_main[-1], guide))return self.final_conv(torch.cat(x_main, 1))
    
  • Image-Pooling Attention: 利用图像感知信息增强text embedding,文本嵌入的更新方式如下:
    W ′ = W + MultiHead-Attention ( W , X ^ , X ^ ) W^{\prime}=W+\text{MultiHead-Attention}(W,\hat X, \hat X) W=W+MultiHead-Attention(W,X^,X^)
    X是来自于3个不同尺度的图像特征,对每个尺度进行最大池化max-pooling,得到3x3大小的特征图,3组就是27个patch-token。

2.2 Text Contrastive Head

在这里插入图片描述
YOLO-World的检测头还是复用了YOLOv8的解耦头,只不过将分类分支修改成了object embedding。object embedding与text embedding需要先进行L2范数归一化,再进行距离计算,其计算公式如下:
s k , j = α ∣ ∣ e k ∣ ∣ 2 ∗ ∣ ∣ w j ∣ ∣ 2 + β s_{k,j} = \alpha ||e_k||^2*||w_j||^2 + \beta sk,j=α∣∣ek2∣∣wj2+β
其中 s k , j s_{k,j} sk,j表示文本 w j w_j wj与目标嵌入 e k e_k ek之间的距离, α \alpha α β \beta β是可学习的比例因子和位移因子。

3 训练过程

3.1 损失函数

  • 输出K个预测结果和其对应的gt:{box,text},使用TaskAlignAssigner进行匹配。匹配后通过计算object-text之间的交叉熵,也就是所谓的Region-text constrastive loss(没错,就是CLIP中Image-text constrastive loss,只不过这里不是使用全图的embedding,而是使用检测区域的embedding)。
  • 使用IoU loss和DFL(Distribute Focal Loss)来计算box的回归损失,这就意味着yolo-world使用的也是解耦头,并将回归任务转化成了分类任务。最后的总loss为:
    L ( I ) = L c o n + λ i ( L i o u + L d f l ) L(I) = L_{con} + \lambda_i(L_{iou} + L_{dfl}) L(I)=Lcon+λi(Liou+Ldfl)
    其中 λ i \lambda_i λi是indicator factor(指标因子),当图像来自于detection或者grounding data时设置为1,来自于image-text时设置为0。

3.2 训练策略

训练使用在线词汇表,推理使用离线词汇表。

  • 训练时:

    • 输入图片:4张组成的mosaic图片
    • 在线词汇表:T
    • 每次训练的时候需要从词汇表中抽取图片中含有的N个名词,再随机抽选80-N个不存在于该图中的目标名称,因此每次送入网络中的名词数量默认为80个
  • 测试时: 设置需要的词,并直接获取词向量参与到目标检测中,而不再用CLIP进行编码。

  • 其他细节:

    • 训练框架:MMYOLO
    • Text encoder:预训练的CLIP
    • GPU:32个V100
    • Batch:512
    • 数据增强:随机色彩、翻转、仿射、4张mosaic

4 训练数据的生成

文章中设计了一个数据生产流程,对CC3M中的246K图片生成了821K的伪标注。
在这里插入图片描述
其生成流程如下:

  1. 提取名词短语: n-gram
  2. 伪标签(pseudo label): 使用预训练的开放词汇检测器(GLIP),给每个图像给定的名词短语生成检测框,从而提供粗略的region-text pairs
  3. 过滤(filter): 使用预训练的CLIP来评估region-text pairs的相关性,过滤掉相关性低的注释和图像。给定图像I,图像描述T和粗略的region-text对 ( B i , t i , c i ) (B_i,t_i,c_i) (Bitici)
    3.1. 计算Image-text score得到S(img)
    3.2. 裁出region区域,计算region-text的相似度S(region)
    3.3. [可选] Re-labeling:裁剪后的图片与所有名词计算相似度,选择最高的名词作为该区域的text,用于纠正GLIP错标的文本
    3.4. Rescoring:用region-text的相似度S(region)对置信度重新评分 c i = ( c i ∗ s i r e g i o n ) c_i = \sqrt{(c_i * s^{region}_i)} ci=(cisiregion)
    3.5. 区域级过滤(Region-level filtering):根据文本分成不同的组,同类别使用NMS(0.5),过滤置信度低的(0.3)
    3.6. 图像级过滤(Image-level filtering):计算保留的所有region的平均分数,得到图像级置信度分数 S = ( S ( i m g ) ∗ S ( r e g i o n ) ) S = \sqrt{(S(img) * S(region))} S=(S(img)S(region)) ,保留分数大于0.3的图像。
  4. 使用NMS过滤冗余的检测框。
  • 训练集数据情况
    在这里插入图片描述
  • 测试集数据情况: 在LVIS进行zero-shot evaluation
    • 包含1203个类别,远超训练集的类别
    • 主要在LVIS minival上测试固定AP
    • 最大预测数量设置为1000
      在这里插入图片描述
      总结:可以看出检测效果非常Amazing,而且更关键的是速度非常快! 其速度快的原因在于测试的时候,可以直接将text embeding先算出来,让后作为YOLO-World的参数来进行前向推理。直接砍掉了CLIP在推理阶段的耗时。这个思路非常nice!

5 消融实验上的一些结论

结论一:增加高质量数据效果提升显著。
在这里插入图片描述
验证Text-guided CSPLayers和Image-Pooling Attention的作用分别可以提升0.8和0.3个点,但是只加入GQA数据集可以直接提升7.2个点,还是证明了加入数据的有效性。

*注:GQA是斯坦福大学教授 Christopher Manning 及其学生 Drew Hudson 一同打造的全新图像场景图问答数据集,旨在推动场景理解与视觉问答研究领域的进步,详细数据链接:https://cs.stanford.edu/people/dorarad/gqa * 。

结论二:在YOLO-Wolrd里面,CLIP优于BERT。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/396.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ruoyi-nbcio-plus基于vue3的flowable的消息中心我的消息的升级修改

更多ruoyi-nbcio功能请看演示系统 gitee源代码地址 前后端代码: https://gitee.com/nbacheng/ruoyi-nbcio 演示地址:RuoYi-Nbcio后台管理系统 http://122.227.135.243:9666/ 更多nbcio-boot功能请看演示系统 gitee源代码地址 后端代码&#xff1a…

Python数据可视化:散点图matplotlib.pyplot.scatter()

【小白从小学Python、C、Java】 【计算机等级考试500强双证书】 【Python-数据分析】 Python数据可视化: 散点图 matplotlib.pyplot.scatter() 请问关于以下代码表述错误的选项是? import matplotlib.pyplot as plt x [1, 2, 3, 4, 5] y [2, 3, 5, 7,…

热塑性聚氨酯TPU的特性有哪些?UV胶水能够粘接热塑性聚氨酯TPU吗?又有哪些优势呢?

热塑性聚氨酯(Thermoplastic Polyurethane,TPU)是一种具有多种优异性能的弹性塑料,广泛用于各种应用领域。以下是TPU的一些主要特性: 弹性和柔软性: TPU具有良好的弹性和柔软性,能够在受力后迅速…

短视频批量采集提取软件|视频下载工具

短视频批量采集提取软件:高效获取视频资源 一、开发背景 在日常业务中,我们经常需要获取大量的短视频资源,以支持各种需求,但传统的获取方式过于繁琐,一一复制链接下载效率低下。基于此需求,我们开发了一…

Jenkins机器已经安装了ansible, 运行的时候却报错ansible: command not found

操作系统:MacOS Jenkins log提示 ansible: command not found 直接在Jenkins 机器中,进入一样的目录执行ansible --version OK 原因: Jenkins 默认使用的环境是 /usr/bin, 而我的ansible 安装配置在conda3 下面,所以需要在Jenkin…

【工位ubuntu的配置】补充

软件 安装桌面图标的问题 登录密码 root的密码为:19980719 按照如下的链接进行配置: https://blog.csdn.net/zhangmingfie/article/details/131102331?spm1001.2101.3001.6650.3&utm_mediumdistribute.pc_relevant.none-task-blog-2%7Edefault%7E…

工业控制(ICS)---modbus

Modbus Modbus,市场占有率高、出题频率高,算是最常见的题目,因为这个协议也是工控领域最常见的协议之一,主要有三类 Modbus/RTU 从机地址1B功能码1B数据字段xBCRC值2B 最大长度256B,所以数据字段最大长度252B Modbus/ASCII …

C++笔记:引用

目录 概念: ​编辑 引用的特性: 引用中的权限问题: 引用与指针的区别: 引用的使用: 概念: 引用是给已存在变量取一个别名,编译器不会为引用变量开辟内存空间。 引用的符号:&…

KV Cache 技术分析

原文:Notion – The all-in-one workspace for your notes, tasks, wikis, and databases. 1 什么是KV Cache LLM(大型语言模型)中的 Attention 机制中的 KV Cache(键值缓存)主要作用是存储键值对,以避免在…

ChatGPT又多了一个强有力的竞争对手:Meta发布Llama 3开源模型!附体验地址

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识…

力扣:两数之和

知识点&#xff1a; 动态数组的创建&#xff1a; #include<stdlib.h> arr (int*)malloc(len * sizeof(int)); 如何使用sacnf输入数组&#xff1a; scanf 函数在读取输入时&#xff0c;会自动跳过空格&#xff08;空格、制表符、换行符等&#xff09;和换行符&#…

vscode绿绿主题setting config

下载插件Green Tree Theme 选greentree ctrl shift p找到setting {"workbench.colorTheme": "Green Tree","editor.fontSize": 16.5, // 字号"workbench.colorCustomizations": {"[Green Tree]": {"activityBarBadge.…

算法一:数字 - 两数之和

给定一个整数数组 nums 和一个目标值 target&#xff0c;请你在该数组中找出和为目标值的那 两个 整数&#xff0c;并返回他们的数组下标。 你可以假设每种输入只会对应一个答案。但是&#xff0c;数组中同一个元素不能使用两遍。 来源&#xff1a;力扣(LeetCode) 链接&#xf…

scala---基础核心知识(变量定义,数据类型,流程控制,方法定义,函数定义)

一、什么是scala Scala 是一种多范式的编程语言&#xff0c;其设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台&#xff08;Java虚拟机&#xff09;&#xff0c;并兼容现有的Java程序。 二、为什么要学习scala 1、优雅 2、速度快 3、能融合到hado…

管道流设计模式结合业务

文章目录 流程图代码实现pomcontextEventContextBizTypeAbstractEventContext filterEventFilterAbstractEventFilterEventFilterChainFilterChainPipelineDefaultEventFilterChain selectorFilterSelectorDefaultFilterSelector 调用代码PipelineApplicationcontrollerentitys…

浅析binance新币OMNI的前世今生

大盘跌跌不休&#xff0c;近期唯一的指望就是binance即将上线的OMNI 。虽然目前查到的空投数量不及预期&#xff0c;但OMNI能首发币安&#xff0c;确实远超预期了。 OMNI代币总量1亿&#xff0c;初始流通仅10,391,492枚&#xff0c;其中币安Lanchpool可挖350万枚 对于OMNI这个…

设计模式——模版模式21

模板方法模式在超类中定义了一个事务流程的框架&#xff0c; 允许子类在不修改结构的情况下重写其中一个或者多个特定步骤。下面以ggbond的校招礼盒发放为例。 设计模式&#xff0c;一定要敲代码理解 模版抽象 /*** author ggbond* date 2024年04月18日 17:32* 发送奖品*/ p…

50.HarmonyOS鸿蒙系统 App(ArkUI)web组件实现简易浏览器

50.HarmonyOS鸿蒙系统 App(ArkUI)web组件实现简易浏览器 配置网络访问权限&#xff1a; 跳转任务&#xff1a; Button(转到).onClick(() > {try {// 点击按钮时&#xff0c;通过loadUrl&#xff0c;跳转到www.example1.comthis.webviewController.loadUrl(this.get_url);} …

代码随想录第39天|62.不同路径 63. 不同路径 II

62.不同路径 62. 不同路径 - 力扣&#xff08;LeetCode&#xff09; 代码随想录 (programmercarl.com) 动态规划中如何初始化很重要&#xff01;| LeetCode&#xff1a;62.不同路径_哔哩哔哩_bilibili 一个机器人位于一个 m x n 网格的左上角 &#xff08;起始点在下图中标…

Codeforces Round 782 (Div. 2) D. Reverse Sort Sum

题目 思路&#xff1a; #include <bits/stdc.h> using namespace std; #define int long long #define pb push_back #define fi first #define se second #define lson p << 1 #define rson p << 1 | 1 const int maxn 1e6 5, inf 1e9, maxm 4e4 5; co…