U版YOLO-World来了,YOLOv8再度升级,三行代码上手YOLO-World!

本文首发:AIWalker
欢迎关注AIWalker,近距离接触底层视觉与基础AI

https://arxiv.org/abs/2401.17270
https://github.com/AILab-CVC/YOLO-World
https://github.com/ultralytics/ultralytics
https://www.yoloworld.cc/

YOLO-World亮点

  • YOLO-World是下一代YOLO检测器,旨在实时开放词汇对象检测。
  • YOLO-World在大规模视觉语言数据集上进行了预训练,包括Objects 365,GQA,Flickr 30 K和CC 3 M,这使得YOLO-World具有强大的zero-shot开集Capbility与Grounding能力
  • YOLO-World实现了快速的推理速度;可以对用户给定词汇,所提重新参数化技术进一步加速推理和部署;

YOLO-World方案

上图为YOLO-World整体架构示意图,它包含一个YOLO检测器、一个文本编码器以及RepVL-PAN。文本编码器首先将输入文本编码为文本嵌入信息;图像编码器对基于输入图像提取多尺度特征信息;RepVL-PAN通过跨模态融合增强文本与图像表征。

  • YOLO Detector:编码器基于YOLOv8演变而来,YOLOv8由DarkNet骨干、PAN多尺度特征融合以及检测头构成;
  • Text Encoder:采用CLIP预训练文本编码器对输入文本T提取对应的文本嵌入 W = TextEncoder ( T ) ∈ R C × D W = \text{TextEncoder}(T) \in \mathbb{R}^{C \times D} W=TextEncoder(T)RC×D,这里C表示名词数目,D表示嵌入维度。相比于Text语言编码器,CLIP文本编码器可以提供更好的视觉-语义能力。当输入文本是句子时,我们采用n-gram算法提取名词短词并送入本文编码器
  • Text Contrastive Head:延续YOLOv8,我们采用解耦头对边框 { b k } k = 1 K \{b_k\}_{k=1}^K {bk}k=1K与目标嵌入 { e k } k = 1 K \{e_k\}_{k=1}^K {ek}k=1K进行回归。作者提出文本对比头(Text Contrastive Head)计算目标-文本相似度 s k , j s_{k,j} sk,j,定义如下:

s k , j = α ⋅ L2-Norm ( e k ) ⋅ L2-Norm ( w j ) T + β s_{k,j} = \alpha \cdot \text{L2-Norm}(e_k) \cdot \text{L2-Norm}(w_j)^{T} + \beta sk,j=αL2-Norm(ek)L2-Norm(wj)T+β

注:这里的L2-Norm与仿生变换参数对于稳定区域-本文训练非常重要。

  • Training with Online Vocabulary:在训练过策划肝囊肿,我们为每个Mosaic图像构建一个在线词汇集合T。具体来说,我们采样所有包含在Mosaic图像中的正名词短语,然后从对应数据集中随机采样一些负名词短语。每个Mosaic图像最多包含M个词汇,默认M=80。
  • Inference with Offline Vocabulary:在推理阶段,我们提出了一种基于离线词汇集合的prompt-then-detect策略以进一步提升效率。用户也可以自定义一些客制化提示信息[可选],然后采用文本编码器对这些提示信息进行编码得到离线嵌入包。离线词汇可以避免对每个输入都进行文本编码计算,为词汇调整提供了更灵活的调控机制。

更详细介绍请参考:YOLO-World | 赋能YOLOv8开集检测能力,构建新一代YOLO新标杆

上手测试

官方YOLO-World是基于mmyolo, mmdetection实现的,但U1S1,mm系列对于入门确实不错,但对于新开源算法上手测试真心难用,毒瘤啊[mmcv的ops这个鬼东西啊]~

好消息来了!ultralytics支持YOLO-World了,可以直接通过ultralytics库来玩YOLO-world了

使用方式简单到了极致,几行命令即可,还不需要安装一大堆的mm包,不需要编译各种无关op,牛逼克拉斯~

from ultralytics import YOLOWorld# Initialize a YOLO-World model
model = YOLOWorld('yolov8s-world.pt')  # Execute inference with the YOLOv8s-world on the specified image
results = model.predict('bus.jpg')# Show results
results[0].show()

就是这么的简单好用,三行代码完成测试!

那么,YOLO-World的Prompts功能该如何测试呢?同样非常简单,新增一行代码即可,代码如下:

from ultralytics import YOLOWorld# Initialize a YOLO-World model
model = YOLOWorld('yolov8s-world.pt')  # Define custom classes
model.set_classes(["person"])# Execute inference with the YOLOv8s-world on the specified image
results = model.predict('bus.jpg')# Show results
results[0].show()

就这么一行代码改动,YOLO-World就变成了行人检测器,

当然,你还可以把它变成bus检测器,效果如下

不得不说,YOLO-World进一步释放了检测器的可玩性,不仅可以搞通用检测,还可以玩限定场景检测,关键速度还贼快,还等什么呢,速速试玩咯

推荐阅读

  • YOLO-World | 赋能YOLOv8开集检测能力,构建新一代YOLO新标杆
  • YOLOv8重磅升级,新增旋转目标检测,又该学习了~
  • YOLO-NAS | YOLO新高度,引入NAS,出于YOLOv8而优于YOLOv8
  • YOLOv6 v3.0 | 重磅升级!性能超越V8!
  • DAMO-YOLO | 超越所有YOLO,魔搭社区开源至强YOLO,5行代码即可体验!
  • 南开大学提出YOLO-MS | 超越YOLOv8与RTMDet,即插即用打破性能瓶颈

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/701276.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MiKTeX安装后,Latex编译后PDF无法预览,是灰色的

解决方式删掉编译器就可以, 即删掉MiKTeX MiKTeX安装后会将编译器默认修改为MiKTeX,这个时候会显示报错,简单粗暴的方式是删掉MiKTeX软件

AI:135-基于卷积神经网络的艺术品瑕疵检测与修复

🚀点击这里跳转到本专栏,可查阅专栏顶置最新的指南宝典~ 🎉🎊🎉 你的技术旅程将在这里启航! 从基础到实践,深入学习。无论你是初学者还是经验丰富的老手,对于本专栏案例和项目实践都有参考学习意义。 ✨✨✨ 每一个案例都附带关键代码,详细讲解供大家学习,希望…

Github 2024-02-21 开源项目日报 Top10

根据Github Trendings的统计,今日(2024-02-21统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Python项目8非开发语言项目1TypeScript项目1 gpt4free 语言模型集合改进计划 创建周期:300 天开…

并发编程(4)共享模型之无锁

6 共享模型之无锁 本章内容 CAS 与 volatile原子整数原子引用原子累加器Unsafe 6.1 问题提出 有如下需求,保证 account.withdraw 取款方法的线程安全 import java.util.ArrayList; import java.util.List;interface Account {// 获取余额Integer getBalance();…

复旦大学MBA:AIGC时代,科技与商业迸发更绚烂的火花

ChatGPT问世以来,AI技术及应用进入一个全速推进的通道,快速迈入通用大模型时代。从AGI(人工通用智能)到AIGC(AI多模态内容生成),AI正在飞速重塑各个行业、人类生活乃至人类的未来。在商业领域更是给营销场景和营销工具…

Mac OS 搭建C++开发环境【已解决】

Mac OS 搭建C开发环境 文章目录 Mac OS 搭建C开发环境一、安装命令行工具:二、安装vscode三、安装gcc3.1 安装Homebrew3.2 安装gcc3.3 修改配置 四、更改VSCode默认编译器五、安装gdb六、安装Cmake && git七、编译运行 本地环境: Mac OS Sonoma …

3.openEuler物理存储及逻辑卷管理(一):磁盘存储挂载与使用

openEuler OECA认证辅导,标红的文字为学习重点和考点。 如果需要做实验,建议下载麒麟信安、银河麒麟、统信等具有图形化的操作系统,其安装与openeuler基本一致。 磁盘大类: HDD, (Hard Disk Drive的缩写) : 由一个或者多个铝制或者玻璃制成的磁性碟 片,磁头,…

React18源码: Fiber树中的全局状态与双缓冲

Fiber树构造 在React运行时中,fiber树构造位于 react-reconciler 包在正式解读 fiber 树构造之前,再次回顾一下renconciler的4个阶段 1.输入阶段:衔接react-dom包,承接fiber更新请求2.注册调度任务:与调度中心(schedu…

数据存储-文件存储

一、CSV文件存储 csv是python的标准库 列表数据写入csv文件 import csvheader [班级, 姓名, 性别, 手机号, QQ] # 二维数组 rows [[学习一班, 大娃, 男, a130111111122, 987456123],[学习二班, 二娃, 女, a130111111123, 987456155],[学习三班, 三娃, 男, a130111111124, …

SQL 中如何实现多表关联查询?

阅读本文之前请参阅----MySQL 数据库安装教程详解(linux系统和windows系统) 在SQL中,多表关联查询是通过使用JOIN操作来实现的,它允许你从两个或多个表中根据相关列的值来检索数据。以下是几种常见的JOIN类型: …

python+django志愿者社团管理系统36uiu--pycharm

本系统结合计算机系统的结构、概念、模型、原理、方法,在计算机各种优势的情况下,采用python语言,结合django框架与Vue框架以及MYSQL数据库设计并实现的。基于django青年志愿者社团管理主要包括个人中心、学生管理、社团理事管理、社团新闻管…

查看navicat保存的数据库连接密码

背景 经常使用navicat的朋友可能会碰到忘记数据库连接密码的情况,自然会想到navicat连接配置中就保存了密码。 个人经验,按以下步骤可查看密码明文 本人在mac上使用的navicat版本 1,导出connection_local.ncx 点击OK导出保存为connection_l…

【奥威-金蝶云星空BI方案】你要的报表,这里都有!

用金蝶云星空来记账,那确实好,但如果让你再去做一份详细的报表呢?自己开发的话,成本大、耗时长,一旦有了新的需求又要一再开发,长此以往将增加使用者使用难度,降低数据分析对运营决策的时效性。…

QSettings使用示例

解决的问题: 平常要存储一些临时数据,或者ini的系统参数数据,以下是源码解析 如何实现: 实现的UI如下 主要功能: 初始化: m_settings new QSettings("DParamSetting.ini", QSettings::IniFo…

Spring Security学习(七)——父子AuthenticationManager(ProviderManager)

前言 《Spring Security学习(六)——配置多个Provider》有个很奇怪的现象,如果我们不添加DaoAuthenticationProvider到HttpSecurity中,似乎也能够达到类似的效果。那我们为什么要多此一举呢?从文章的效果来看确实是多…

2024最新互联网大厂面试题,(java,python,vue)

最近又赶上跳槽的高峰期,好多粉丝,都问我要有没有最新面试题,索性,我就把我看过的和我面试中的真题,及答案都整理好,整理了《第3版:互联网大厂面试题》并分类150份 PDF,累计 7701页&…

This dependency was not found解决方法

问题如上(前端代码),我是引用js文件出的问题,无法找到api/userManage模块。 解决:没感觉哪有问题,把后面加了个/,就解决了,代表src目录,应该是目录和目录之间应该有/作为分割:

【AUTOSAR】--02 AUTOSAR网络管理相关参数

这是AUTOSAR网络管理梳理的第二篇文章,主要讲解AUTOSAR网络管理的相关参数。第一篇链接【01 AUTOSAR网络管理基础】。​ 相关参数有很多,我挑了一些相对重要的参数,分三部分进行讲解: 第一部分:比较常用&#xff0c…

Excel 面试题及答案(2)

一、VLOOKUP+IF案例: A1 :根据左侧数据源,按姓名匹配《职级》,仅限用函数,不能做任何辅助A2 :根据左侧数据源,按姓名匹配《部门》,仅限用函数,不能做任何辅助A3 :根据右侧考核规则,匹配《绩效比例》,用函数完成(可适当做辅助的单元格区域) =VLOOKUP(F8,IF({1,0},…

二刷代码随想录算法训练营第四天 |24. 两两交换链表中的节点、19.删除链表的倒数第N个节点 面试题 、02.07. 链表相交 、142.环形链表II

目录 一、24. 两两交换链表中的节点 二、19. 删除链表的倒数第 N 个结点 三、面试题 02.07. 链表相交 四、142. 环形链表 II 一、24. 两两交换链表中的节点 题目链接:力扣 文章讲解:代码随想录 视频讲解: 帮你把链表细节学清楚&#xff…