YOLOv10:无需NMS的目标检测新范式(强的离谱)

本本来自公众号“AI大道理”。

YOLO系列一直存在nms,然而nms非常耗时,且总给人一种不简单,不直接的感觉。能不能去掉nms?

YOLOv10终于实现了!

YOLOV10的改进

1、Backbone

2、Neck

3、Head与双标签分配

4、Loss计算

1、Backbone

SCDown:

SCDown(Spatial-channel decoupled downsampling)将空间和通道解耦。先通过 1 × 1的逐点卷积调节通道数,再通过 3 × 3 的深度卷积做空间下采样,在降低计算成本的同时最大限度保留信息。

C2fCIB:

在结构上 C2fCIB 就是用 CIB (compact inverted block)替换了原本 C2f 中的 Bottleneck,CIB 则是将 Bottleneck 中的标准卷积用深度卷积加逐点卷积进行替换。

PSA:

PSA是一种高效的局部自注意力模块,它将卷积后的特征一部分输入到由多头自注意力模块MHSA和前馈网络FFN组成的模块中,然后将两部分连接起来并通过卷积进行融合。增强全局建模能力,降低计算复杂度。

MHSA:

多头注意力的动机是:与其将输入投影到较高的维度,计算单个注意力,不如将输入投影到h个较低的维度,计算h个注意力,然后将h个注意力的输出在特征维度Concat起来,最后利用MLP进行多头特征聚合,得到MHSA的输出。MHSA的公式如下:

2、Neck

Neck总体上还是PaNet结构,只是做了一些简单的模块替换。其中SCDown代替一个CBS,C2fCIB代替了两个C2f。

3、Head与双标签分配(重头戏)

YOLOv10采用了双头架构。

模型在训练期间使用两个预测头,一个使用一对多分配,另一个使用一对一分配。这样,模型可以在训练期间利用一对多分配的丰富监督信号,而在推理期间则使用一对一分配的预测结果,从而实现无NMS的高效推理。

一对一分配:仅一个预测框被分配给一个真实物体标签,避免了NMS,但由于监督信号较弱,容易导致收敛速度慢和性能欠佳。将YOLOv8使用的TAL中的topk设置为1,即每个标签将根据类别与回归的双重代价被分配至多一个正样本在训练阶段,该检测头的预测都只做一对一的标签分配。

一对多分配:在训练期间,多个预测框被分配给一个真实物体标签。这种策略提供了丰富的监督信号,优化效果更好。“一对多”检测头就是将特征金字塔输出的多尺度特征送给另一个检测头去做预测,只不过在训练阶段,这个检测头的预测采用一对多的标签分配策略(TAL中的topk设置为10,即YOLOv8的默认设置)。

对于参数的更新,backbone和neck都是由one-to-many进行回传的,one-to-one仅训练自己的检测头。

掉点原因:一对多训练了主干和neck,但是推理的时候由于抛弃了一对多,只留下一对一,因此,head还是一对一训练起来的。

4、Loss计算

分类损失:

其中,ln代表某个anchor在某个类别上的分类损失,一共有b*a*80个l;wn统一取1;yn在正样本处的值为对应的目标分数,其余负样本处的值为0;

定位损失:

CIOU:

DFL:

5、总结

YOLOv10引入了额外的one-to-one头部,通过双分配策略,在训练时提供更丰富的监督信息,而在推理时则利用one-to-one头部进行高效预测,从而无需NMS后处理。

 ——————

浅谈则止,细致入微AI大道理

扫描下方“AI大道理”,选择“关注”公众号

—————————————————————

  

—————————————————————

投稿吧   | 留言吧

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/33824.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

看看人家的单点登录认证系统,确实清新优雅!

插: AI时代,程序员或多或少要了解些人工智能,前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家(前言 – 人工智能教程 ) 坚持不懈,越努力越幸运,大家…

Windows安装dig命令

背景 Windows环境下 cmd 执行 dig 命令提示“dig不是内部或外部命令”,需要在Windows环境下安装dig命令 下载dig软件 可通过网络搜索“Windows平台的Bind_9.16.16”,或者访问https://download.csdn.net/download/m0_46665077/62245100 下载 Windows…

Hive笔记-4

240618-Hive笔记-4 4.2 Insert 4.2.1 将查询结果插入表中 1) 语法 INSERT (INTO | OVERWRITE) TABLE tablename [PARTITION (partcol1val1,partcol2val2 ...)] select_stamement; 关键字说明: (1) INTO: 将结果追加到目标表 (2) OVERWRITE: 用结果覆盖原有数据 2) 案例…

表单prop必填验证根据el-radio-group的值来动态绑定

1、radio的值为5时输入框是必填,其余时候是非必填 2、看图 3、代码 data() {return {optForm:{type:,remark:,},rules:{type:[{ required: true,trigger: change,message:该项为必填项}],remark:[]}};},watch: {"optForm.type"(newVal, oldVal) {this.$…

红酒品鉴秘籍:一键解锁味觉宇宙,开启你的味觉探险新纪元

红酒,这种优雅的液体,蕴藏着丰富的口感和层次,每一次的品鉴都是一次味觉的探险。今天,就让我们一起探索红酒品鉴的奥秘,解锁味觉的新世界,而在这个过程中,雷盛红酒将成为我们的向导,…

定制化服务:可燃气体报警器检定收费新模式

随着工业化和城市化的快速发展,可燃气体报警器作为重要的安全监测设备,其准确性和可靠性对于保障人们的生命财产安全至关重要。因此,可燃气体报警器的定期检定和维护显得尤为重要。 在这篇文章中,佰德将围绕可燃气体报警器检定收…

Windows重新安装安全中心解决白屏问题

重新安装Windows安全中心(Windows Security Center)涉及多个步骤,包括重置Windows安全功能和重新安装Windows安全应用。以下是详细的步骤: 1. 通过PowerShell重置Windows安全中心 打开PowerShell: 在开始菜单中搜索“PowerShell”…

【多通道卷积终结篇,通俗易懂,清晰必读】

作为常识, 1、卷积层 输出特征图通道数 卷积核个数 与输入特征图通道数无关, 2、多卷积核处理多通道特征图的机制过程如下: 本文的参考资料为知乎:一文读懂Faster RCNN。 对于多通道图像多卷积核做卷积,计算方式如…

科创板持续反弹,如何看几个焦点问题:成交、解禁、并购

从去年鼓励市场重估高分红高现金流等优质央国企,到今年对创新科技企业的政策着墨增加,下一阶段市场投资理念将回归均衡。 科创板基本面的边际变化是根本,政策是触发因素,若干线索在当时出现了共振,这是一轮市场久违的…

软考中级复习过程

中级软考复习过程 先上成绩截图 ~~~~ 总结一下自己的软考中级备考过程,个人备考的是软件设计师,首先对于软考中的大部分内容其实我都学过的,只是有些内容确实会忘记,我把整个备考的过程分为前后两个阶段。 ~~~~ 前期阶段&#…

Axure RP 9 安装详细笔记

一、下载 1.官网下载地址 Axure RP 9 MAC正式版:https://axure.cachefly.net/versions/9-0/AxureRP-Setup-3740.dmgAxure RP 9 WINDOWS正式版:https://axure.cachefly.net/versions/9-0/AxureRP-Setup-3740.exe2.网盘下载 链接:https://pa…

一键登录功能实现(采用极光SDK)

前端流程 1. 引入极光认证 SDK&#xff1a; 通过 <script> 标签引入 &#xff0c;在 public/index.html 中确认 SDK 脚本已正确加载&#xff1a;参考官网Web SDK 概述 - 极光文档 <!-- 引入极光认证 SDK --> <script type"text/javascript" src&qu…

ElementUI table的设置成Excel表格效果

实现效果代码最重要的部分 <el-table:data"Commision"border:row-style"{height: 0}":cell-style"{padding: 0 ,lineHeight: 0}":header-cell-style"{padding: 0,height: 0,ineHeight: 0}"><el-col :span"11">&…

EtherCAT笔记(四)——EtherCAT数据帧结构

EtherCAT数据包含2B的数据头和44~1948B的数据区。数据区由多个子报文组成。由于EtherCAT本身是通过以太网数据帧的形式传输&#xff0c;因此其协议帧中会携带以太网的帧头。 其中&#xff0c;解释如下&#xff1a; &#xff08;1&#xff09;以太网数据帧头&#xff1a;EtherC…

经典神经网络(12)Transformer代码详解及其在Multi30k数据集上的训练

经典神经网络(12)Transformer代码详解及其在Multi30k数据集上的训练 论文链接&#xff1a;https://arxiv.org/pdf/1706.03762v2 原理可以参考&#xff1a;Self-Attention和Transformer 网络架构图如下&#xff1a; 1 Transformer编码器模块 1.1 Embedding位置编码 在实际…

【AI大模型】GPTS 与 Assistants API

前言 2023 年 11 月 6 日&#xff0c;OpenAI DevDay 发表了一系列新能力&#xff0c;其中包括&#xff1a;GPT Store 和 Assistants API。 GPTs 和 Assistants API 本质是降低开发门槛 可操控性和易用性之间的权衡与折中&#xff1a; 更多技术路线选择&#xff1a;原生 API、…

6.二叉树.题目1

6.二叉树.题目 题目1.翻转二叉树2.对称二叉树3.二叉树的最大深度4.二叉树的最小深度5.完全二叉树的节点个数6.平衡二叉树7.二叉树的所有路径8.左叶子之和 总结 题目 1.翻转二叉树 (题目链接) 直观的思路是就把每一个节点的左右孩子交换一下就可以了&#xff0c; 深度优先-递归…

stm32学习笔记---TIM输出比较(理论部分)

目录 TIM简介 定时器类型 基本定时器的结构图 时基单元 预分频器 计数器 自动重装寄存器 主模式触发DAC的功能 通用定时器的结构图 计数器的计数模式 内外时钟源选择和主从触发模式的结构 外部时钟模式2 外部时钟模式1 其他部分 输出比较电路 输入捕获电路 高…

深度测试中的隐藏面消除技术

by STANCH 标签&#xff1a;#计算机图形学 #深度测试 #深度测试 #隐藏面消除 1.概述 根据我们的日常经验&#xff0c;近处的物体会挡住后面的物体&#xff0c;在三维场景中通常通过深度缓冲来实现这样的效果。深度缓冲记录着屏幕对应的每个像素的深度值。模型一开始所在的局部…

我对ChatGPT-5的期待

在科技飞速发展的今天&#xff0c;人工智能&#xff08;AI&#xff09;已经成为我们生活中不可或缺的一部分。尤其是近年来&#xff0c;随着ChatGPT等先进AI模型的推出&#xff0c;我们见证了AI技术在智能水平上的巨大飞跃。作为这一领域的最新成果&#xff0c;GPT-5的即将发布…