- B站:啥都会一点的研究生
- 公众号:啥都会一点的研究生
前言
YOLOv10 由清华大学研究人员在 Ultralytics版基础上进行进一步开发,引入了一种新的实时目标检测方法,解决了以前版本 YOLO 在后处理和模型架构方面的不足。通过消除非最大抑制(NMS)和优化各种模型组件,YOLOv10 在显著降低计算开销的同时实现了最先进的性能。广泛的实验证明,YOLOv10 在多个模型尺度上实现了卓越的精度-延迟权衡
Code | https://github.com/THU-MIG/yolov10
PDF | https://arxiv.org/abs/2405.14458
概述
实时物体检测旨在以较低的延迟准确预测图像中的物体类别和位置。YOLO 系列在性能和效率之间取得了平衡,因此一直处于这项研究的前沿。然而,对 NMS 的依赖和架构上的低效阻碍了最佳性能的实现。YOLOv10 通过为无 NMS 训练引入一致的双重分配和以效率-准确性为导向的整体模型设计策略,解决了这些问题
模型架构
YOLOv10 的架构借鉴了以往 YOLO 模型的优点,同时引入了几项关键创新。模型架构由以下部分组成:
- Backbone:YOLOv10 中的骨干网负责特征提取,使用增强版 CSPNet(Cross Stage Partial Network)来改善梯度流并减少计算冗余
- Neck:颈部用于汇聚不同尺度的特征,并将其传递给头部。它包括 PAN(Path Aggregation Network)层,可实现有效的多尺度特征融合
- One-to-Many Head:在训练过程中为每个对象生成多个预测,以提供丰富的监督信号并提高学习准确性
- One-to-One Head:在推理过程中为每个对象生成一个最佳预测,从而消除对 NMS 的需求,减少延迟并提高效率
核心特点
-
NMS-Free Training:利用一致的双重分配来消除对 NMS 的需求,从而减少推理延迟
-
Holistic Model Design:从效率和准确性的角度对各种组件进行全面优化,包括轻量级分类头、空间通道去耦向下采样和等级引导块设计
-
Enhanced Model Capabilities:纳入大核卷积和部分自注意模块,在不增加大量计算成本的情况下提高性能
模型型号
YOLOv10 有多种型号,可满足不同的应用需求
- YOLOv10-N:纳米版本,适用于资源极其有限的环境
- YOLOv10-S:兼顾速度和精度的小型版本
- YOLOv10-M:通用的中型版本
- YOLOv10-B:平衡型,宽度增加,精度更高
- YOLOv10-L:大型版本,精度更高,但计算资源增加
- YOLOv10-X:超大型版本可实现最高精度和性能
性能
在准确性和效率方面,YOLOv10 优于以前的 YOLO 版本和其他最先进的模型。例如,在 COCO 数据集上,YOLOv10-S 比具有类似 AP 的 RT-DETR-R18 快 1.8 倍;在性能相同的情况下,YOLOv10-B 比 YOLOv9-C 减少了 46% 的延迟和 25% 的参数
方法
一致的双重分配,实现无 NMS 训练
YOLOv10 采用双重标签分配,在训练过程中将一对多和一对一策略结合起来,以确保丰富的监督和高效的端到端部署。一致匹配度量可调整两种策略之间的监督,从而提高推理过程中的预测质量
效率-准确度驱动的整体模型设计
效率提升
- Lightweight Classification Head:通过使用深度可分离卷积,减少分类头的计算开销
- Spatial-Channel Decoupled Down sampling:解耦空间缩减和信道调制,最大限度地减少信息损失和计算成本
- Rank-Guided Block Design:根据内在阶段冗余调整块设计,确保最佳参数利用
精度提升
- Large-Kernel Convolution:扩大感受野以增强特征提取能力。
- Partial Self-Attention (PSA):整合自注意模块,以最小的开销改进全局表征学习
实验和结果
YOLOv10 在 COCO 等标准基准上进行了广泛测试,显示出卓越的性能和效率。该模型在不同的变体中都取得了最先进的结果,与以前的版本和其他当代探测器相比,在延迟和准确性方面都有显著提高
- 在精度相似的情况下,YOLOv10-S / X 比 RT-DETR-R18 / R101 快 1.8 倍 / 1.3 倍
- 在精度相同的情况下,YOLOv10-B 的参数比 YOLOv9-C 少 25%,延迟比 YOLOv9-C 低 46
- YOLOv10-L / X 的性能比 YOLOv8-L / X 高 0.3 AP / 0.5 AP,参数少 1.8 倍 / 2.3 倍