目标检测算法YOLOv6简介

      YOLOv6由Chuyi Li等人于2022年提出,论文名为:《YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications》,论文见:https://arxiv.org/pdf/2209.02976 ,项目网页:https://github.com/meituan/YOLOv6 ,最新发布版本为0.4.1,License为GPL-3.0。

      以下内容主要来自论文:

      1.Introduction:

      (1).我们凭经验(empirically)观察到激励我们重新设计YOLO框架的几个重要因素:

      1).RepVGG的重新参数化(reparameterization)是一种高级技术,但在检测中尚未得到充分利用。

      2).基于重参数化的检测器的量化也需要细致的处理,否则在训练和推理过程中由于其异构(heterogeneous)配置而导致性能下降将很难处理。

      3).以前的工作往往不太关注部署(deployment),其延迟(latencies)通常是在V100等高成本机器上进行比较。与真实的服务环境相比,硬件上存在差距。

      4).考虑到架构差异,标签分配(label assignment)和损失函数设计等高级领域特定策略需要进一步验证。

      5).对于部署,我们可以容忍训练策略的调整,提高准确率性能但不增加推理成本。

      (2).总结YOLOv6主要方面:

      1).我们针对不同场景(diverse scenarios)的工业应用,重塑(refashion)了一系列不同规模的网络不同规模的架构会有所不同,以实现最佳的速度和准确性权衡(trade-off),其中小型模型具有普通的单路径主干网络(single-path backbone),而大型模型则构建在高效的多分支块(multi-branch blocks)上。

      2).我们为YOLOv6注入了自蒸馏(self-distillation)策略,在分类任务和回归任务上都执行。同时,我们动态调整来自教师和标签(teacher and labels)的知识,以帮助学生模型(student model)在所有训练阶段更有效地学习知识。

      3).我们广泛验证了标签分配、损失函数和数据增强技术的先进检测技术,并有选择地采用它们来进一步提高性能。

      4).我们在RepOptimizer和逐通道蒸馏(channel-wise distillation)的帮助下改革了检测的量化方案,从而实现了快速、准确的检测器。

      2.Method:YOLOv6的改进设计由以下组件组成:网络设计、标签分配、损失函数、数据增强、易于行业应用(industry-handy)的改进以及量化和部署

      (1).Network Design:Backbone:与其他主流架构相比,我们发现RepVGG主干网络在小型网络中以相似的推理速度配备了更多的特征表示能力,但由于参数和计算成本的爆炸性增长,它很难被缩放(scaled)以获得更大的模型。在这方面,我们将RepBlock作为我们小型网络的构建块(building block)。对于大型模型,我们修改了更高效的CSP块,名为CSPStackRep Block。Neck:YOLOv6的Neck采用了继YOLOv4和YOLOv5之后的PAN拓扑。我们使用RepBlocks或CSPStackRep Blocks增强颈部(Neck)以获得RepPAN。Head:我们简化了解耦头(decoupled head),使其更加高效,称为高效解耦头(Efficient Decoupled Head)。

      单阶段(one-stage)目标检测器一般由以下部分组成:a backbone, a neck and a head。Backbone主要决定特征表示能力,同时其设计也对推理效率有着至关重要的影响,因为它承载着很大一部分计算成本。Neck用于聚合低级物理特征与高级语义特征,然后构建各级金字塔特征图Head由多个卷积层组成,它根据Neck组装(assembled)的多级特征来预测最终的检测结果。从结构的角度来看,它可以分为基于锚的和无锚的(anchor-based and anchor-free),或者更确切地说,参数耦合头和参数解耦头(parameter-coupled head and parameter-decoupled head)。

      在YOLOv6中,基于硬件友好的网络设计原则,我们提出了两个可缩放的可重参数化的Backbone和Neck以适应不同尺寸的模型,以及具有混合通道(hybrid-channel)策略的高效解耦头。YOLOv6的整体架构如下图所示:

      1).Backbone: 主干网络的设计对检测模型的有效性和效率有很大影响。之前的研究表明,多分支网络(multibranch networks)通常可以比单路径(single-path)网络实现更好的分类性能,但通常会降低并行度(parallelism)并导致推理延迟增加。相反,像VGG这样的普通单路径网络具有高并行性和更少内存占用的优势,从而带来更高的推理效率。最近在RepVGG中,提出了一种结构重新参数化(re-parameterization)方法,将训练时多分支拓扑与推理时简单架构解耦(decouple),以实现更好的速度精度权衡。

      受上述工作的启发,我们设计了一个高效的可重参数化主干网络,表示为EfficientRep。对于小型模型,在训练阶段,主干网络的主要组成部分是RepBlock,如下图(a)所示。在推理阶段,每个RepBlock通过ReLU激活函数转换为3*3卷积层堆栈(表示为RepConv),如下图(b)所示。通常,3*3卷积在主流 GPU和CPU上进行了高度优化,并且具有更高的计算密度。因此,EfficientRep Backbone充分利用了硬件的计算能力,从而显着降低了推理延迟,同时增强了表示能力。

      然而,我们注意到,随着模型容量的进一步扩大,单路径普通网络(single-path plain network)中的计算成本和参数数量呈指数级增长。为了在计算负担和准确性之间实现更好的权衡(trade-off),我们修改了CSPStackRep块来构建中型和大型网络的主干网络。如下图(c)所示,CSPStackRep Block由三个1*1卷积层和一个由两个带有残差连接的RepVGG块或RepConv(分别在训练或推理时)组成的子块堆栈组成。此外,采用跨阶段部分(cross stage partial,CSP)连接来提高性能,而无需过多的计算成本。与CSPRepResStage相比,它具有更简洁的外观,并考虑了准确性和速度之间的平衡。

      2).Neck:在实践中,多尺度的特征集成(feature integration at multiple scales)已被证明是目标检测的关键且有效的部分。我们采用YOLOv4和 YOLOv5改进的PAN拓扑作为我们的检测颈(neck)的基础。此外,我们将YOLOv5中使用的CSPBlock替换为RepBlock(针对小模型)或CSPStackRep Block(针对大模型),并相应调整宽度和深度。YOLOv6的Neck表示为Rep-PAN

      3).Head:

      Efficient decoupled head:YOLOv5的检测头是一个耦合头(coupled head),在分类和定位分支之间共享参数,而FCOS和YOLOX中的对应检测头将两个分支解耦(decouple),并在每个分支中引入额外的两个3*3卷积层以提高性能。在YOLOv6中,我们采用混合通道(hybrid-channel)策略来构建更高效的解耦头(decoupled head)。具体来说,我们将中间3*3卷积层的数量减少到只有一个。head的宽度由backbone和neck的宽度乘数共同缩放(jointly scaled)。这些修改进一步降低了计算成本,以实现更低的推理延迟。

      Anchor-free:无锚检测器因其更好的泛化能力和解码预测结果的简单性而脱颖而出。其后处理(post-processing)的时间成本大大降低。无锚检测器有两种类型:基于锚点的检测器和基于关键点的检测器。在YOLOv6中,我们采用基于锚点的范式(paradigm),其框回归分支实际上预测从锚点到边界框四个边的距离。

      (2).Label Assignment:我们通过大量实验评估了YOLOv6上标签分配策略的最新进展,结果表明TAL更有效且更适合训练。标签分配负责在训练阶段将标签分配给预定义的锚点。之前的工作提出了各种标签分配策略,从简单的基于IoU的策略和内部ground-truth方法到其他更复杂的方案。

      1).SimOTA:OTA将目标检测中的标签分配视为最优传输问题。它从全局角度为每个ground-truth目标定义正/负训练样本。SimOTA是OTA的简化版本,减少了额外的超参数并保持了性能。YOLOv6早期版本采用SimOTA作为标签分配方法。然而,在实践中,我们发现引入SimOTA会减慢训练过程。而陷入训练不稳定的情况也并不罕见。因此,我们希望有SimOTA的替代品。

      2).Task alignment learning:任务对齐学习(Task Alignment Learning, TAL)首先在TOOD中提出,其中设计了分类分数和预测框质量的统一度量(unified metric)。IoU被替换为这个指标(metric)来分配目标标签。在一定程度上缓解了任务(分类和框回归)错位(misalignment)的问题。

      TOOD的另一个主要贡献是关于任务对齐头(task-aligned head, T-head)。T-head堆叠卷积层来构建交互特征,在其之上使用任务对齐预测器(Task-Aligned Predictor, TAP)。PP-YOLOE对T-head进行了改进,将T-head中的层注意力(layer attention)替换为轻量级的ESE注意力,形成ET-head。然而,我们发现ET-head会降低我们模型中的推理速度,并且不会带来任何精度增益。因此,我们保留了高效解耦头的设计。

      此外,我们观察到TAL可以比SimOTA带来更多的性能提升并稳定训练。 因此,我们采用TAL作为YOLOv6中默认的标签分配策略

      (3).Loss Function:主流的anchor-free目标检测器的损失函数包括分类损失、框回归损失和目标损失。对于每个损失,我们使用所有可用的技术进行系统地实验,最终选择VariFocal Loss作为我们的分类损失,选择SIoU/GIoU Loss作为我们的回归损失。目标检测包含两个子任务:分类和定位,对应两个损失函数:分类损失和框回归损失。对于每个子任务,近年来提出了各种损失函数。

      1).Classification Loss:提高分类器的性能是优化检测器的关键部分。Focal Loss对传统的交叉熵损失(cross-entropy loss)进行了修改,以解决正例与负例之间、难样本与易样本(hard and easy samples)之间的类别不平衡问题。为了解决训练和推理之间质量估计和分类使用不一致的问题,质量焦点损失(Quality Focal Loss, QFL)进一步扩展了焦点损失,将分类分数和定位质量(localization quality)联合表示,用于分类监督(supervision)。而VariFocal Loss(VFL)源于Focal Loss,但它对正样本和负样本的处理不对称。通过考虑不同重要程度的正样本和负样本,它平衡了来自两个样本的学习信号。Poly Loss将常用的分类损失分解为一系列加权多项式基。它在不同的任务和数据集上调整多项式系数,通过实验证明比交叉熵损失和焦点损失更好。我们在YOLOv6上评估所有这些高级分类损失,最终采用VFL。

      2).Box Regression Loss:框回归损失提供了精确定位边界框的重要学习信号。L1损失是早期作品中原始的框回归损失。逐渐地,各种精心设计的框回归损失涌现,例如IoU系列损失和概率损失。

      IoU-series Loss:IoU损失将预测框的四个边界作为一个整体进行回归。由于其与评价指标(evaluation metric)的一致性,已被证明是有效的。 IoU有多种变体,如GIoU、DIoU、CIoU、α-IoU和SIoU等相关的损失函数。SIoU应用于YOLOv6-N和YOLOv6-T,而其他则使用GIoU

      Probability Loss:分布焦点损失(Distribution Focal Loss, DFL)将框位置的底层连续分布(underlying continuous distribution of box locations)简化为离散概率分布。它考虑了数据中的模糊性和不确定性,而不引入任何其他强先验框,这有助于提高框定位精度,特别是当真实框的边界模糊(blurred)时。在DFL的基础上,DFLv2开发了一个轻量级子网络,利用分布统计数据和真实定位质量(real localization quality)之间的密切相关性,进一步提高检测性能。然而,DFL通常会比一般框回归输出多17倍的回归值,从而导致大量开销。额外的计算成本极大地阻碍了小模型的训练。而DFLv2由于额外的子网络进一步增加了计算负担。在我们的实验中,DFLv2在我们的模型上带来了与DFL类似的性能增益。因此,我们在YOLOv6-M/L中只采用DFL

      3).Object Loss:目标损失首先在FCOS中提出,用于降低低质量边界框的分数,以便在后处理中将其过滤掉。它也被用于YOLOX中以加速收敛并提高网络精度。作为像FCOS和YOLOX这样的无锚(anchor-free)框架,我们已经尝试将目标损失引入YOLOv6。不幸的是,它并没有带来太多积极的影响。

      (4).Industry-handy improvements:我们引入了额外的常见实践和技巧来提高性能,包括自蒸馏(self-distillation)和更多的训练周期(epochs)。对于自蒸馏,分类和框回归分别由教师模型(teacher model,是一个已经充分训练且表现良好的模型,它用于指导另一个待训练或较简单的模型(通常被称为student model或学生模型)的学习过程)监督。DFL使得框回归的蒸馏成为可能。此外,软标签和硬标签(soft and hard labels)的信息比例通过余弦衰减动态下降,这有助于学生在训练过程中的不同阶段选择性地获取知识(knowledge)。另外,我们在评估时遇到了没有添加额外灰色边框(gray borders)而导致性能受损的问题,为此我们提供了一些补救措施。以下技巧可以在实际实践中使用。它们并不是为了公平比较,而是稳定地产生性能增益,而不需要太多繁琐的工作。

      1).More training epochs:经验结果表明,随着训练时间的增加,检测器的性能不断提高。我们将训练持续时间从300 epoch延长到400 epoch以达到更好的收敛(convergence)。

      2)Self-distillation:为了进一步提高模型精度,同时不引入太多额外的计算成本,我们应用经典知识蒸馏技术来最小化教师和学生(teacher and the student)预测之间的KL散度(KL-divergence)。我们将教师限制为学生本身,但经过预先训练,因此我们称之为自蒸馏。注意,KL散度通常用于衡量数据分布之间的差异。然而,目标检测中有两个子任务,其中只有分类任务可以直接利用基于KL散度的知识蒸馏。 由于DFL损失,我们也可以在框回归上执行它。

      3).Gray border of images:我们注意到,在评估YOLOv5和YOLOv7实现中的模型性能时,每个图像周围都有半步灰色边框(half-stride gray border)。虽然没有添加有用的信息,但它有助于检测图像边缘附近的目标。这个技巧也适用于YOLOv6。然而,额外的灰色像素明显降低了推理速度。没有灰色边框,YOLOv6的性能会恶化(deteriorates)。我们假设该问题与Mosaic增强中的灰色边框填充有关。进行了在最后一个epoch关闭Mosaic增强的实验(也称为淡出策略)以进行验证。对此,我们改变灰色边框的区域,并将带有灰色边框的图像直接调整为目标图像大小。结合这两种策略,我们的模型可以保持甚至提高性能,而不会降低推理速度。

      (5).Quantization and deployment:为了解决基于量化重参数化(reparameterization)模型的性能下降问题,我们使用RepOptimizer训练YOLOv6以获得PTQ友好的权重。我们进一步采用带有通道蒸馏(channel-wise distillation)和图形优化的QAT来追求极限性能。

      对于工业部署,通常的做法是采用量化来进一步加快运行时间,而不会影响太多性能。训练后量化(Post-training quantization, PTQ)仅使用较小的校准集(calibration set)直接量化模型。而量化感知训练(quantization-aware training , QAT)通过访问训练集进一步提高性能,通常与蒸馏结合使用。然而,由于YOLOv6中大量使用重新参数化块(re-parameterization blocks),以前的PTQ技术无法产生高性能,而在训练和推理过程中匹配假量化器(fake quantizers)时很难结合QAT。我们在这里展示部署过程中的陷阱(pitfalls)和解决方法。

      1).Reparameterizing Optimizer:RepOptimizer在每个优化步骤中提出梯度重新参数化。该技术还很好地解决了基于重新参数化的模型的量化问题。因此,我们以这种方式重建YOLOv6的重新参数化块,并使用RepOptimizer对其进行训练以获得PTQ友好的权重。

      2).Sensitivity Analysis:我们通过将量化敏感(quantization-sensitive)操作部分转换为浮动计算(float computation)来进一步提高PTQ性能。为了获得灵敏度分布,常用的有几个指标:均方误差(MSE)、信噪比(SNR)和余弦相似度。通常为了进行比较,人们可以选择输出特征图(在激活某一层之后)来计算有或没有量化的这些指标。作为替代方案,也可以通过打开和关闭特定层的量化来计算验证AP。我们在使用RepOptimizer训练的YOLOv6-S模型上计算所有这些指标,并选择前6个敏感层以浮动方式运行。

      3).Quantization-aware Training with Channel-wise Distillation:如果PTQ不足,我们建议采用量化感知训练(QAT)来提高量化性能。为了解决训练和推理过程中假量化器不一致的问题,有必要在RepOptimizer的基础上构建QAT。此外,在YOLOv6框架内采用了逐通道蒸馏(channel-wise distillation,后来称为CW Distill),如下图所示。这也是一种自蒸馏方法,其中教师网络就是FP32精度的学生本身。

      GitHub:https://github.com/fengbingchun/NN_Test

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/8823.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python程序设计 函数(三)

练习十一 函数 第1关: 一元二次方程的根 定义一个函数qg,输入一元二次方程的系数a,b,c 当判别式大于0,返回1和两个根 当判别式等于0,返回0和两个根 当判别式小于0,访问-1和两个根 在主程序中,根据函数返回…

大模型微调之 在亚马逊AWS上实战LlaMA案例(三)

大模型微调之 在亚马逊AWS上实战LlaMA案例(三) 使用 QLoRA 增强语言模型:Amazon SageMaker 上 LLaMA 2 的高效微调 语言模型在自然语言处理任务中发挥着关键作用,但训练和微调大型模型可能会占用大量内存且耗时。在本文中&…

STM32 各外设GPIO配置

高级定时器TIM1/TIM8 通用定时器TIM2/3/4/5 USART SPI I2S I2C接口 BxCAN SDIO ADC/DAC 其它I/O功能

【数据库原理及应用】期末复习汇总高校期末真题试卷08

试卷 一、选择题(每题 2 分,共 30 分)    1. ___ ____是长期存储在计算机内的有组织,可共享的数据集合. A.数据库管理系统 B.数据库系统 C.数据库 D.文件组织 2. 数据库类型是按照 来划分…

照片格式怎么转换jpg?利用在线图片处理工具完成操作

图片有许多不同的格式类型,其中我们最常见的是jpg和png等。通常在平台上上传图片时,大多数要求使用jpg格式较多,但你知道吗?不同的设备和软件可能有不同的默认保存格式。如果你发现你的照片不是jpg格式,该如何转换呢&a…

基于springboot+mybatis+vue的项目实战之前端

步骤: 1、项目准备:新建项目,并删除自带demo程序,修改application.properties. 2、使用Apifox准备好json数据的mock地址 3、编写基于vue的静态页面 4、运行 整个的目录结构如下: 0、项目准备 新建项目&#xff0…

MindSponge分子动力学模拟——软件架构

技术背景 在前面一篇文章中,我们介绍了MindSponge的两种不同的安装与使用方法,让大家能够上手使用。这篇文章主要讲解MindSponge的软件架构,并且协同mindscience仓库讲解一下二者的区别。 整体架构 首先我们来了解一下MindSponge独立仓库的…

全新策略打造智慧公厕,引领智慧城市公共卫生的信息化发展

智慧公厕的建设至关重要,要确保高质量、高效率,并以人民为中心。在规划方面,融合各种高精尖的技术是必不可少的。而在使用方面,提供更多贴心智能设备是体现温度的关键。让人民群众能够享受到更多的获得感、幸福感和安全感&#xf…

RK3568平台(基础篇)linux错误码

一.概述 linux应用程序开发过程中,经常会遇到一些错误信息的返回,存在的可能性有,参数有误、非法访问、系统资源限制、设备/文件不存在、访问权限限制等等。对于这类错误,可以通过perror函数输出具体描述,或者通过str…

CCF-Csp算法能力认证, 202303-1田地丈量(C++)含解析

前言 推荐书目,在这里推荐那一本《算法笔记》(胡明),需要PDF的话,链接如下 「链接:https://pan.xunlei.com/s/VNvz4BUFYqnx8kJ4BI4v1ywPA1?pwd6vdq# 提取码:6vdq”复制这段内容后打开手机迅雷…

内网安全综合管理系统是什么 | 好用的那我王安全管理系统有哪些

内网安全综合管理系统是指一种集成终端管理、网络管理、内容管理、资产管理等功能的综合性安全管理系统。它主要对内网上的主机进行统一安全管理,包括对网络主机用户操作实施监督控制,并对主机中的安全软件(如主机入侵监测系统、主机防火墙和…

python将两张图片对齐

目录 需要对齐的照片如下: 源码: 结果: 需要对齐的照片如下: 源码: import cv2 import numpy as np from matplotlib import pyplot as plt# 读取两张图片 imgA cv2.imread(./out/out/3.png) imgB cv2.imread(./…

Redis如何保证数据一致性?

Redis如何保证数据一致性? Redis通常作为持久层数据库(例如MySQL)的缓存层,如果缓存或者数据库数据发生改变,如何保证双方的数据是一致的? 这其实是要分情况讨论滴,对数据一致性不同的要求有不…

Tomcat、MySQL、Redis最大支持说明

文章目录 一、Tomcat二、MySQL三、Redis1、最大连接数2、TPS、QPS3、key和value最大支持 一、Tomcat 查看SpringBoot内置Tomcat的源码,如下: 主要就是看抽象类AbstractEndpoint,可以看到默认的核心线程数10,最大线程数200 通过…

docker学习笔记(三)搭建NFS服务实验

目录 什么是NFS 简单架构​编辑 一.搭建nfs服务器 二.新建共享目录和网页文件 三.设置共享目录 四:创建使用nfs共享目录的卷 五:创建容器使用nfs-web-1卷 六:测试访问 七:是否同步测试 什么是NFS NFS 服务器:ne…

autodl 上 使用 LLaMA-Factory 微调 中文版 llama3

autodl 上 使用 LLaMA-Factory 微调 中文版 llama3 环境准备创建虚拟环境下载微调工具 LLaMA-Factory下载 llama3-8B开始微调测试微调结果模型合并后导出vllm 加速推理 环境准备 autodl 服务器: https://www.autodl.com/console/homepage/personal 基本上充 5 块钱…

美团二面:SpringBoot读取配置优先级顺序是什么?

引言 Spring Boot作为一种轻量级的Java应用程序框架,以其开箱即用、快速搭建新项目的特性赢得了广大开发者的青睐。其核心理念之一就是简化配置过程,使开发者能够快速响应复杂多变的生产环境需求。为了实现这一点,Spring Boot支持丰富的外部…

接口加密解决方案:Python的各种加密实现

01 前言 在现代软件开发中,接口测试已经成为了不可或缺的一部分。随着互联网的普及,越来越多的应用程序都采用了接口作为数据传输的方式。接口测试的目的是确保接口的正确性、稳定性和安全性,从而保障系统的正常运行。 在接口测试中&#…

Spring Security初探

url说明方法/login/oauth/authorize无登录态时跳转到/authentication/require,有登录态时跳转到/loginorg.springframework.security.oauth2.provider.endpoint.AuthorizationEndpoint#authorize/authentication/require自己写的用于重定向到登录页面的urlcn.merryy…

市场公关人的日常工作是什么?

作为一个从事多年的市场公关人,每到别人放假的时候就是我们最忙的时候,手上几个KOL项目安排探店,同时还要筹备品牌VIP活动。扎堆的事情每天忙得睁眼就是工作。 基本上来说,公关人是挺苦逼的,并没有大家看上去那么光鲜…