目标检测算法YOLOv7简介

      YOLOv7由Chien-Yao Wang等人于2022年提出,论文名为:《YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors》,论文见:https://arxiv.org/pdf/2207.02696 ,项目网页:https://github.com/WongKinYiu/yolov7 。

      以下内容主要来自论文:

      1.Introduction

      近年来,实时目标检测器仍在针对不同的边缘设备(edge device)进行开发。例如,MCUNet和NanoDet的发展重点是生产低功耗单芯片并提高边缘CPU的推理速度。至于YOLOX和YOLOR等方法,它们专注于提高各种GPU的推理速度。最近,实时目标检测器的发展主要集中在高效架构的设计上。至于可以在CPU上使用的实时目标检测器,其设计大多基于MobileNet、ShuffleNet或GhostNet。另一种主流的实时目标检测器是针对GPU开发的,它们大多使用ResNet、DarkNet或DLA,然后使用CSPNet策略来优化架构。本文提出的方法的发展方向与当前主流的实时目标检测器不同。除了架构优化之外,我们提出的方法还将重点关注训练过程的优化。我们的重点将是一些优化的模块和优化方法,这些模块和优化方法可以加强训练成本以提高目标检测的准确性,但不会增加推理成本。我们将所提出的模块和优化方法称为可训练的免费赠品(bag-of-freebies)。

      最近,模型重新参数化(re-parameterization)和动态标签分配(label assignment)已成为网络训练和目标检测中的重要主题。主要是在上述新概念提出之后,目标检测器的训练演化出了许多新的问题。在本文中,我们将介绍我们发现的一些新问题,并设计有效的方法来解决这些问题。对于模型重参数化,我们利用梯度传播路径的概念分析了适用于不同网络层的模型重参数化策略,并提出了规划(planned)的重参数化模型。此外,当我们发现使用动态标签分配技术时,具有多个输出层的模型的训练会产生新的问题。即:"如何为不同分支的输出分配动态目标?" 针对这个问题,我们提出了一种新的标签分配方法,称为从粗到细引导标签分配(coarse-to-fine lead guided label assignment)。

      本文的贡献总结如下:(1)我们设计了几种可训练的bag-of-freebies方法,使得实时目标检测可以在不增加推理成本的情况下大大提高检测精度;(2)对于目标检测方法的演变,我们发现了两个新问题,即重新参数化模块如何替换原始模块,以及动态标签分配策略如何处理对不同输出层的分配。此外,我们还提出了解决这些问题所带来的困难的方法;(3)我们为实时目标检测器提出了"扩展"和"复合缩放"("extend" and "compound scaling")方法,可以有效地利用参数和计算;(4)我们提出的方法可以有效减少最先进(state-of-the-art)的实时目标检测器约40%的参数和50%的计算量,并且具有更快的推理速度和更高的检测精度。

      2.Related work

      (1).Real-time object detectors:目前最先进的实时目标检测器主要基于YOLO和FCOS。能够成为最先进的实时目标检测器通常需要以下特性:1)更快、更强的网络架构;2)更有效的特征整合方法;3)更准确的检测方法;4)更鲁棒的损失函数;5)更高效的标签分配方法;6)更高效的训练方法。在本文中,我们不打算探索需要额外数据或大型模型的自监督学习或知识蒸馏方法。相反,我们将针对与上述4)、5)和6)相关的最先进方法衍生的问题,设计新的可训练的bag-of-freebies方法。

      (2).Model re-parameterization:模型重新参数化技术在推理阶段将多个计算模块合并为一个。模型重参数化技术可以看作是一种集成(ensemble)技术,我们可以将其分为两类,即模块级集成和模型级集成。模型级重新参数化以获得最终推理模型有两种常见做法。一种是用不同的训练数据训练多个相同的模型,然后对多个训练好的模型的权重进行平均。另一种是对不同迭代次数的模型权重进行加权平均。模块级重参数化是最近比较热门的研究问题。此类方法在训练时将一个模块拆分为多个相同或不同的模块分支,并在推理时将多个分支模块集成为完全等效的模块。然而,并非所有提出的重新参数化模块都可以完美地应用于不同的架构。考虑到这一点,我们开发了新的重参数化模块,并针对各种架构设计了相关的应用策略。

      (3).Model scaling:模型缩放是一种放大或缩小已设计模型并使其适合不同计算设备的方法。模型缩放方法通常使用不同的缩放因子,如分辨率(输入图像的大小)、深度(层数)、宽度(通道数)、阶段(特征金字塔数),从而很好的权衡了网络参数量、计算量、推理速度和准确性。网络架构搜索(Network architecture search, NAS)是常用的模型缩放方法之一。NAS可以自动从搜索空间中搜索合适的缩放因子,而无需定义过于复杂的规则。NAS的缺点是需要非常昂贵的计算才能完成模型缩放因子的搜索。通过查阅文献,我们发现几乎所有模型缩放方法都独立分析单个缩放因子,甚至复合缩放类别中的方法也独立优化缩放因子。其原因是大多数流行的NAS架构处理的缩放因子相关性不是很强。我们观察到,所有基于级联(concatenation-based)的模型(例如DenseNet或VoVNet)在缩放此类模型的深度时都会改变某些层的输入宽度。由于所提出的架构是基于级联的,我们必须为此模型设计一种新的复合缩放方法。

      3.Architecture

      (1).Extended efficient layer aggregation networks:在大多数关于设计高效架构的文献中,主要考虑的只是参数数量、计算量和计算密度。如下图所示:(b)中CSPVoVNet的设计是VoVNet的一种变体。除了考虑上述基本设计问题外,CSPVoVNet的架构还分析了梯度路径,以使不同层的权重能够学习更多样的特征。上述梯度分析方法使推理更快、更准确。(c)中的ELAN考虑了以下设计策略--"如何设计高效的网络?"。他们得出了一个结论:通过控制最短最长梯度路径,更深的网络可以有效地学习和收敛。本文在ELAN的基础上提出了Extend-ELAN(E-ELAN),其主要架构如图(d)所示。

      无论梯度路径长度和大规模(large-scale)ELAN中计算块的堆叠数量如何,它都达到了稳定状态。如果无限地堆叠更多的计算块,这种稳定状态可能会被破坏,参数利用率就会下降。所提出的E-ELAN利用expand、shuffle、merge基数(cardinality)来实现在不破坏原有梯度路径的情况下不断增强网络的学习能力。在架构方面,E-ELAN仅改变了计算块的架构,而过渡层(transition layer)的架构完全不变。我们的策略是使用组卷积来扩展计算块的通道和基数。我们将对计算层的所有计算块应用相同的组参数和通道乘数(channel multiplier)。然后,每个计算块计算出的特征图将根据设定的组参数g被洗牌(shuffled)成g组,然后将它们连接在一起。此时,每组特征图中的通道数将与原始架构中的通道数相同。 最后,我们添加g组特征图来执行合并基数。除了保持原有的ELAN设计架构外,E-ELAN还可以引导不同组的计算模块学习更多样的特征。

      (2).Model scaling for concatenation-based models:模型缩放的主要目的是调整模型的一些属性,生成不同尺度的模型,以满足不同推理速度的需求。例如,EfficientNet的缩放模型考虑了宽度、深度和分辨率。至于scaled-YOLOv4,其缩放模型是调整stages的数量。上述方法主要应用于PlainNet或ResNet等架构中。 当这些架构执行放大或缩小时,每一层的入度和出度(in-degree and out-degree)都不会改变,因此我们可以独立分析每个缩放因子对参数量和计算量的影响。然而,如果将这些方法应用于基于串联的架构,我们会发现当对深度进行放大或缩小时,紧接在基于串联的计算块之后的翻译层(translation layer)的入度会减小或增加,如下图(a)和(b)所示。

      从上述现象可以推断,对于基于级联的模型,我们不能单独分析不同的缩放因子,而必须一起考虑。以深度放大为例,这样的动作会导致过渡层的输入通道和输出通道之间的比例发生变化,这可能会导致模型的硬件使用率下降。因此,我们必须为基于级联的模型提出相应的复合模型缩放方法。当我们缩放计算块的深度因子(depth factor)时,我们还必须计算该块的输出通道的变化。然后,我们对过渡层进行相同变化量的宽度因子缩放,结果如下图(c)所示。我们提出的复合缩放方法可以保持模型在初始设计时具有的属性并保持最佳结构。

      4.Trainable bag-of-freebies

      (1).Planned re-parameterized convolution:虽然RepConv在VGG上取得了优异的性能,但是当我们直接将其应用到ResNet和DenseNet等架构上时,其精度会明显降低。我们使用梯度流传播路径(gradient flow propagation path)来分析重参数化卷积应如何与不同网络结合。我们还相应地设计了计划重新参数化卷积(planned re-parameterized convolution)。

      RepConv实际上在一个卷积层中结合了3*3卷积、1*1卷积和恒等连接(identity connection)。在分析了RepConv和不同架构的组合和相应性能后,我们发现RepConv中的恒等连接破坏了ResNet中的残差和DenseNet中的级联,这为不同的特征图提供了更多多样性的梯度。由于上述原因,我们使用无恒等连接的RepConv(RepConvN)来设计计划重参数化卷积的架构。在我们的想法中,当带有残差或级联的卷积层被重新参数化卷积替换时,不应该有恒等连接。下图显示了我们设计的"planned re-parameterized convolution"在PlainNet和ResNet中使用的示例。

      (2).Coarse for auxiliary and fine for lead loss:深度监督(deep supervision)是一种常用于训练深度网络的技术。其主要思想是在网络的中间层添加额外的辅助头(auxiliary head),并以辅助(assistant)损失为指导的浅层网络(shallow network)权重。即使对于ResNet和DenseNet这样通常收敛良好的架构,深度监督仍然可以显着提高模型在许多任务上的性能。如下图所示:(a)和(b)分别显示了"无"和"有"深度监督的目标检测器架构。在本文中,我们将负责最终输出的头称为引导头(lead head),用于辅助训练的头称为辅助头(auxiliary head)。

      接下来我们要讨论标签分配的问题。过去,在深度网络的训练中,标签分配通常直接参考ground truth,并根据给定的规则生成硬标签(hard label)。然而,近年来,如果我们以目标检测为例,研究人员经常利用网络预测输出的质量和分布,然后与ground truth一起考虑使用一些计算和优化方法来生成可靠的软标签(soft label)。在本文中,我们将这种将网络预测结果与ground truth一起考虑然后分配软标签的机制称为"标签分配器(label assigner)"。

      无论auxiliary head or lead head的情况,都需要针对目标进行深度监督训练。在开发软标签分配器相关技术的过程中,我们无意中发现了一个新的衍生问题,即"如何为auxiliary head and lead head分配软标签?"据我们所知,相关文献迄今尚未对此问题进行探讨。目前最流行的方法的结果如下图(c)所示,即将auxiliary head and lead head分开,然后使用各自的预测结果和ground truth来执行标签分配。本文提出的方法是一种新的标签分配方法,通过lead head预测来指导auxiliary head and lead head。换句话说,我们使用lead head预测作为指导来生成从粗到细的分层标签(coarse-to-fine hierarchical labels),这些标签分别用于auxiliary head and lead head学习。所提出的两种深度监督标签分配策略分别如下图(d)和(e)所示。

      1).Lead head guided label assigner:主要根据lead head的预测结果和ground truth进行计算,并通过优化过程生成软标签。这套软标签将作为auxiliary head and lead head的目标训练模型。这样做的原因是因为lead head具有比较强的学习能力,因此它生成的软标签应该更能代表源数据和目标数据之间的分布和相关性。此外,我们可以将这种学习视为一种广义的残差学习。通过让较浅的(shallower) auxiliary head直接学习lead head已学到的信息,lead head将更能够专注于学习尚未学习的剩余信息。

      2).Coarse-to-fine lead head guided label assigner:还使用lead head的预测结果和ground truth来生成软标签。然而,在这个过程中,我们生成了两组不同的软标签,即粗标签和细标签(coarse label and fine label),其中细标签与lead head引导标签分配器生成的软标签相同,而粗标签是通过允许更多网格来生成的,通过放宽正样本分配过程的约束,将其视为正目标。原因是auxiliary head的学习能力不如lead head,为了避免丢失需要学习的信息,我们将重点优化优化目标检测任务中auxiliary head的召回。对于lead head的输出,我们可以从高召回率的结果中筛选出高精度的结果作为最终的输出。然而,我们必须注意,如果粗标签的附加权重(additional weight)接近细标签的附加权重,则可能在最终预测中产生不好的先验框。因此,为了使那些额外的粗正网格(coarse positive grids)的影响更小,我们在解码器中进行了限制,使得额外的粗正网格不能完美地产生软标签。上述机制使得细标签和粗标签的重要性在学习过程中动态调整,使得细标签的可优化上限始终高于粗标签。

      (3).Other trainable bag-of-freebies:在本节中,我们将列出一些可训练的bag-of-freebies。这些赠品(freebies)是我们在训练中使用的一些技巧,但最初的概念并不是我们提出的。包括:

      1).Batch normalization in conv-bn-activation topology:这部分主要将批量归一化层直接连接到卷积层。这样做的目的是在推理阶段将批量归一化的均值和方差整合到卷积层的偏差和权重(bias and weight)中。

      2).Implicit knowledge in YOLOR  combined with convolution feature map in addition and multiplication manner:YOLOR中的隐式知识可以通过推理阶段的预计算简化为向量。该向量可以与前一个或后一个卷积层的偏差和权重相结合。

      3).EMA model:EMA是mean teacher使用的一种技术,在我们的系统中我们纯粹使用EMA模型作为最终的推理模型。

      GitHub:https://github.com/fengbingchun/NN_Test

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/9884.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Linux】从零开始认识动静态库 - 静态库

送给大家一句话: 永不言弃,就是我的魔法! ——阿斯塔《黑色四叶草》 ଘ(੭ˊ꒳​ˋ)੭✧ଘ(੭ˊ꒳​ˋ)੭✧ଘ(੭ˊ꒳​ˋ)੭✧ ଘ(੭ˊ꒳​ˋ)੭✧ଘ(੭ˊ꒳​ˋ)੭✧ଘ(੭ˊ꒳​ˋ)੭✧ ଘ(੭ˊ꒳​ˋ)੭✧ଘ(੭ˊ꒳​ˋ)੭✧ଘ(੭ˊ꒳​ˋ)੭✧ 从零…

Linux虚拟机运行“yum install gcc-c++”报错“Loading mirror speeds from cached hostfile”

目录 一、在Linux上安装Redis时,在终端执行命令“yum install gcc-c”时,报错: 二、然后发现linux的网络不通,什么网站都访问不了 三、连上网后,再变换yum源 四、重新运行yum install gcc 一、在Linux上安装Redis时…

Java中55种锁,高级面试题,最新面试题

Java中乐观锁在实际应用中如何解决并发问题? 乐观锁通过假设并发冲突发生概率较低来解决并发问题,主要通过数据版本控制实现。在更新数据前,会检查数据版本是否发生变化,只有在数据版本未变时才允许更新,这样可以避免…

nginx_01

1.安装 yum install epel-release -y # 安装yum的扩展包 yum install nginx -y systemctl start nginx.service #启动nginx systemctl enable nginx.service # netstat -lntup # 查看端口占用情况 # 可以看到nginx默认占用了80端口 2.nginx配置 # 注意配置文件的语法格式…

万物生长大会 | 创邻科技再登杭州准独角兽榜单

近日,由民建中央、中国科协指导,民建浙江省委会、中国投资发展促进会联合办的第八届万物生长大会在杭州举办。 在这场创新创业领域一年一度的盛会上,杭州市创业投资协会联合微链共同发布《2024杭州独角兽&准独角兽企业榜单》。榜单显示&…

小红书搞钱美学课-6.0升级版,账号搭建/爆款创作/工具实战/账号变现篇

让我们用视觉撬动流量 课程体系 334253课程权益(5周服务期) 3节账号运营基础课3节自媒体笔记创作课。4节封面设计实操课2次实操加餐分享5次作业指导(一对一)3次答疑直播 课程大纲 一、账号搭建篇 变现模板、精准定位 二、爆款创作篇爆款选题、首图、文案与脚本、快速涨粉…

【计算机毕业设计】springboot工资管理系统

人类现已迈入二十一世纪,科学技术日新月异,经济、资讯等各方面都有了非常大的进步,尤其是资讯与 网络技术的飞速发展,对政治、经济、军事、文化等各方面都有了极大的影响。 利用电脑网络的这些便利,发展一套工资管理系…

权力集中,效率提升,中心化模式的优势与挑战

​🌈 个人主页:danci_ 🔥 系列专栏:《设计模式》 💪🏻 制定明确可量化的目标,坚持默默的做事。 🚀 转载自热榜文章🔥:探索设计模式的魅力:权力集中…

IO 5.10

在一个进程中,创建一个子线程。 主线程负责:向文件中写入数据 子线程负责:从文件中读取数据 要求使用线程的同步逻辑,保证一定在主线程向文件中写入数据成功之后,子线程才开始运行,去读取文件中的数据#incl…

学习java的继承

1.什么是继承 java中提供了一个关键字,extends,可以让一个类与另一个类建立起父子关系。 例如 public class B extends A { --- } 在这里,我们称A类为父类(也被称为基类或者超类)B类称为子类(或者是派生…

debian10 (armbian) 配置CUPS 服务

更新apt apt-update安装相关软件 apt-get install ghostscript apt-get install dc apt-get install foomatic-db-engine apt-get install cups3.修改配置文件 nano /etc/cups/cupsd.conf Listen localhost:631改为 Listen 0.0.0.0:631 以下四段配置加入Allow All # Only li…

【智能优化算法】矮猫鼬优化算法(Dwarf Mongoose Optimization Algorithm,DMHO)

矮猫鼬优化算法(Dwarf Mongoose Optimization Algorithm,DMHO)是期刊“COMPUTER METHODS IN APPLIED MECHANICS AND ENGINEERING”(IF 7.3)的2022年智能优化算法 01.引言 矮猫鼬优化算法(Dwarf Mongoose Optimization Algorithm,DMHO)模仿矮猫鼬的觅食行…

天府锋巢直播产业基地构建成都电商直播高地

天府锋巢直播产业基地自成立以来,一直秉承着创新、协同、共赢的发展理念,吸引了众多直播企业纷纷入驻。随着直播产业的迅猛发展,改成都直播基地内的配套服务也显得尤为重要。本文将深入探讨入驻天府锋巢直播产业基地后,配套的直播…

错误处理机制——vba(vb.net)

程序出现错误时可采用如下错误处理机制:出错时跳到标签处,判断错误类型修正错误,重新返回正确标签处,继续运行程序。 代码如下: Private Sub Button2_Click(sender As Object, e As EventArgs) Handles Button2.Click…

Golang面向对象编程(一)

文章目录 结构体基本介绍结构体定义方式创建结构体变量结构体内存对齐结构体类型转换字段的Tag标签 方法基本介绍方法的定义和调用方法调用的传参机制String方法 结构体 基本介绍 基本介绍 Go支持面向对象编程特性,包括封装、继承和多态,但Go中没有类&a…

Linux——综合实验

要求 按照上面的架构部署一个简单的web节点所有的服务器使用DNS服务器作为自己的DNS服务器 就是/etc/reslov.conf 中nameserver的值必须是途中dns服务器的地址所有的数据库都是用mysql应用 nfs共享导出在客户端(web服务器上)使用autofs在自动挂载,或者写入/etc/fsta…

window10设置静态IP

右键桌面网络图标 点击属性 点击要查看的网络 点击详细信息 获得网络连接详细信息 右键WiFi符号 或者其他方式进入网络与internet中心 点击 WLAN 点击属性 点击编辑(点击一个即可) 选择手动将刚才的信息方进入即可 完成

MySQL变量的声明与使用

MySQL变量的声明与使用 1、标识符不能以数字开头 2、自能使用_或$符号,不允许使用其他符号。 3、不允许使用系统关键字 将赋值与查询结合 set userName 刘德华; select userName: 刘青云; # 将赋值与查询结合 查询变量/使用变量 select userName as 读取到的u…

TDN: Temporal Difference Networks for Efficient Action Recognition 论文阅读

TDN: Temporal Difference Networks for Efficient Action Recognition 论文阅读 Abstract1. Introduction2. Related work3. Temporal Difference Networks3.1. Overview3.2. Short-term TDM3.3. Long-term TDM3.4. Exemplar: TDN-ResNet 4. ExperimentsAblation studiesCompa…

抖音新店怎么对接达人?对接达人秘籍流程分享,让你学会找达人

大家好,我是电商花花。 新手怎么对接达人带货?这是我们新手商家 要考虑的问题。 很多新手抱怨自己新店铺不出单,没有销量,对接达人又怕达人看不上,没有达人愿意帮我带货,在面临这样的情况下不知道该怎么办…