《YOLO 目标检测》—— YOLO v4 详细介绍

文章目录

  • 一、整体网络结构
    • 1. YOLO v4 网络结构图
    • 2.对之前版本改进创新的概括
  • 二、对改进创新部分的具体介绍
    • 1. 输入端创新
    • 2. Backbone主干网络创新
      • CSPDarknet53
      • Mish激活函数
      • Dropblock正则化
    • 3. 特征融合创新
      • SPP模块
      • PAN结构
    • 4. Prediction输出层创新
      • CIOU Loss
      • DIoU_NMS(非极大值抑制)
  • 三、性能与应用
    • 1. 性能
    • 2. 应用

YOLO v4(You Only Look Once version 4)是一种先进的目标检测系统,于2020年推出,是对之前版本YOLO的改进。YOLOv4基于深度卷积神经网络,能够高精度实时检测图像中的目标。以下是对YOLOv4的详细介绍:

一、整体网络结构

1. YOLO v4 网络结构图

在这里插入图片描述

2.对之前版本改进创新的概括

  • 输入端的创新:数据增强
  • 主干网络的改进:各种方法技巧结合起来,包括:CSPDarknet53、Mish 激活函数、Dropblock
  • 特征融合创新:在主干网络和最后的输出层之间插入一些层,比如 SPP 模块、FPN+PAN 结构
  • Prediction输出层创新:CIOU Loss(损失函数)、DIoU_NMS(新型的非极大值抑制)

二、对改进创新部分的具体介绍

1. 输入端创新

  • Mosaic数据增强:采用了CutMix的方法,将4张图片进行随机缩放、随机裁剪、随机排布的方式进行拼接,增强了对正常背景之外的对象的检测,丰富了检测物体的背景信息。同时,减少了估计均值和方差时的计算量,降低了训练成本。
  • 如下图:
    在这里插入图片描述

2. Backbone主干网络创新

CSPDarknet53

  • CSPDarknet53:借鉴了ResNet的残差结构,并运用了CSP(Cross Stage Partial)结构
    • CSPNet是作者Chien-Yao Wang于2019年发表的论文《CSPNET: A NEW BACKBONE THAT CAN ENHANCE LEARNING CAPABILITY OF CNN》中提出的一种新的网络结构,它可以增强CNN的学习能力,并且在轻量化的同时保持准确性。
    • 做法:CSPNet 将基础层的特征映射为两个分支,第二个分支正常执行残差网络,接着将两个分支的信息在通道方向进行 Concat 拼接,最后再通过 Transition 层进一步融合。如下图:
      在这里插入图片描述
    • CSPNet主要是为了解决三个问题:
      增强CNN的学习能力降低内存成本以及减少计算瓶颈
    • 同时,CSPNet方法可以减少模型计算量和提高运行速度,还能和多种网络结构结合在一起。

Mish激活函数

  • Mish激活函数:与ReLU相比,Mish函数在训练过程中能够使梯度更加平滑,避免了神经元的死亡问题,从而提高了模型的准确率。
  • 下面是ReLU(左)和Mish(右)激活函数的图像
    在这里插入图片描述

Dropblock正则化

  • Dropblock正则化:在卷积层上引入了一种新的正则化方法,通过丢弃一块相邻区域中的特征来防止过拟合。
  • 相比于传统的Dropout技术,DropBlock不是随机屏蔽掉一部分特征(注意是对特征图进行屏蔽),而是随机屏蔽掉多个部分连续的区域。
  • 这种方法有助于减少神经网络中的冗余连接,从而提高模型的泛化能力
  • 如下图:
    在这里插入图片描述

3. 特征融合创新

SPP模块

  • SPP-Net 全称 Spatial Pyramid Pooling Networks,是何恺明提出的,主要是用来解决不同尺寸的特征图如何进入全连接层的,在网络的最后一层 concat 所有特征图,后面能够继续接 CNN 模块
  • SPP Net在最后一个卷积层后,接入了金字塔池化层,保证传到下一层全连接层的输入固定。在普通的CNN机构中,输入图像的尺寸往往是固定的(比如224*224像素),输出则是一个固定维数的向量。SPP Net在普通的CNN结构中加入了ROI池化层(ROI Pooling),使得网络的输入图像可以是任意尺寸的,输出则不变,同样是一个固定维数的向量。
  • SPP 模块使得神经网络能够处理任意大小的输入,从而大大提高了模型的灵活性和泛化能力
  • 如下图:
    在这里插入图片描述

PAN结构

  • PAN结构:在FPN(Feature Pyramid Networks)的基础上进行了改进,引入了自底向上的路径,使得底层的位置信息更容易传播到顶层。这种双向的信息传递方式增强了模型对不同尺度目标的检测能力。
    • YOLOv3 中只有自顶向下的 FPN,对特征图进行特征融合,而 YOLOv4 中则是 FPN+PAN 的方式对特征进一步的融合。引入了自底向上的路径,使得底层信息更容易传到顶部。
    • 下面是 YOLOv3 的 Neck 中的 FPN,如图所示:FPN 是自顶向下的,将高层的特征信息通过上采样的方式进行传递融合,得到进行预测的特征图
      在这里插入图片描述
    • YOLOv4 中如下:
      在这里插入图片描述
    • 注意:YOLO v4 的特征融和方式是 concat
      • concat:将两个特征图在通道数方向叠加在一起,原特征图信息完全保留下来,再对原特征图增加一些我们认为是较好的特征图,丰富了特征图的多样性,是在空间上对原特征图的增强,这样在下一次卷积的过程中我们能得到更好的特征图。

4. Prediction输出层创新

CIOU Loss

  • CIOU Loss:作为边界框回归的损失函数,CIOU Loss考虑了预测框与真实框之间的重叠面积中心点距离长宽比等因素,使得模型在训练过程中能够更快地收敛,提高检测的精度。
    • CIOU Loss 经过多次的修改后才达到了可以考虑多方面因素的效果
    • 下面是 CIOU Loss 的修改历程
    • 首先是最初的IOU损失函数是以 1 - IOU 来计算的,但是这样当预选框和真实框没有相交时(IOU=0 无法梯度计算,相同的IOU却反应不出实际情况到底是哪一个预选框较好,如下图三种情况的IOU都相同
      在这里插入图片描述
    • 这时 GIOU Loss 的出现解决了以上的问题,公式如下:
      在这里插入图片描述
      • 引入了最小封闭状态C, C 是将真实框和预选框框在内的最小矩形框大小
      • 后一部分计算是如下图红色区域与 C 的比值大小,红色区域越大则表示预选框的效果月差,损失值就越大
        在这里插入图片描述
    • 但是又有一种情况解决不了,如下图,到预选框在真实框的内部,通过GIOU Loss 的计算方式则三种的预选框的损失值都相等,又分辨不出哪一个预选框效果好
      在这里插入图片描述
    • 这是 DIOU Loss 的出现,又解决了上面的问题,公式如下
      在这里插入图片描述
    • 如下图,DIOU Loss 后一部分中分子计算预测框与真实框的中心点的欧氏距离d,分母是能覆盖预测框与真实框的最小框的对角线长度c,这样便优化了距离,速度更快,并解决GIOU Loss的问题
      在这里插入图片描述
    • 还有一种情况,如下图,红色预选框与橙色预选框的中心点位置相同,且面积也相同,则通过 DIOU Loss 的计算结果是相同的
      在这里插入图片描述
    • 但是从这两个与预选框的宽高比可以看出,红色的预选框与真实框更加接近,因此 CIOU Loss 的出现解决了这一问题
    • CIOU Loss 的公式如下:
      在这里插入图片描述
      • 通过公式可以看出,后一项的加入,又对预选框与真实框的宽高比进行了计算
      • 因此 CIOU Loss 考虑了三个几何因素:重叠面积、中心点距离、长宽比,三方面的考虑则可以更好的通过损失至的计算,反向传播后选出最佳的预选框

DIoU_NMS(非极大值抑制)

  • DIoU_NMS:作为后处理方法,在去除冗余的检测框时不仅考虑了框的置信度还考虑了框之间的中心点距离,提高了检测的准确性。
    • DIOU-NMS和原始的NMS不同,DIoU-NMS不仅考虑了IoU的值,还考虑了两个Box中心点之间的距离,使用了新的公式决定一个Box是否被删除,如下图解释
      在这里插入图片描述

下面是一个输入为640*640大小的图片,传输到 YOLO v4 模型的过程,结合上面的内容理解YOLO v4网络模型的结构

  • 如下图
    在这里插入图片描述

三、性能与应用

1. 性能

  • 在COCO数据集上,YOLOv4的平均精度(AP)达到了43.5%,速度高达65fps。
  • 高精度:能够准确地检测出各种不同类别的目标。
  • 高速度:满足实际应用中的实时性要求。
  • 易于训练:可以在单个GPU上进行训练,降低了训练的成本和难度。

2. 应用

  • 智能安防:用于监控摄像头中的目标检测,实时监测人员、车辆等目标的行为。
  • 自动驾驶:检测道路上的行人、车辆、交通标志等目标,为自动驾驶系统提供准确的环境信息。
  • 工业检测:用于工业生产中的质量检测,例如检测产品的缺陷、尺寸等。

综上所述,YOLOv4是一种非常强大的目标检测算法,具有高精度、高速度和易于训练等优点。它在许多领域都有广泛的应用前景,包括智能安防、自动驾驶和工业检测等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/884791.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

动态规划 —— dp问题-按摩师

1. 按摩师 题目链接: 面试题 17.16. 按摩师 - 力扣(LeetCode)https://leetcode.cn/problems/the-masseuse-lcci/description/ 2. 算法原理 状态表示:以某一个位置为结尾或者以某一个位置为起点 dp[i]表示:选择到i位置…

【react】基础知识点学习

1. 创建项目 npm install -g create-react-app npx create-react-app my-app cd my-app npm startindex.js为入口文件,App.js为根组件。 如何将react应用挂载在页面上? 将App组件渲染到id为root的DOM元素中 2. JSX JSX是|avaScript和XML(HTML)的缩写…

word及Excel常见功能使用

最近一直在整理需规文档及表格,Word及Excel需要熟练使用。 Word文档 清除复制过来的样式 当复制文字时,一般会带着字体样式,此时可选中该文字 并使用 ctrlshiftN 快捷键进行清除。 批注 插入->批注,选中文本 点击“批注”…

在Microsoft Outlook日历中添加多个时区

在Microsoft Outlook日历中添加多个时区 1.单击Outlook中的文件选项卡,单击选项 2.左侧菜单中选择日历 3.向下滚动到时区部分,并标记当前时区,比如China 4.选中“显示第二个时区”框 5.选择第二个时区并给它一个标签,比如Germa…

vue组件在项目中的常用业务逻辑(3)

获取完后台接口数据后,需将数据在页面中进行动态展示。 一、在getters中简化数据: 二、在search>index.vue中写计算属性,实现将接口的goodsList模块数据展示在vue的search上: 三、1.用v-for循环数据,一共十个&…

从传感器到清洁力提升,灵途科技推动家电智能化发展

双十一第一波预售刚结束,第二波预售活动又火热开启。得益于政府补贴和平台优惠的双重带动,扫地机等高端智能家电需求暴增。 今年,各大电商平台不再单纯追求“全网最低价”,而是在低价基础上注重提升用户的综合体验。家电机器人品…

基于STM32的智能温室环境监测与控制系统设计(代码示例)

一、项目概述 在现代农业中,智能大棚能够通过环境监测、数据分析和自动控制等技术手段,实现对作物生长环境的精细化管理。本项目旨在设计一个基于STM32单片机的智能大棚系统,能够实时监测光照强度、空气温湿度及土壤湿度,并根据设…

详解CRC校验原理以及FPGA实现

文章目录 一、什么是CRC校验?二、实现CRC校验原理以及步骤2.1 用多项式表示二元码数据2.2 选择一个生成多项式作为校验2.3 计算CRC校验码 三、CRC判断数据是否错误的原理以及步骤3.1 将收到的数据与生成多项式求余3.2 数据发生错误再进行CRC校验判断 四、FPGA实现CR…

大模型学习笔记------CLIP模型解读与思考

大模型学习笔记------CLIP模型解读与思考 1、为什么提出CLIP模型2、CLIP模型详解3、CLIP模型的重要意义 上文已经讲到,我认为多模态的大模型是最有前途的大模型,首先学习的就是CLIP这个模型。 CLIP(Contrastive Language-Image Pretraining&…

《IMM交互式多模型滤波MATLAB实践》专栏目录,持续更新……

专栏链接:https://blog.csdn.net/callmeup/category_12816762.html 专栏介绍 关于IMM的例程 双模型EKF: 【逐行注释】基于CV/CT模型的IMM|MATLAB程序|源代码复制后即可运行,无需下载三模型EKF: 【matlab代码】3个模型的IMM例程&…

【UART异步串口协议及verilog实现】

UART异步串口协议 1 UART1.1 数据格式1.2 波特率 2 UART的发送和接收模块2.1 uart发送模块2.2 uart的接收模块 【博客首发于微信公众号《 漫谈芯片与编程》】 本篇文章介绍常用的芯片外围低速协议:UART; 1 UART UART是异步串行传输协议,即…

TS-AWG控制电光调制器:推动科技应用新发展的利器

一、电光调制有什么用? 如今,基于光学、光子学和脉冲激光以及电光调制器的应用正变得极为流行,最新一代科学家正在为其实际应用开辟新领域,如汽车激光雷达、医疗解决方案、航空航天和国防、量子和激光传感器。 测试挑战、上市时…

ros与mqtt相互转换

vda5050 VDA5050协议介绍 和 详细翻译-CSDN博客 ros与mqtt相互转换 如何转换的,通过某个中转包,获取ros的消息然后以需要的格式转换为mqtt 需要的参数 ros相关 parameters[ (ros_subscriber_type, vda5050_msgs/NodeState), (ros_subscriber_queue…

探讨 | 大模型在传统NLP任务的使用姿势

以chatgpt为起始节点的大模型技术经过了两年左右的发展,大致沉淀了一些较为确定的研究领域。首先是基座大模型的研究,主要是国内外大厂集中大量财力、人力、算力进行大模型军备竞赛,企图将大模型的基础能力(包括推理能力&#xff…

C语言 — 指针的进阶

文章目录 前言一、字符指针二、指针数组三、数组指针数组名 与 &数组名 四、指针传参二维数组传参 五、函数指针结语 前言 通过前面的关于指针的学习,我们了解了指针的一些个特性。本篇文章我们将深入指针,挖掘指针更深处的知识。 在开始之前&#…

Ceisum无人机巡检视频投放

公司投标内容有个视频投放的功能动画,原本想实现这么一个效果: 案例效果来自别人的展示作品,Leader一眼就相中了这个效果,可惜别人的终究是别人的,又不会白白给你,终究是要自己动手尝试。 动画方面的展示…

Redis为什么用跳表实现有序集合

Redis为什么用跳表实现有序集合 手写一个跳表 为了更好的回答上述问题以及更好的理解和掌握跳表,这里可以通过手写一个简单的跳表的形式来帮助读者理解跳表这个数据结构。 我们都知道有序链表在添加、查询、删除的平均时间复杂都都是 O(n) 即线性增长&#xff0c…

ubuntu双屏只显示一个屏幕另一个黑屏

简洁的结论: 系统环境 ubuntu22.04 nvidia-535解决方案 删除/etc/X11/xorg.conf 文件 记录一下折腾大半天的问题。 ubuntu系统是22.04,之前使用的时候更新驱动导致桌面崩溃,重新安装桌面安装不上,请IT帮忙,IT一番操作过后也表示…

Docker可视化管理面板DPanel的安装

本文软件由网友 rui 推荐; 什么是 DPanel ? DPanel 是一款 Docker 可视化管理面板,旨在简化 Docker 容器、镜像和文件的管理。它提供了一系列功能,使用户能够更轻松地管理和部署 Docker 环境。 软件特点: 可视化管理&…

学习threejs,使用对象组合

👨‍⚕️ 主页: gis分享者 👨‍⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏:threejs gis工程师 文章目录 一、🍀前言1.1 ☘️THREE.Object3D 三维物体 二…