9.1.3 简单介绍单阶段模型YOLO、YOLOv2、YOLO9000、YOLOv3的发展过程

9.1.3 简单介绍单阶段模型YOLO、YOLOv2、YOLO9000、YOLOv3的发展过程

前情回顾:9.1.2 简单介绍两阶段模型R-CNN、SPPNet、Fast R-CNN、Faster R-CNN的发展过程

摘要

YOLOYOLOv2YOLO9000YOLOv3
基本思想使用一个端到端的卷积神经网络直接预测目标的类别和位置针对YOLOv1的两个缺点进行改进可以实时地检测超过9000种物体,其主要贡献是使用检测数据集分类数据集进行联合训练在YOLOv2基础上进行改进,优化模型效果
优点相对于两阶段模型,YOLO实时性高,但检测精度稍低使用检测数据集分类数据集进行联合训练采用在YOLOv2基础上进行改进,优化模型效果进行联合训练,使其在小物体上也能获得很好的检测效果
输入图像448×448416×416
具体做法将输入图片划分成SxS的方格,每个方格需要检测出中心点位于该方格内的物体。在具体实施时,每个方格会预测B个边界框(包括位置、尺寸和置信度)1.批归一化(BN)层
2.在高精度的图片上调优(fine-tune)10个批次(batch)
3.k-means算法
4.直接在预先设定的锚框上提取特征
5.输入图像的尺寸:416×416
6.将不同大小的特征图结合起来进行物体检测
7.训练每隔10个批次就改变输入图片大小
8.DarkNet-19
字典树损失函数:二元交叉熵损失函数
主体网络参考 GoogLeNet,由24个卷积层和2个全连接层组成DarkNet-19
采用3x3的卷积核**,共有**19个卷积层和5个池化层
DarkNet-53(53个卷积层)
借鉴了残差网络的快捷连接(shortcut)结构
缺点低召回率、低定位准确率

1.YOLO

  • 基本思想:是使用一个端到端的卷积神经网络直接预测目标的类别和位置

  • 优点:相对于两阶段模型,YOLO实时性高,但检测精度稍低

  • 做法:YOLO将输入图片划分成SxS的方格,每个方格需要检测出中心点位于该方格内的物体。在具体实施时,每个方格会预测B个边界框(包括位置、尺寸和置信度)。

  • 主体:YOLO的主体网络结构参考 GoogLeNet,由24个卷积层和2个全连接层组成。

  • 缺点:低召回率、低定位准确率

2.YOLOv2

YOLOv2针对YOLO的两个缺点,即低召回率和低定位准确率,进行了一系列的改进,下面简单介绍其中的几点。
(1)YOLOv2在卷积层后面添加了批归一化(BN)层,以加快收敛速度,防止过拟合
(2)YOLOv2的卷积特征提取器在进行检测任务前,先在高精度的图片上调优(fine-tune)10个批次(batch),这样能使检测模型提前适应高分辨率图像
(3)YOLOv2采用k-means算法进行聚类获取先验锚框,并且聚类没有采用欧氏距离,而是有针对性地改进了距离的定义,即
d ( b o x , c e n t r o i d ) = 1 − I O U ( b o x , c e n t o r i d ) d(box,centroid)=1-IOU(box,centorid) d(box,centroid)=1IOU(box,centorid)
使其更适合于检测任务。
(4)YOLOv2直接在预先设定的锚框上提取特征。YOLO使用卷积神经网络作为特征提取器,在卷积神经网络之后加上全连接层来预测边界框的中心位置、大小和置信度;而YOLOv2借鉴了Faster R-CNN的思路,用卷积神经网络直接在锚点框上预测偏移量和置信度,该方法要比 YOLO更简单、更容易学习。
(5)YOLOv2将输入图像的尺寸从448x448变成416x416,这是因为在真实场景中,图片通常是以某个物体为中心,修改输入图像的尺寸后,将整幅图像经过卷积层后变成13x13(416/32=13)的特征图,长宽都是奇数,可以有效地识别出中心
(6)YOLOv2在13x13的特征图上检测物体,对于小物体检测这个精度还远远不够。因此,YOLOv2还将不同大小的特征图结合起来进行物体检测。具体来说,YOLOv2将最后一个池化层的输入26×26×512经过直通层变成13×13×2048的特征图,再与池化后的13×13×1024特征图结合在一起进行物体检测。
(7)YOLOv2 使用不同尺寸的图片同时训练网络。为了增强模型的鲁棒性,模型在训练过程中,每隔10个批次就改变输入图片的大小。
(8)YOLOv2使用新的卷积特征提取网络DarkNet-19。当时大多数检测模型的特征提取部分都采用VGGNet-16作为网络主体,VGGNet-16 虽然效果良好,但是参数过多,运行缓慢。DarkNet-19采用3x3的卷积核,共有19个卷积层和5个池化层

3.YOLO9000

YOLO9000可以实时地检测超过9000种物体,其主要贡献是使用检测数据集分类数据集进行联合训练

  • 检测数据集特点:相对于分类数据集来说,数据量小、类别少、类别粒度粗且获取困难,因此研究人员考虑使用分类和检测数据集进行联合训练,提高模型的泛化能力

  • 问题及解决:然而,一般分类数据集的标签粒度要远小于检测数据集的标签粒度,为了能够联合训练,YOLO9000 模型构建了字典树,合并 ImageNet的分类数据集标签与COCO的检测数据集标签。

4.YOLOv3

YOLOv3在YOLOv2的基础上进行了一些小的改动来优化模型的效果

  • 首先,检测数据可能存在一些语义上重叠的标签(如女人和人),但Softmax 函数基于一个假设,即每个检测框内的物体只存在一个类别。因此,YOLOv3使用二元交叉熵损失函数,而不是Softmax函数,这样可以更好地支持多标签的检测
  • 其次,YOLOv3采用了更深的网络作为特征提取器,即DarkNet-53,它包含了53个卷积层
  • 为了避免深层网络带来的梯度消失问题,DarkNet-53 借鉴了残差网络的快捷连接(shortcut)结构
  • 同时,YOLOv3还采用了3个不同大小的特征图进行联合训练,使其在小物体上也能获得很好的检测效果。

下集预告:9.1.4 有哪些措施可以增强模型对于小物体的检测效果?

参考文献:

《百面深度学习》 诸葛越 江云胜主编

出版社:人民邮电出版社(北京)

ISBN:978-7-115-53097-4

2020年7月第1版(2020年7月北京第二次印刷)

推荐阅读:

//好用小工具↓

分享一个免费的chat工具

分享一个好用的读论文的网站

// 深度学习经典网络↓

LeNet网络(1989年提出,1998年改进)

AlexNet网络(2012年提出)

VGGNet网络(2014年提出)

LeNet、AlexNet、VGGNet总结

GoogLeNet网络(2014年提出)

ResNet网络(2015年提出)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/26638.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【源码】SpringBoot编程式事务使用及执行原理

Spring事务 1、【源码】SpringBoot事务注册原理 2、【源码】Spring Data JPA原理解析之事务注册原理 3、【源码】Spring Data JPA原理解析之事务执行原理 4、【源码】SpringBoot编程式事务使用及执行原理 前言 《Spring事务系列》的前面几篇博文讲解了通过Transactional注…

FPGA - 滤波器 - FIR滤波器设计

一,数字滤波器 滤波器是一种用来减少或消除干扰的器件,其功能是对输入信号进行过滤处理得到所需的信号。滤波器最常见的用法是对特定频率的频点或该频点以外的频率信号进行有效滤除,从而实现消除干扰、获取某特定频率信号的功能。一种更广泛的…

如何高效管理和监控 Elasticsearch 别名及索引?

0、引言 在 Elasticsearch 项目中,管理和监控索引是开发者的一项重要任务。 尤其是当我们需要在项目的管理部分展示索引和别名的统计信息时,了解如何有效地列出这些别名和索引显得尤为重要。 本篇博客将介绍几种在 Elasticsearch 中列出别名和索引的方法…

【Hudi】核心概念-基本概念

目录 基本概念时间轴(TimeLine)Instant action:在表上执行的操作类型Instant timeState两个时间概念 文件布局(File Layout)索引(Index)原理索引选项全局索引与非全局索引索引的选择策略 表类型(Table Types)查询类型Snapshot QueriesIncremental QueriesRead Optimized Querie…

集合并集交集差集【工具类】

一、使用Stream流进行处理 在Java开发中,对于集合的操作是非常常见的,特别是交集、并集和差集这样的操作。这些操作可以通过Java 8中的Stream API来实现。 •交集:取两个集合中相同的部分。例如,如果我们有两个List集合&#xff…

【2024最新精简版】Redis面试篇

文章目录 什么是红锁Redis有哪些框架?你们项目中哪里用到了Redis ?Redis的常用数据类型有哪些 ?Redis的数据持久化策略有哪些 ?Redis的数据过期策略有哪些 ?Redis的数据淘汰策略有哪些 ?你们使用Redis是单点还是集群 ? 哪种集群 ?Redis集群有哪些方案, 知道嘛…

iOS--oc对象,类,和元类本质

iOS--oc对象,类,和元类本质 前言实例对象的具体结构自定义类对象的结构继承关系 类信息的存放对isa、superclass总结 前言 最近在学习runtime的过程中,发现其中消息发送-动态方法解析-消息转发中涉及到了大量的类与对象的底层知识&#xff0…

在linux系统上挂载新硬盘

服务器的硬盘空间不够了,自己重新安装了一个硬盘,需要挂载,因为只是用来存放数据,所以不需要分区,直接挂载就可以 #查看当前所有硬盘 sudo fdisk -l #用于显示文件系统的磁盘空间使用情况 df -h发现一个/dev/nvme0n1 …

mysql索引失效的几种情况

1、对列进行计算或者是使用函数,则该列的索引会失效 如:substring(字段名,1,2)‘xxx’; 如:select * from test where id-19;//错误的写法; select * from test where id10; //正确的写法 ; 2、某些情况下…

java.nio.charset.UnmappableCharacterException

问题 java.lang.IllegalArgumentException: java.nio.charset.UnmappableCharacterException: Input length 1 解释为编码转换有问题 问题错在位置 非汉字存在 打包的时候就会报异常

TikTok限流封号要如何处理

随着TikTok在全球范围内的运营和管理越来越规范,对于违规行为的处罚也日趋严格。其中,限流和封号是两种常见的处罚措施。那么,当TikTok账号遭遇限流或封号时,我们应该如何处理呢? 一、了解限流和封号的原因 在处理Ti…

Zoom会议网络连接不稳定怎么办?

随着远程办公和在线会议的普及,Zoom已成为许多企业的重要办公工具。然而,国内企业在使用Zoom进行线上会议时,常常面临网络不稳定和中断的问题,这不仅影响会议效率,还可能给企业带来损失。那么,Zoom会议网络…

meilisearch的分页

Elasticsearch 做为老牌搜索引擎,功能基本满足,但复杂,重量级,适合大数据量。 MeiliSearch 设计目标针对数据在 500GB 左右的搜索需求,极快,单文件,超轻量。 所以,对于中小型项目来说…

APP分发平台在推广过程起到什么作用?

APP分发平台在推广过程中起到了至关重要的作用,这些作用主要体现在以下几个方面: 扩大应用覆盖面和市场份额:APP分发平台作为连接开发者和用户的桥梁,通过不同的分发渠道(如应用商店、第三方分发平台等)&a…

人生感悟 | 我们为什么贫穷?

哈喽,你好啊,我是雷工! 我们为什么贫穷? 因为我们都在局中并坦然的按着规则制定者循规蹈矩的生活。 01 负债导致贫穷 最近同事买房,总价一百多万,月供四千多,讲话:已入坑&#xff0…

python如何终止程序运行

方法1:采用sys.exit(0),正常终止程序,从图中可以看到,程序终止后shell运行不受影响。 方法2:采用os._exit(0)关闭整个shell,从图中看到,调用sys._exit(0)后整个shell都重启了(RESTAR…

SSC30KD SigmaStar 摄像头主控芯片

SSC30KD SigmaStar 摄像头主控芯片

opencv_特征检测和描述

理解特征 寻找独特的特定模式或特定特征,可以轻松跟踪和比较。 拼图:在图像中搜索这些特征,找到它们,在其他图像中查找相同的特征并对齐它们。而已。 基本上,角被认为是图像中的好特征。 在本单元中,我…

【python】如何import 另一个路径下的py文件内容

目录结构: ├─common │ └─config.py └─own_module │ └─run.py问题描述: 如何在run.py 中调用 config.py 中的函数或类? 解决办法: import os import sys # 为了引用自定义模块,可临时将module的绝对路径…

Interview preparation--案例加密后数据的模糊查询

加密数据的模糊查询实现方案 我们知道加密后的数据对模糊查询不是很友好,本篇就针对加密数据模糊查询这个问题来展开讲一讲实现的思路,希望对大家有所启发。为了数据安全我们在开发过程中经常会对重要的数据进行加密存储,常见的有&#xff1…