9.1.3 简单介绍单阶段模型YOLO、YOLOv2、YOLO9000、YOLOv3的发展过程

前情回顾：9.1.2 简单介绍两阶段模型R-CNN、SPPNet、Fast R-CNN、Faster R-CNN的发展过程

摘要

	YOLO	YOLOv2	YOLO9000	YOLOv3
基本思想	使用一个端到端的卷积神经网络直接预测目标的类别和位置	针对YOLOv1的两个缺点进行改进	可以实时地检测超过9000种物体，其主要贡献是使用检测数据集和分类数据集进行联合训练。	在YOLOv2基础上进行改进，优化模型效果
优点	相对于两阶段模型，YOLO实时性高，但检测精度稍低		使用检测数据集和分类数据集进行联合训练	采用在YOLOv2基础上进行改进，优化模型效果进行联合训练，使其在小物体上也能获得很好的检测效果
输入图像	448×448	416×416
具体做法	将输入图片划分成SxS的方格，每个方格需要检测出中心点位于该方格内的物体。在具体实施时，每个方格会预测B个边界框（包括位置、尺寸和置信度）	1.批归一化（BN）层 2.在高精度的图片上调优（fine-tune）10个批次（batch） 3.k-means算法 4.直接在预先设定的锚框上提取特征 5.输入图像的尺寸：416×416 6.将不同大小的特征图结合起来进行物体检测 7.训练每隔10个批次就改变输入图片大小 8.DarkNet-19	字典树	损失函数：二元交叉熵损失函数
主体网络	参考 GoogLeNet，由24个卷积层和2个全连接层组成	DarkNet-19 采用3x3的卷积核，共有19个卷积层和5个池化层		DarkNet-53（53个卷积层）借鉴了残差网络的快捷连接（shortcut）结构
缺点	低召回率、低定位准确率

1.YOLO

基本思想：是使用一个端到端的卷积神经网络直接预测目标的类别和位置。
优点：相对于两阶段模型，YOLO实时性高，但检测精度稍低。
做法：YOLO将输入图片划分成SxS的方格，每个方格需要检测出中心点位于该方格内的物体。在具体实施时，每个方格会预测B个边界框（包括位置、尺寸和置信度）。
主体：YOLO的主体网络结构参考 GoogLeNet，由24个卷积层和2个全连接层组成。
缺点：低召回率、低定位准确率

2.YOLOv2

YOLOv2针对YOLO的两个缺点，即低召回率和低定位准确率，进行了一系列的改进，下面简单介绍其中的几点。
（1）YOLOv2在卷积层后面添加了批归一化（BN）层，以加快收敛速度，防止过拟合。
（2）YOLOv2的卷积特征提取器在进行检测任务前，先在高精度的图片上调优（fine-tune）10个批次（batch），这样能使检测模型提前适应高分辨率图像。
（3）YOLOv2采用k-means算法进行聚类获取先验锚框，并且聚类没有采用欧氏距离，而是有针对性地改进了距离的定义，即
$d (b o x, ce n t ro i d) = 1 - I O U (b o x, ce n t or i d)$
使其更适合于检测任务。
（4）YOLOv2直接在预先设定的锚框上提取特征。YOLO使用卷积神经网络作为特征提取器，在卷积神经网络之后加上全连接层来预测边界框的中心位置、大小和置信度；而YOLOv2借鉴了Faster R-CNN的思路，用卷积神经网络直接在锚点框上预测偏移量和置信度，该方法要比 YOLO更简单、更容易学习。
（5）YOLOv2将输入图像的尺寸从448x448变成416x416，这是因为在真实场景中，图片通常是以某个物体为中心，修改输入图像的尺寸后，将整幅图像经过卷积层后变成13x13（416／32＝13）的特征图，长宽都是奇数，可以有效地识别出中心。
（6）YOLOv2在13x13的特征图上检测物体，对于小物体检测这个精度还远远不够。因此，YOLOv2还将不同大小的特征图结合起来进行物体检测。具体来说，YOLOv2将最后一个池化层的输入26×26×512经过直通层变成13×13×2048的特征图，再与池化后的13×13×1024特征图结合在一起进行物体检测。
（7）YOLOv2 使用不同尺寸的图片同时训练网络。为了增强模型的鲁棒性，模型在训练过程中，每隔10个批次就改变输入图片的大小。
（8）YOLOv2使用新的卷积特征提取网络DarkNet-19。当时大多数检测模型的特征提取部分都采用VGGNet-16作为网络主体，VGGNet-16 虽然效果良好，但是参数过多，运行缓慢。DarkNet-19采用3x3的卷积核，共有19个卷积层和5个池化层。

3.YOLO9000

YOLO9000可以实时地检测超过9000种物体，其主要贡献是使用检测数据集和分类数据集进行联合训练。

检测数据集特点：相对于分类数据集来说，数据量小、类别少、类别粒度粗且获取困难，因此研究人员考虑使用分类和检测数据集进行联合训练，提高模型的泛化能力。
问题及解决：然而，一般分类数据集的标签粒度要远小于检测数据集的标签粒度，为了能够联合训练，YOLO9000 模型构建了字典树，合并 ImageNet的分类数据集标签与COCO的检测数据集标签。

4.YOLOv3

YOLOv3在YOLOv2的基础上进行了一些小的改动来优化模型的效果。

首先，检测数据可能存在一些语义上重叠的标签（如女人和人），但Softmax 函数基于一个假设，即每个检测框内的物体只存在一个类别。因此，YOLOv3使用二元交叉熵损失函数，而不是Softmax函数，这样可以更好地支持多标签的检测。
其次，YOLOv3采用了更深的网络作为特征提取器，即DarkNet-53，它包含了53个卷积层。
为了避免深层网络带来的梯度消失问题，DarkNet-53 借鉴了残差网络的快捷连接（shortcut）结构。
同时，YOLOv3还采用了3个不同大小的特征图进行联合训练，使其在小物体上也能获得很好的检测效果。

下集预告：9.1.4 有哪些措施可以增强模型对于小物体的检测效果？

参考文献：

《百面深度学习》诸葛越江云胜主编

出版社：人民邮电出版社（北京）

ISBN：978-7-115-53097-4

2020年7月第1版（2020年7月北京第二次印刷）

推荐阅读：

//好用小工具↓

分享一个免费的chat工具

分享一个好用的读论文的网站

// 深度学习经典网络↓

LeNet网络（1989年提出,1998年改进）

AlexNet网络（2012年提出）

VGGNet网络（2014年提出）

LeNet、AlexNet、VGGNet总结

GoogLeNet网络（2014年提出）

ResNet网络（2015年提出）