YOLOv4
YOLOv4网络详解_哔哩哔哩_bilibili
网络结构,在Yolov3的Darknet的基础上增加了CSP结构。
CSP的优点:
加强CNN的学习能力
去除计算瓶颈。
减少显存的消耗。
结构为:
、
其实还是类似与残差网络的结构,保留下采样之前的特征和下采样之后的特征进行拼接,让模型的特征信息能够更全面。
SPP
PAN结构
FPN是将特征层向下累加,这样对于任意特征层来说,他是看不到其下面特征层的信息的,PAN在FPN的基础上,采取了个向上加的功能,让特征层包含的信息更全面。 有点类似RNN单向叠加的感觉。 这里注意,Yolov4将叠加操作改成了concat拼接。
优化策略
针对前作中的预测框定位的问题。
如果GT真实框真好落在边界点, 预测值txty想预测这个边界点的话取值需要趋向于无穷,这显然是很难达到的,所以在v4和v5中对做了一点改进:
问题:这里我个人觉得有点矛盾,因为用sigmoid函数的目的就是为了限制0~1(在一个cell之内)但是这么改进了之后又限制不了了,哪怕是做截断感觉也没啥意义,为啥不用一个简单的函数做映射呢?(下面会做解释)
正负样本分配:
通过计算GT真实框与预设anchor框的IOU来判断正负样本,对于yolov3来说,只采用与GT的IOU最大的anchor作为正样本,Yolov4改成了只要满足IOU大于阈值,那么都是正样本, 这样做扩充了正样本的数量。
这里有个改动,Yolov4提出,为了消除grid cell的敏感度,同时也为了扩展正样本数量,落在某个cell内的GT真实框还可能被其周围cell来预测,
因为现在的映射函数改成了:,所以其范围是(-1.5,1.5)相当于以左上角的点作为起点的话,预测框是可以超出一个cell的距离的, 像下图3个cell都可以对黑点这个真实框做预测,相当于扩充了正样本的数量,让预测框不被cell限制的那么死。
YOLOV5
YOLOv5网络详解_哔哩哔哩_bilibili
SPP->SPPF
SPP
SPPF
2个k=5的Maxpooling可以等同于一个k=9的Maxpooling,3个k+5等于K=9, SPPF和SPP效果是一样的,但是效率高很多
数据增强
Mosaic:4个拼成一个
copy paste: 将图像抠出来贴到另一张上
Rand affine :随机的缩放,平移等。
MIXup: 调整透明度后叠加
Augment HSV: 调整色度,饱和度等
训练策略
损失函数
消除grid敏感度
这个基本和Yolov4中的一样,但Yolov5将长和宽也进行的改动,之前的容易出现指数爆炸,造成BwBh值过大,导致训练不稳定
匹配正样本
Yolov4匹配正样本是通过IOU的阈值是否大于某个预设值来判断是否为正样本,Yolov5在v4的基础上进一步对框的长宽进行限制,下图Rmax是预测框和真实框长宽比值的最大值,当这个最大值超出限制时则将样本设置为负。