目标检测算法
单阶段:不提取出候选框,直接将整个图像输入模型中,算法直接输出检测结果,端到端 yolo,ssd
端到端,输入图像到网络中,然后从网络中输出图像
二阶段:先从图像中提取出候选框(先筛选一次),输入卷积神经网络,然后候选框进行分类与位置调整 rcnn
深度学习前置知识
Batch Normalization 归一化 对数据进行一些处理,使得每一层输入保持稳定,网络收敛别跑偏
LeakyReLU 激活函数引入非线性运算
Filters 过滤器也就是多层卷积核 stride (滑动的步长)
残差网络
要是往下卷积效果不好,就使用原来的
mAP 越大效果越好,在不同的阈值都考虑
精度:检测框与实际框的吻合度
recall 是不是把所有的框都检测到了
iou 实际框与预测框的交集/两个的并集
损失函数:给出一个函数当函数值越小,预测值与真实值越接近,这样神经网络的预测值接近真实值,最小化与真实值之间的误差
yolov3
yolo 是回归问题
回归问题主要用于预测某连续变量的数值,例如:预测PM2.5、预测房屋价格、电商用户购买可能性 没有限定的答案
yolo是通过中心点所在的格子去预测先验框中的信息(每个小格子都是先验框的中心点,先验框是我们是事先规定的,我们把先验框移动坐标,调整格子大小就变成了我们的最后的预测框)。yolov3中每个小格子有两个先验框,一个格子65个值,9(先验框)×(5)+20种类别概率),重点给出损失函数,让神经网络去猜
5: 中心点(x,y) 框的w,h ,置信度confidence(框住的是不是一个物体)
损失函数
网络结构
Residual 残差就是add 残差块 == 两个卷积+残差
黄色模块 = 残差块+ CBL
小目标就是 52×52 ,然后与后面中目标26×26上采样变成的52×52进行融合 ,通俗理解就是在使用小视野52的时候还要参考中视野26×26的特征