文章目录
- 锚框
- 目标检测常用算法
- RCNN
- Fast RCNN
- Faster RCNN
- SSD 单发多框检测
- YOLO
锚框
- 一类目标检测算法:以图像的每个像素为中心生成不同形状的锚框,并赋予标号,每个锚框作为一个样本进行训练。
- 在预测时,使用NMS来去掉冗余的预测。
目标检测常用算法
RCNN
-
对输入图像使用选择性搜索来选取多个高质量的提议区域 (Uijlings et al., 2013)。这些提议区域通常是在多个尺度下选取的,并具有不同的形状和大小。每个提议区域都将被标注类别和真实边界框;
-
选择一个预训练的卷积神经网络,并将其在输出层之前截断。将每个提议区域变形为网络需要的输入尺寸,并通过前向传播输出抽取的提议区域特征;
-
将每个提议区域的特征连同其标注的类别作为一个样本。训练多个支持向量机对目标分类,其中每个支持向量机用来判断样本是否属于某一个类别;
-
将每个提议区域的特征连同其标注的边界框作为一个样本,训练线性回归模型来预测真实边界框。
Fast RCNN
- 与R-CNN相比,Fast R-CNN用来提取特征的卷积神经网络的输入是整个图像,而不是各个提议区域。此外,这个网络通常会参与训练。
- 假设选择性搜索生成了n个提议区域。这些形状各异的提议区域在卷积神经网络的输出上分别标出了形状各异的兴趣区域。然后,这些感兴趣的区域需要进一步抽取出形状相同的特征,以便于连结后输出。为了实现这一目标,Fast R-CNN引入了兴趣区域汇聚层(RoI pooling):将卷积神经网络的输出和提议区域作为输入,输出连结后的各个提议区域抽取的特征
- 将特征图展平(reshape)为向量,通过一系列全连接层和 softmax得到预测结果。
Faster RCNN
- 将图像输入网络得到相应的特征图。
- 使用RPN网络生成候选框,将RPN生成的候选框投影到特征图上获得ROI区域的特征矩阵。
- 将每个ROI区域的特征矩阵通过 ROI pooling 层缩放到7x7大小的特征图,接着将特征图展平为vector,之后通过一系列全连接层得到预测结果。
RCNN系列
https://www.xjx100.cn/news/384810.html?action=onClick
SSD 单发多框检测
https://blog.csdn.net/weixin_44791964/article/details/104981486
https://blog.csdn.net/m0_56175815/article/details/130627738
YOLO
- SSD中锚框大量重叠,浪费计算。
- YOLO将图片均匀分成SxS个锚框
- 每个锚框预测B个预测框