改进 | |
---|---|
R-CNN | 缩放图片 |
SPPNet | 允许不同大小输入,SPP(pooling)归一化到相同尺寸 |
Fast RCNN | 1.SPP->Rol pooling;2.改进边框校准Smooth L1 loss;3.全连接加速Truncated SVD |
Faster RCNN | RPN直接生成候选框(共享CNN),anchor box |
Mask R-CNN | 实例分割;RolPool->RolAlign |
Cascade RCNN | 级联多个Detection Head;提高交并比 |
FPN | 物体尺度变化大(充分利用CNN 结构对浅层补偿 |
SNIP/SNIPER/AutoFocus | 多尺度输入+ 单尺度模型(不同的输入尺度上处理不同尺度的物体 |
YOLO | 单阶段检测;anchor box;fc->RCNN;图像网格划分 |
SSD | 单阶段,RPN权卷积,anchor box;多尺度 |
corner Net | Anchor Box->Corner;corner pooling单方向的pooling |
RCNN
- 生成少量候选框(selective search)
- 图像分割
- 层次化地区域合并
- 用CNN提取候选框内的特征
- 缩放到相同大小
- 送入AlexNet提取特征
- 以最后的全链接层的输出作为特征表示
- 有监督预训练+微调
- 候选框分类
- SVM
- 一对多的而分类
- softmax
- CNN+softmax-直接出结果
- 多类分类
- 边框校准
- 让检测框贴着物体
- SVM
SPPNet
- R-CNN:要把候选框变换到相同的大小
- 裁剪丢失信息,缩放变形
- SPPNet:(对整个网络卷积,去除重复计算
- CNN:允许任意大小的图片输入到网络
- SPP:归一化到相同大小(spatial pyramid pooling
- 全连接:要相同大小的输入
- SPPNet和R-CNN都包含多个单独的步骤–慢
- 微调
- RCNN-对整个CNN
- SPPNet-只对全连接层
- SVM&边框
- 时间长:需要cnn提取所有特征
- 占用空间大
- 微调
Fast RCNN
- 保留SPPNet的优势SPP–简化为单尺度的Rol pooling
- 引入多任务学习,将多个步骤整合到一起
- 改进边框校准:Smooth L1 loss
- 全连接层加速:Truncated SVD
Faster RCNN
- 专门的候选框模块是速度瓶颈–直接CNN生成候选框
- 直接CNN生成候选框(且和第二阶段共享卷积层)–RPN
- 输入图,输出候选框
- 尺度搜索anchor box–定义一组不同大小的窗口
- 交替训练法
- 交替式4步法训练
- 基于预训练模型训练RPN
- 基于预训练模型,以及上一步得到的RPN,训练Fast R-CNN
- 固定共享的卷积层,训练RPN
- 固定共享的卷积层,基于上一步得到的RPN,训练Fast R-CNN
- 端到端训练
- 同时学习RPN和Fast R-CNN
- Fast R-CNN的梯度不向RPN回传
- 交替式4步法训练
Mask R-CNN
- 新任务:实例分割
- Faster-RCNN中+分割模块
- RolPool->RolAlign
Cascade RCNN
- 检测框的位置准确率:和标注狂交并比越高越好
- 级联多个Detection Head:逐步调整检测框,提升IoU
FPN
- 物体的尺度变化范围大
- CNN-特征金字塔
- 利用CNN的结构,对浅层进行予以补偿
SNIP/SNIPER/AutoFocus
多尺度输入+单尺度模型
在不同的输入尺度上处理不同尺度的物体
保证训练和测试时输入的尺度的一致性
单阶段检测YOLO
- 两阶段检测:找候选框->检测
- 单阶段YOLO:直接两个结果一起出来
- 将目标检测->回归问题
- 对图像网格划分
- RPN:全连接层-》CNN
- 使用anchor box
- YOLO v2/YOLO 9000
- 层次化分类
- 无框标注的类别(弱监督)在当前概率最大的位置学习分类(猜了一个伪标签——
单阶段检测SSD
- 首次给出了“Single-Shot”的说法
- 类似YOLO的出发点:不生成Region Proposal,直接输出检测结果
- 借鉴RPN的设计:全卷积,Anchor Box Default Box
- 引入新的设计:多尺度
- 对于不同大小的物体(在不同尺度的特征图上预测,用不同的predictor
- 训练策略:数据增广,难例挖掘
CornerNet
- AnchorBox:
- 数量多,导致正负样例不均衡
- 需要人工定义,且引入了大量超参数,这些选择严重依赖于数据
- Anchor Box->Corner:将框的预测转换为顶点的预测和匹配
- 提取corner预测的特征:corner pooling
- 局部 pooling->在一个方向上pooling