目标检测——Fast R-CNN算法解读

论文:Fast R-CNN
作者:Ross Girshick
链接:https://arxiv.org/abs/1504.08083
代码:https://github.com/rbgirshick/fast-rcnn

目录

  • 1、算法概述
  • 2、Fast R-CNN细节
    • 2.1The RoI pooling layer
    • 2.2 Fine-tuning for detection
    • 2.3 Fast R-CNN detection
  • 3、实验结果
  • 4、创新点和不足

1、算法概述

先说R-CNN的不足之处:
1、训练方式不是端到端的,必须先微调CNN网络,然后用CNN网络得到的特征训练SVMs,最后学习bounding-box回归器。
2、训练起来耗时且耗磁盘空间,用于训练SVMs和bounding-box的区域候选框的特征必须提取好后存储在磁盘中。
3、检测速度很慢,通过重复提取每个区域候选框的特征进行SVM分类加回归,用VGG16的backbone,即使在GPU上推理速度也要47s/image。

同年的SPPNet针对R-CNN也做了改进,除了将用于提取特征的CNN网络替换成ZF5,主要改进点就是用SPP(空间金字塔池化)层替换了网络最后一个池化层,这使得原本R-CNN的2000次CNN前向传播用于提取候选框区域特征得以仅通过一次就可以全部做完,这一改进大大减少了训练和推理时间。但它还是没有解决上面提到的R-CNN第1、第2两个不足点。

Fast R-CNN相对于之前的R-CNN工作做了如下改进:1、将CNN网络由AlexNet替换成了VGG16,能提取到更深层次特征;2、利用多任务损失函数,使得训练一步到位;3、训练阶段网络全部层都可以更新(相对于SPPNet而言,论文中说SPPNet在SPP层之前的卷积层无法更新,我在知乎上搜到的回答如下,回答来自知乎@可以啊,其实论文2.3节也解释了原因);4、不需要额外的磁盘空间用于存储特征。
在这里插入图片描述

2、Fast R-CNN细节

在这里插入图片描述
Fast R-CNN的结构如上图所示,网络接收的输入为一整张图片和一组区域候选框坐标,图片经过几组连续的conv+pooling层后得到特征图,然后,针对每个区域候选框,都将通过感兴趣区域池化层(ROI Pooling Layer)从特征图中提取一个固定长度的特征向量。每个特征向量被送到全连接层,最终连接到两个分支作为网络输出层:一个产生softmax概率估计,类别数为K个对象类加一个“背景”类;另一个为K个对象类输出的四个实数预测。每组4个值为K个类对应的预测box位置(反映在原图中需解码)。

2.1The RoI pooling layer

RoI池化层使用最大池化将任何有效感兴趣区域内的特征转换成具有固定尺寸HxW (例如,7x7)的小特征图。假设某个区域候选框对应特征图上的RoI区域窗口为(r,c,h,w),(r,c)代表矩形左上点,(h,w)代表矩形高,宽。RoI最大池化的工作原理是将h * w大小的RoI窗口划分为H * W个网格,每个网格的大小近似为h/H * w/W,然后将每个网格中的值最大池化到相应的输出网格单元中。RoI Pooling层可看作是单个尺度的SPP层(single-level SPP),如下图所示:
在这里插入图片描述

2.2 Fine-tuning for detection

在微调之前,先调整网络结构,将VGG16的最后一层maxpooling层替换成RoIpooling层,设置输出的固定尺寸为H=W=7;调整输出层为softmax和bounding-box回归,softmax类别为K+1,bounding-box输出为4K;调整输入为图片加上图片对应的区域候选框坐标。
样本采样采用分层采样,Fast R-CNN使用了一个训练过程,共同优化softmax分类器和bounding-box回归器,而不是在三个单独的阶段训练softmax分类器、SVM和回归器推理阶段。

多任务损失
作者通过在每个标记的RoI上使用一个多任务损失L来联合训练分类和bounding-box回归,联合损失公式如下:
在这里插入图片描述
其中,u为ROI对应的类别真实标签,v为ROI对应的矩形框坐标真实标注。因为背景类的标注为u=0,可见背景类不参与坐标框回归损失计算。这里坐标框回归用的是smoothL1损失:
在这里插入图片描述

Mini-batch采样
Batchsize设置为128,是从两张图片采样得到,每张图片包含64个ROI区域,25%的是正样本,正样本为IOU(ROI区域与groundtruth交并比)大于等于0.5的,类别u>=1;其余IOU为0.1到0.5的视为背景样本,类别u=0,IOU小于0.1的视为困难样本挖掘的参考例子。训练中只做了概率为0.5的水平翻转数据增强。

尺度不变性
作者也采用类似于SPPNet同样的方式进行多尺度训练,通过图像金字塔为网络提供近似的尺度不变性。在测试阶段,也采用在图像金字塔上进行区域候选框选择。

2.3 Fast R-CNN detection

在推理阶段,网络接收一张图片或者是一张图片的图像金字塔列表及对应的R个目标区域候选框坐标。在测试阶段R取值为2000。当用图像金字塔作为输入时,2000个ROI区域也被按比例分配到图像的每个尺度上,这些ROI区域接近224x224的大小。最终会在类别分支得到K+1个分数,在回归分支得到4个坐标点(取类别分数最大的类别对应的4个坐标值),然后按类别应用nms消除多余的框。

3、实验结果

实验设置:作者使用了三种模型(S,M,L)用于对比,AlexNet(model S),VGG_CNN_M_1024(model M,与S有相同的深度,但是通道数更宽),VGG16(model L),作者在VOC2007,VOC2010,VOC2012上测试结果如下:
在这里插入图片描述
和R-CNN,SPPNet训练时间及推理时间对比结果如下:
在这里插入图片描述

4、创新点和不足

  • 创新点:
    1、利用多任务损失函数,使得训练一步到位;
    2、提出RoIPooling层,使得训练阶段网络全部层都可以更新;
    3、Fast R-CNN消除了存储特征的磁盘空间消耗。
  • 不足:
    1、候选框区域生成还是用selective search,不仅耗时且与后面的训练过程是独立的;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/190979.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

工业机器视觉megauging(向光有光)使用说明书(十三,资源发现bug,已经更新)

megauging(向光有光)旧资源有bug,已经更新,如下: 第一工具,combox默认0,选择后,鼠标点击“获取结果”,相机就取一帧图像处理后显示出来: 第一工具&#xff0…

YOLOv5算法进阶改进(7)— 将主干网络SPPF更换为SimSPPF / SPP-CSPC / SPPF-CSPC

前言:Hello大家好,我是小哥谈。SimSPPF是YOLOv6中提出的一种改进的空间金字塔池化方法,它是SPPF的升级版。SimSPPF通过在不同尺度上使用不同大小的池化核来提取特征,从而提高了检测器的性能。与SPPF相比,SimSPPF可以在不增加计算成本的情况下提高检测器的性能。本节课就教…

Flask使用线程异步执行耗时任务

1 问题说明 1.1 任务简述 在开发Flask应用中一定会遇到执行耗时任务,但是Flask是轻量级的同步框架,即在单个请求时服务会阻被塞,直到任务完成(注意:当前请求被阻塞不会影响到其他请求)。 解决异步问题有…

记录 | photoshop移动选区

期望达到的效果: 选择一块区域,并移动它 操作: (1) 选择矩形选框工具, (2) 对区域进行选取, (3) 选择移动工具, (4) 移动选区,效果如下,

已知数组A[1..n]中元素类型为非负整数,设计算法将其调整为左右两部分,左边所有为奇数,右边所有为偶数,并要求算法的时间复杂度为O(n)

//左边奇数右边偶数 void Swap(int* a, int* b) {int tmp *b;*b *a;*a tmp; } void LeftRight(int arr[],int n) {int i 0;int j n - 1;while(i<j){if (arr[i] % 2 0 && arr[j] % 2 1) {Swap(&arr[i], &arr[j]);i;j--;}else if (arr[i] % 2 1 &…

Next.js初步使用

文章目录 安装和运行页面静态文件 React初步&#xff0c;但不熟悉React也可以学习本文。 安装和运行 Next.js是一个基于React的服务端渲染框架&#xff0c;可以实现构建高性能、可扩展的React应用&#xff0c;提供了很多方便的工具和功能&#xff0c;包括自动代码分割、服务器…

Java研学-IO流(三)

六 字节流 – 字节输出流系列 OutPutStream体系 1 OutPutStream系列 – 字节输出流 // 表示字节输出流所有类的超类&#xff0c;输出流接受输出字节并将其发送到某个接收器 public abstract class OutputStreamFileOutputStream/BufferedOutputStream 2 FileOutputStream类设…

pyqt5使用pyqtgraph实现动态热力图

pyqt5使用pyqtgraph实现动态热力图 一、效果图 二、流程 1、打开Designer创建一个UI界面 2、把UI转成py 3、创建一个main.py文件 4、在main文件中渲染画布、创建初始数据、画热力图、创建更新数据线程、绑定按钮触发事件三、UI界面 其中h_map.py代码如下: # -*- coding: ut…

1688API接口系列,1688开放平台接口使用方案(商品详情数据+搜索商品列表+商家订单类)

1688商品详情接口是指1688平台提供的API接口&#xff0c;用于获取商品详情信息。通过该接口&#xff0c;您可以获取到商品的详细信息&#xff0c;包括商品标题、价格、库存、描述、图片等。 要使用1688商品详情接口&#xff0c;您需要先申请1688的API权限&#xff0c;并获取ac…

变量和引用

变量和引用 2.1.深入认识变量 2.1.1.什么是变量 变量是在程序中保存用户数据的一段内存存储空间&#xff0c;变量名是内存空间的首地址 变量三要素&#xff1a;名称、类型、值 2.1.2.变量的名称 组成: 字母、数字、下划线组成&#xff0c;不能以数字开头 变量名称的长…

蓝桥杯每日一题2023.12.2

题目描述 蓝桥杯大赛历届真题 - C 语言 B 组 - 蓝桥云课 (lanqiao.cn) 题目分析 答案&#xff1a;3598180 由题目分析可以知道&#xff0c;给小明发的牌一共有13种类型&#xff0c;每种类型的牌一共有四张。对于每种牌&#xff0c;我们都有5种选择&#xff0c;不拿、拿一张、…

LeetCode - 965. 单值二叉树(C语言,二叉树,配图)

二叉树每个节点都具有相同的值&#xff0c;我们就可以比较每个树的根节点与左右两个孩子节点的值是否相同&#xff0c;如果不同返回false&#xff0c;否则&#xff0c;返回true。 如果是叶子节点&#xff0c;不存在还孩子节点&#xff0c;则这个叶子节点为根的树是单值二叉树。…

分析实现HarmonyOS中的Linux内核架构模式

在当今的科技领域&#xff0c;操作系统是各种智能设备运行的关键所在。而在这方面&#xff0c;华为的鸿蒙系统备受瞩目。那么&#xff0c;鸿蒙系统技术架构是怎样的呢&#xff1f;本文将为您揭开这一神秘面纱。 首先&#xff0c;我们需要了解鸿蒙系统的基本架构。鸿蒙系统采用…

mysql中除了InnoDB以外的其它存储引擎

参考资料&#xff1a;https://dev.mysql.com/doc/refman/8.0/en/storage-engines.html MyISAM存储引擎 https://dev.mysql.com/doc/refman/8.0/en/myisam-storage-engine.html MyISAM 存储引擎是基于比较老的ISAM存储引擎&#xff08;ISAM已经不再可用&#xff09;&#xff…

shell编程系列(11)-使用grep查找文本

文章目录 前言grep的使用根据关键字查找反向查找 结语 前言 grep命令也是我们在日常使用linux&#xff0c;编写shell脚本中会用到的一个高频命令&#xff0c;grep主要是帮助我们查找我们想要的内容&#xff0c;类似于我们在office word里面的 Ctrl f 查找功能&#xff0c;但是…

SLURM资源调度管理系统REST API服务配置,基于slurm22.05.9,centos9stream默认版本

前面给大家将了一下slurm集群的简单配置&#xff0c;这里给大家再提升一下&#xff0c;配置slurm服务的restful的api&#xff0c;这样大家可以将slurm服务通过api整合到桌面或者网页端&#xff0c;通过桌面或者网页界面进行管理。 1、SLURM集群配置 这里请大家参考&#xff1…

使用C语言创建高性能爬虫ip网络

之前写的python和GO语言的爬虫ip池的文章引起很大反响&#xff0c;这次我将以C语言来创建爬虫IP池&#xff0c;但是因为其复杂性&#xff0c;可能代码并非完美。但是最终也达到的想要的效果。 因为在C语言中创建代理IP池可能会比较复杂&#xff0c;且C语言并没有像Python那样的…

07-原型模式-C语言实现

原型模式&#xff1a; Specify the kinds of objects to create using a prototypical instance,and create new objects by copying this prototype.&#xff08;用原型实例指定创建对象的种类&#xff0c; 并且通过拷贝这些原型创建新的对象。 &#xff09; UML图&#xff1…

关于 Kubernetes中Admission Controllers(准入控制器) 认知的一些笔记

写在前面 工作中遇到&#xff0c;简单整理记忆博文为官方文档整理涉及内置准入控制的分类理解理解不足小伙伴帮忙指正 人活着就是为了忍受摧残&#xff0c;一直到死&#xff0c;想明了这一点&#xff0c;一切事情都能泰然处之 —— 王小波《黄金时代》 为什么需要准入控制器 准…

非得让你会之MyBatis插件与Java动态代理

引言 咱们今天聊聊Java动态代理&#xff0c;这东西在开发中真的太常见了。比如Spring AOP、RPC&#xff0c;它们都离不开动态代理。然后&#xff0c;咱们再来说说MyBatis插件&#xff0c;这可是MyBatis框架中的一个超实用的功能&#xff0c;它就像是给MyBatis加了个“超能力”…