深度学习之 ROI Pooling

什么是ROI?

ROI是 Region of interest 的简写,指的是 Faster R-CNN 结构中,经过 RPN 层后,产生的 proposal 对应的 box 框。

ROI Pooling 顾名思义,是 pooling 层的一种,而且是针对 ROIs 的 pooling。整个 ROI 的过程,就是将这些 proposal 抠出来的过程,得到大小统一的 feature map。

ROI Pooling 的输入

ROI Pooling 该层有两个输入:

  1. 从具有多个卷积核池化的深度网络中获得的固定大小的feature maps;
  2. 一个表示所有 ROI 的 N*5 的矩阵,其中N表示ROI的数目。一列表示图像index,其余四列表示其余的左上角和右下角坐标;

ROI Pooling 的输出

输出是 batch 个 vector,其中 batch 的值等于 roi 的个数,vector的大小为 channel∗w∗hchannel*w*hchannelwh;ROI Pooling 的过程就是将一个个大小不同的 box 矩形框,都映射成大小为 w∗hw*hwh 的矩形框;

在这里插入图片描述
在这里插入图片描述
如图所示,我们先把 roi 中的坐标映射到 feature map 上,映射规则比较简单,就是把各个坐标除以输入图片与 feature map 的大小的比值,得到了 feature map 上的 box 坐标后,我们使用 pooling 得到输出;由于输入的图片大小不一,所以这里我们使用的 spp pooling,spp pooling 在 pooling 的过程中需要计算 pooling 后的结果对应的像素点反映射到 feature map 上所占的范围,然后在那个范围中进行取 max 或者取 average。理解起来有点绕,看后面,你会豁然开朗。

ROI pooling具体操作如下

  1. 根据输入image,将 ROI 映射到 feature map 对应位置;
  2. 将映射后的区域划分为相同大小的 sections(sections数量与输出的维度相同);
  3. 对每个 sections 进行 max pooling 操作;

这样我们就可以从不同大小的方框得到固定大小的相应的 feature maps。值得一提的是,输出的 feature maps 的大小不取决于 ROI 和卷积 feature maps 大小。ROI pooling 最大的好处就在于极大地提高了处理速度。

ROI pooling example

我们有一个 8∗88*888 大小的 feature map,一个ROI,以及输出大小为 2∗22*222.

输入的固定大小的feature map
在这里插入图片描述
region proposal 投影之后位置(左上角,右下角坐标):(0,3),(7,8)(0,3),(7,8)(0,3)(7,8)
在这里插入图片描述
将其划分为(2*2)个 sections(因为输出大小为2*2),我们可以得到:
在这里插入图片描述
对每个section做max pooling,可以得到:
在这里插入图片描述
整体过程如下:
在这里插入图片描述
说明:在此案例中 region proposals 是 5*7 大小的,在 pooling 之后需要得到 2*2 的,所以在 5*7 的特征图划分成 2*2 的时候不是等分的,行是 5/2,第一行得到2,剩下的那一行是3,列是7/2,第一列得到3,剩下那一列是4。

CNN 中的ROI Pooling

在CNN中,Pooling 层的作用主要有两个:

  • 引入 invariance,包括 translation-invariance,rotation-invariance,scale-invariance。
  • 完成 feature map 的聚合,实现数据降维,防止过拟合。

ROI Pooling 将不同输入尺寸的 feature map 通过分块池化的方法得到固定尺寸的输出,其思想来自于 SPPNet。

rbg 大神在 Fast RCNN 中使用时,将 sppnet 中多尺度的池化简化为单尺度,只输出固定尺寸为(w, h)的 feature map。
在这里插入图片描述
在 Fast R-CNN 网络中,原始图片经过多层卷积与池化后,得到整图的 feature map。而由 selective search 产生的大量 proposal 经过映射可以得到其在 feature map 上的映射区域(ROIs),这些ROIs即作为ROI Pooling层的输入。

ROI Pooling时,将输入的 h∗wh * whw 大小的 feature map 分割成 H∗WH * WHW 大小的子窗口(每个子窗口的大小约为 h/H,w/Wh/H,w/Wh/Hw/W,其中H、W为超参数,如设定为7 x 7),对每个子窗口进行 max-pooling 操作,得到固定输出大小的 feature map。而后进行后续的全连接层操作。

ROI Pooling层的加入对R-CNN网络的改进

在R-CNN中,整个检测的流程是:
在这里插入图片描述
R-CNN网络的主要问题有:

  • 使用 selective search 产生 proposal,操作耗时,且不利于网络的整体训练和测试
  • 产生的 proposal 需要经过 warp 操作再送入后续网络,导致图像的变形和扭曲
  • 每一个 proposal 均需要单独进行特征提取,重复计算量大

ROI Pooling的加入,相对于R-CNN网络来说,至少有两个改善:

  • 由于ROI Pooling可接受任意尺寸的输入,warp操作不再需要,这有效避免了物体的形变扭曲,保证了特征信息的真实性
  • 不需要对每个proposal都提取特征,采用映射方式从整张图片的 feature map 上获取ROI feature区域

除了上述两个改进外,其实还有一点。R-CNN 中在获取到最终的 CNN 特征后先采用 SVM 进行类别判断,再进行 bounding-box 的回归得到位置信息。整个过程是个串行的流程。这极大地影响了网络的检测速度。Fast R-CNN 中则将 Classification 和 regression 的任务合二为一,变成一个 multi-task 的模型,实现了特征的共享与速度的进一步提升。

不知大家注意没有,Fast R-CNN 只是解决了R-CNN中的两点问题,而仍然沿用了 R-CNN 中 selective search 生成 proposal 的方法。这一方法产生的 proposal 即使经过NMS也会达到 2k~3k 个。一方面生成过程耗时耗力,另一方面给存储也带来压力。

那么,有没有办法改进呢?答案当然是 Yes。那就是 Faster R-CNN 的提出。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/453764.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

KD树小结

很久之前我就想过怎么快速在二维平面上查找一个区域的信息,思考许久无果,只能想到几种优秀一点的暴力。 KD树就是干上面那件事的。 别的不多说,赶紧把自己的理解写下来,免得凉了。 KD树的组成 以维护k维空间(x,y,……)内的KD树为例…

深度学习之 RPN(RegionProposal Network)- 区域候选网络

anchor boxes基本概念与作用: feature map 上的一个点可以映射回输入图片上的一个点,以特征图上这个点为中心,预先人为设定 k 个 boxes,这些 boxes 就称为在这个点上生成的 k 个 anchor boxes(所有anchor boxes的中心点坐标是一样…

workbench拓扑优化教程_优化技术在水泵水力设计的应用(上篇)

文章来源:安世亚太官方订阅号(搜索:Peraglobal)CFD技术在泵的内流数值模拟、研究泵内部流动规律和结构方面已广泛应用,取得了很多成果。但是初步设计的产品如果通过CFD仿真得到的性能曲线不能满足使用要求,…

深度学习之 TensorRT

1 简介 TensorRT是一个高性能的深度学习推理(Inference)优化器,可以为深度学习应用提供低延迟、高吞吐率的部署推理。TensorRT可用于对超大规模数据中心、嵌入式平台或自动驾驶平台进行推理加速。TensorRT现已能支持TensorFlow、Caffe、Mxne…

进制转换中dbho是什么意思_什么是网段?二进制十进制如何互相转换?看完这篇,你就全明白了...

之前的文章讲了ip,子网掩码,网关的关系,今天着重讲一下网段。我们用傻瓜交换机通讯时,一个网段的设备才能互相通讯,怎么能判断两个ip是同一个网段呢?今天就简单的说一下。(这篇文章用语音听可以起到催眠作用…

软件需求与问题解决

(一) 小满当上项目经理后不久,参与了一个大项目。当时市场签下来的时候,公司里面是欢天喜地的。项目做了一年多。到了交付的时候,用户却很不满意,当初说好的东西,好多都变了卦。用户是上帝&…

flex 换主轴后子元素占满_Chrome72 嵌套 flex 布局修改,你的网站可能会发生布局错乱...

起源2019 年 1 月 29 日,Chrome72 正式版(72.0.3626.81)发布,本次发布带来了一个改变,且没有在更新日志中提及,该改变导致某些网站发生了布局错乱。该改变主要针对的是嵌套的flex布局,下面我们一起看下是怎么回事。问题…

路由到另外一个页面_Nextjs使用解读一(项目搭建与路由系统)

文章说明:1. 之前想搭建个人博客,由于学习的是react技术栈,所以就到处搜罗资料学了nextjs,配合koa就把博客搭起来了。该系列文章基于我的学习笔记,重新整理了一遍,如果有错误之处,还请指正。2. …

微信获取token -1000

最终翻看微信开发api找到需要去配置IP白名单。只需要配置访问来源IP即可。 转载于:https://www.cnblogs.com/yangjinqiang/p/8184663.html

产品技术和管理

为啥纯粹为消费者传递体验的活动可以价格不菲,几为暴利?——谈客户体验作为客户价值提升之源 不论产品还是服务,如果能够为消费者传递有益的体验,其价值就可以在一般的产品服务之上得以体现;附加了体验的产品&#xff…

jquery ztree 设置勾选_047 JAVA-jQuery

jQuery操作元素属性的值表单:<body><input type"button" name"" id"but1" value"测试获得属性值" /><hr />账号&#xff1a;<input type"text" name"sxtzh" id"zhanghao" value&q…

Opencv undefined reference to `cv::imread() Ubuntu编译

Ubuntu下编译一个C文件&#xff0c;C源程序中使用了opencv&#xff0c;opencv的安装没有问题&#xff0c;但是在编译的过程中出现如下错误&#xff1a; undefined reference to cv::imread(std::string const&, int)undefined reference to cv::noArray()undefined referen…

深度学习目标检测之 YOLO v1

这是继 RCNN&#xff0c;fast-RCNN 和 faster-RCNN 之后&#xff0c;rbg&#xff08;RossGirshick&#xff09;针对DL目标检测速度问题提出的另外一种框架。YOLO V1 增强版本GPU中能跑45fps&#xff0c;简化版本155fps。 论文名&#xff1a; 《You Only Look Once&#xff1a;…

编程珠玑番外篇

1.Plan 9 的八卦 在 Windows 下喜欢用 FTP 的同学抱怨 Linux 下面没有如 LeapFTP 那样的方便的工具. 在苹果下面用惯了 Cyberduck 的同学可能也会抱怨 Linux 下面使用 FTP 和 SFTP 是一件麻烦的事情. 其实一点都不麻烦, 因为在 LINUX 系统上压根就不需要用 FTP. 为什么呢? 因…

BT下载原理分析

版权声明&#xff1a;本文为博主原创文章&#xff0c;未经博主允许不得转载。 BitTorrent协议。 BT全名为BitTorrent,是一个p2p软件,你在下载download的同时&#xff0c;也在为其他用户提供上传upload&#xff0c;因为大家是“互相帮助”&#xff0c;所以不会随着用户数的增加而…

表格列求和_excel表格制作,Excel表格的基本操作,包含制作一个表格10方面的知识...

创建表格&#xff0c;插入与删除一行一列或多行多行&#xff0c;一次移动一行一列或多行多列&#xff0c;拆分与合并单元格&#xff0c;单元格内换行&#xff0c;表格求和与求平均值是Excel表格的基本操作&#xff1b;除此之外&#xff0c;Excel表格的基本操作还包括调整行高列…

深度学习之 FPN (Feature Pyramid Networks)

论文题目&#xff1a;Feature Pyramid Networks for Object Detection论文链接&#xff1a;https://arxiv.org/abs/1612.03144论文代码&#xff1a;Caffe版本 https://github.com/unsky/FPN 《Feature Pyramid Networks for Object Detection》这篇论文主要解决的问题是目标检…

ISLR—第二章 Statistical Learning

Statistical Learning Y 和X的关系why estimate f 用来预测 预测的时候可以将f^当成一个black box来用&#xff0c;目的主要是预测对应x时候的y而不关系它们之间的关系。用来推断 推断的时候&#xff0c;f^不能是一个black box&#xff0c;因为我们想知道predictor和response之…

提高编程思想

虚函数和抽象函数有什么区别 虚函数是有代码的并明确允许子类去覆盖&#xff0c;但子类也可不覆盖,就是说可以直接用&#xff0c;不用重写 抽象函数是没有代码&#xff0c;子类继承后一定要重写 ****************************************************************** 在一…

Windows数据库编程接口简介

数据库是计算机中一种专门管理数据资源的系统&#xff0c;目前几乎所有软件都需要与数据库打交道&#xff08;包括操作系统&#xff0c;比如Windows上的注册表其实也是一种数据库&#xff09;&#xff0c;有些软件更是以数据库为核心因此掌握数据库系统的使用方法以及数据库系统…