Fast R-CNN整体把握

RCNN很好地解决了目标检测分类和定位的问题。但是缺点是速度太慢。

原因1:2k个候选区域都要经过变形成统一的正方形才能依次输入CNN进行特征提取。候选区域可能是互相包含的,这就导致原图同一个区域特征的重复提取。

原因2:RCNN的分类和回归是分开的,耗费时间和空间。每个候选区域都要经过相同的CNN和分类+回归,复杂度与候选区域数量成正比。

如下图所示,R-CNN先得到约2000个候选区域,对每个候选区域进行warp,特征提取,SVM分类与Bbox的位置回归。

Ross Girshick在15年推出Fast RCNN。同样使用最大规模的网络,FastRCNN和RCNN相比,训练时间从84小时减少为9.5小时,测试时间从47秒减少为0.32秒。我们看看Fast RCNN是如何解决最开始提到的两个问题的。

针对问题1

原始做法是先得到原始图像的ROI,再分别送CNN,改进思路是直接将原图送入CNN得到feature map,然后再加入候选框的信息,在feature map上得到候选区域映射的patch。这样就只对图像进行了一次卷积特征的计算,比RCNN提速100倍。

这样做又会引入两个新问题,原始先得到ROI可以通过warp归一化尺寸控制到全连接时的大小,那现在在特征图上怎么进行尺寸的归一化,总不能继续warp吧?还有,既然是在特征图上找ROI,那候选区域与特征图的对应关系如何确定呢?

关于第一点尺寸归一化的问题,何恺明研究员在2014的论文中将空间金字塔池化Spatial Pyramid Pooling(SPP)结构引入了CNN,使CNN可以处理任意size和scale的图像。

如上图所示,在卷积层和全连接层之间加入了SPP layer。此时网络的输入可以是任意尺度的,在SPP layer中每一个pooling的filter会根据输入调整bin大小,从右到左三级bin的个数分别是1,4,16,这样SPP的输出尺度始终是固定的,是1+4+16维。提取候选区特征和构建金字塔的过程都在ROI Pooling中完成。

为什么bin的个数之和就是输出的维度呢?因为这一层使用最大池化(max pooling)来将RoI区域转化成固定大小为HW的特征图。如下图,我们可以设定每个候选区域的分块数,但依然不能保证每一个bin内的大小是一样的,最大池化就可以简单理解成求块内最大值的过程,这样不管每一个bin是多大,最后都只输出1个值:最大值。

Fast-RCNN就使用了SPPlayer的变种——RoI pooling层。SPP是金字塔结构,每层的最大池化结果拼接做输出,但其实金字塔的每层都可以起到归一化尺寸的目的。RoI pooling层就只使用了金字塔的一层,因为实验表明多尺度学习只增加了一点点mAP,但是计算量成倍增加。

关于第二点特征图位置与候选框位置对应关系的问题。这里要引入感受野Receptive Field的概念,表示特征图中每个像素点源自哪部分原始像素点的加权和。由特征图是可以倒推出特征图中每个像素点的感受野的,计算过程受到卷积核填充因子和步长的影响,为了方便计算,设定卷积核尺寸为F时填充大小为F/2,那么映射关系就只与步长S有关:特征图(0,0)位置对应的感受野中心坐标是(0,0);特征图(x,y)位置对应的感受野中心坐标是(Sx,Sy)。但现在我们已知的是空域的候选框位置,怎么得到该候选框在特征图中的位置呢,其实和感受野的颜色关系是差不多的,都是S倍的关系,只不过要根据取整的关系进行正负1的调整:

Given a window in the image domain, we project the left (top) boundary by: x 0 = bx/Sc + 1 and the right (bottom) boundary x 0 = dx/Se − 1.

针对问题2

另外,之前RCNN的处理流程是先提proposal,然后CNN提取特征,之后用SVM分类器,最后再做bbox regression,而在Fast-RCNN中,作者巧妙的把bbox regression放进了神经网络内部,与region分类和并成为了一个multi-task模型,损失函数使用了多任务损失函数(multi-task loss),将边框回归直接加入到CNN网络中训练。实际实验也证明,这两个任务能够共享卷积特征,并相互促进。

既然是多任务,那么损失函数就由两项构成:一个是分类损失,一个是回归损失。因为是多分类,理所当然地使用softmax得到该RoI属于各个标签的概率,p=(p_0,...,p_K)。但是这里没有使用交叉熵,对于真实标签uL_{cls}(p,u)=-logp_u

对于使用回归来修正Bbox的定位,我们首先要以四元组的形式来表示方框的位置和大小:t^k=(t^k_x,t^k_y,t^k_w,t^k_h,),回归损失就是四个维度的损失和:

L_{loc}(t^u,v)=\sum_{i \in {x,y,w,h}} smooth_{L1}(t^u_i-v_i)

其中smooth函数:

smooth_{L1}(x)= \left\{\begin{matrix}0.5x^2, if \left | x \right | <1 & \\ \left | x \right |-0.5,otherwise & \end{matrix}\right.

函数曲线如下:

最终的损失函数:

L(p,u,t^u,v)= L_{cls} (p,u) + \lambda [u \geqslant 1] L_{loc}(t^u,u)

其中\lambda用于平滑分类与回归的权重,在实验中取1。[]是艾弗森括号,满足括号内内容时取1,否则取0(此时RoI类别是背景,没有定位框,忽略回归任务)。

Reference:

1.http://shartoo.github.io/RCNN-series/

2.https://blog.csdn.net/shenxiaolu1984/article/details/51036677

3.https://www.cnblogs.com/skyfsm/p/6806246.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/493729.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2万字看完腾讯最纯粹的一届WE大会:从黑洞、虫洞到克隆猴

来源&#xff1a;虎嗅APP腾讯还有梦想&#xff0c;因为腾讯还有WE大会。5年来&#xff0c;腾讯从全世界邀请了几十位难得一见的科学家不远万里来到北京展览馆&#xff0c;比如去年邀请的剑桥大学教授、著名宇宙学家霍金&#xff08;视频演讲&#xff09;&#xff0c;不想成为绝…

Fater R-CNN 整体把握

在R-CNN中提到过&#xff0c;候选区域的提取和之后的目标检测其实是独立的&#xff0c;所以我们可以使用任意的算法如SS。Fast-RCNN改进的是目标检测部分&#xff0c;但是其实候选区域的提取也挺费时的&#xff0c;Faster R-CNN就把改进方向放在了这里。 我们已经领略到了CNN的…

马斯克,特斯拉首席小白鼠

来源&#xff1a;量子位伊隆马斯克&#xff0c;比你想的还要激进。作为特斯拉CEO&#xff0c;马斯克经常一边自己坐在Model S上&#xff0c;一边召开电话会议。车辆的驾驶交给Autopilot&#xff0c;也就是那个时不时会出次意外的自动驾驶系统。他这么做不仅仅是想节约时间&…

windows下caffe+CPUOnly实现MNIST手写分类

工具下载 微软官方移植的Caffe&#xff1a;https://github.com/Microsoft/caffe 对属性表的操作需要把实例属性表的后缀改成vs可用的.props 打开同一个文件夹下的Caffe.sln&#xff0c;查看其中的属性表<CpuOnlyBuild>true</CpuOnlyBuild><UseCuDNN>false<…

Yann LeCun专访:我不觉得自己有天分,但是我一直往聪明人堆里钻

来源&#xff1a;AI 科技评论摘要&#xff1a;纽约大学教授、Facebook 副总裁与首席 AI 科学家 Yann LeCun 由于对深度学习的突出贡献&#xff0c;被誉为深度学习的「三驾马车」之一&#xff0c;更被称为「CNN」之父。Yann LeCun 也一直非常活跃&#xff0c;发论文、教学、创立…

任务分配调整

在经过新一轮分工讨论后&#xff0c;我们将我们最初的分工做了一次更新。截图于此。但是同样&#xff0c;基于敏捷开发的原则&#xff0c;任务将会在过程中为适应遇到的情况而不断更新。 请大家及时完成各自任务&#xff0c;并每天22点之前在tfs上更新完毕&#xff0c;同时将当…

以LeNet-5为例理解CNN

在用caffe实现对MNIST手写数字分类的过程中发现利用的网络是LetNet-5.决定从这个网络入手好好认识一下CNN。 LeNet-5早在1998年就出现了&#xff08;5表示5层模型&#xff09;&#xff0c;标志着CNN的诞生。以其作者YannLeCun的名字命名。但是却没有得到广泛的应用&#xff0c;…

任正非最新谈话:直到2006年,我才真正抛弃自杀的念头

来源&#xff1a;世界科技创新论坛摘要&#xff1a;日前&#xff0c;一份任正非会见索尼CEO吉田宪一郎会谈纪要流出&#xff0c;这份纪要以吉田宪一郎发问任正非的视角&#xff0c;揭开了不少华为鲜为人知的故事&#xff0c;其中涉及华为的管理、创业之初的故事&#xff0c;还有…

前沿 | 历时十二年!曼彻斯特百万级神经元的类脑超算终开启

具有百万处理器内核的「脉冲神经网络架构」或 SpiNNaker&#xff0c;每秒能完成约 200 兆次运算。来源&#xff1a;机器之心摘要&#xff1a;这台世界最大的神经形态超级计算机由曼彻斯特大学计算机科学学院设计和制造&#xff0c;它被设计和制造成与人脑相同的工作方式&#x…

Caffe中的卷积实现

https://www.zhihu.com/question/28385679 https://github.com/Yangqing/caffe/wiki/Convolution-in-Caffe:-a-memo 作者贾扬清亲自解释了这个问题。Caffe框架是他在研究生毕业毕业前两个月的时间写的&#xff0c;自然有一些缺点&#xff08;占用内存方面&#xff09;。其实卷积…

小程序创业:新金矿、野望与焦虑

来源&#xff1a;视觉中国摘要&#xff1a;小程序正在带来新的红利&#xff0c;互联网上的生意可以再做一遍&#xff1f;张远想要尽可能地保持低调&#xff0c;但现在这个愿望正在变得越来越难。在最近几个月阿拉丁小程序排行榜上&#xff0c;糖豆广场舞、糖豆爱生活、糖豆每日…

网络编程套接字socket

哈哈哈&#xff0c;之前的保存成草稿忘了发 目录 一 . 先回顾一下网络初始中的相关概念&#xff1a; 1.网络通信&#xff1a; 2.局域网&#xff1a; 3.广域网&#xff1a; 4.IP地址&#xff1a; 5.端口&#xff1a; 概念 格式 6.协议&#xff1a; 7.五元组&#xff1a; 8.分层…

增长率高达40%!物联网平台如何拉动产业马车飞速狂奔

来源&#xff1a; 联动原素、安信通信研究、IoT Analytics物联网智库 整理发布物联网的低准入门槛造就了这个内容庞大的产业生态&#xff0c;致使更多的企业融入进来。伴随物联网大规模发展&#xff0c;物联网平台在其中的作用越加凸显&#xff0c;新一轮资本涌入、技术开发、业…

中国代表性Fintech企业动态观察

来源&#xff1a;全球高科技联盟阿里巴巴系企业一、阿里巴巴金融科技和区块链总体布局揭开面纱9月28日&#xff0c;阿里达摩院官网正式上线&#xff0c;公开5 大研究领域、14 个实验室&#xff0c;从中可一探阿里在金融科技和区块链领域的总体技术布局。阿里金融科技领域致力于…

windows+caffe下对CIFAR训练

CIFAR是什么 CIFAR-10和CIFAR-100都是带标签的大小为8000万小图数据集的子集。其中CIFAR-10有10类&#xff0c;每类6000个大小为32x32的图像。其中训练图像和测试图像的比例是5:1&#xff0c;对每类图像&#xff0c;随机选择1000个测试图像&#xff0c;剩下的就是训练图像。注意…

BAT看上了产业互联网

来源&#xff1a;《中国经济周刊》2018年 第 43 期摘要&#xff1a;互联网浪潮正从过去的消费互联网向产业互联网转移&#xff0c;巨头们正在把“矛头”从C(消费者)端转向B(企业)端&#xff0c;他们希望越来越多的企业接入互联网&#xff0c;进行数字化和智能化改造&#xff0c…

hdu 1165 坑爹找规律题

http://acm.hdu.edu.cn/showproblem.php?pid1165 不看题解&#xff0c;使劲找规律&#xff0c;应该是可以找到的&#xff0c;就是费时间&#xff01; Problem DescriptionAs is known, Ackermann function plays an important role in the sphere of theoretical computer sci…

caffe下matlab、python的配置和faster RCNN的运行

因为自己的电脑没有安装linux环境&#xff0c;显卡也不支持CUDA&#xff0c;所以在实现faster RCNN的demo的过程中还是很麻烦的。 完善项目文件 下图是vs2013 打开的caffe解决方案的工程目录。由于windows版本caffe的不完善&#xff0c;要先在其libcaffe项目中添加roi_poling层…

Innodb 表空间卸载、迁移、装载

从MySQL的Innodb特性中我们知道&#xff0c;Inndob的表空间有共享和独享的特点&#xff0c;如果是共享的。则默认会把表空间存放在一个文件中&#xff08;ibdata1&#xff09;&#xff0c;当开启独享表空间参数Innodb_file_per_table时&#xff0c;会为每个Innodb表创建一个.ib…

马化腾与中国知名科学家联手发起“科学探索奖”

来源&#xff1a;腾讯今日&#xff0c;公布一件大事情&#xff1a;腾讯基金会将投入10亿元人民币的启动资金资助“科学探索奖”&#xff0c;每年将在基础科学和前沿核心技术方面的九大领域&#xff0c;遴选出50名青年科技工作者。获奖人年龄上限为45岁&#xff0c;且每位获奖者…