Fater R-CNN 整体把握

在R-CNN中提到过,候选区域的提取和之后的目标检测其实是独立的,所以我们可以使用任意的算法如SS。Fast-RCNN改进的是目标检测部分,但是其实候选区域的提取也挺费时的,Faster R-CNN就把改进方向放在了这里。

我们已经领略到了CNN的强大,所以Faster R-CNN把提取候选框的任务也交给神经网络来做。我们把完成这一任务的神经网络叫做Region Proposal Network(RPN)。

可以看到在Faster R-CNN中候选框的提取不再是第一步。在RPN之前已经有一个CNN用于生成feature map,CNN中包括一系列卷积(Conv+Relu)和池化(Pooling)操作,卷积层的操作由RPN和Fast RCNN共享(提升速度)。在CNN最后一个卷积层后面才是RPN,RPN在feature map上得到候选区域。RPN引入了多尺度Anchor。通过Softmax对anchors属于目标(foreground)还是背景(background)进行分类判决,并使用Bounding Box Regression对anchors进行回归预测,获取Proposal的精确位置,并用于后续的目标识别与检测。简单来说和之后的目标检测一样,就是分类+回归,不同的是这里的分类只需要判断是目标还是背景,不需要知道具体的类别。

除了CNNRPN。还有两个重要部分:

RoIPooling,综合卷积层特征feature maps和候选框proposal的信息,将propopal在输入图像中的坐标映射到最后一层feature map(conv5-3)中,对feature map中的对应区域进行池化操作,得到固定大小(7×7)输出的池化结果,并与后面的全连接层相连。池化的主要目的还是得到大小固定的向量,便于输入神经网络。原始的对候选框中图像进行大小归一化的方法是crop和warp。

可以看到两种方法都有失真。所以我们换了一种思路,没必要对图像大小归一化,只需要对它们形成的向量归一化就好了。M×N尺度,将proposal的坐标映射到M16×N16大小的conv5-3中,然后将Proposal在conv5-3的对应区域水平和竖直均分为7等份,并对每一份进行Max Pooling或Average Pooling处理,得到固定大小(7×7)输出的池化结果,实现固定长度输出(fixed-length output),如下图所示。水平和竖直方向分别是7等分就可以,不必使得水平和竖直的每一块大小都相同,最后使用最大池化或者平均池化,使得每一块不管大小,都只有一个输出,则得到了统一的7x7的大小。

Classificationand Regression: 全连接层后接两个子连接层——分类层(cls)和回归层(reg),分类层用于判断Proposal的类别,回归层则通过boundingbox regression预测Proposal的准确位置。https://blog.csdn.net/Zachary_Co/article/details/78890768

还没有仔细了解一下ss方法,现在先来看一下RPN。RPN使用一个3x3的卷积核,在feature map上滑动窗口。但是Anchor不是指这个3x3的核,而是3x3卷积核在滑动的过程中,将核中心位置映射回输入图像,生成的3种尺度(scale 边长为128,256,512的正方形),3种长宽比(aspect ratio 1:1,1:2,2:1),共9种的候选框。特征图conv5-3每个位置都对应9个anchors,如果featuremap的大小为W×H,则一共有W×H×9个anchors,滑动窗口的方式保证能够关联conv5-3的全部特征空间,最后在原图上得到多尺度多长宽比的anchors。


因为在候选框的提取RPN和目标检测Fast R-CNN中都需要进行分类classification和回归Regression,所以一共需要4个损失函数。

Reference:

1.      https://www.cnblogs.com/skyfsm/p/6806246.html

2.      https://blog.csdn.net/Zachary_Co/article/details/78890768

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/493726.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

马斯克,特斯拉首席小白鼠

来源:量子位伊隆马斯克,比你想的还要激进。作为特斯拉CEO,马斯克经常一边自己坐在Model S上,一边召开电话会议。车辆的驾驶交给Autopilot,也就是那个时不时会出次意外的自动驾驶系统。他这么做不仅仅是想节约时间&…

windows下caffe+CPUOnly实现MNIST手写分类

工具下载 微软官方移植的Caffe&#xff1a;https://github.com/Microsoft/caffe 对属性表的操作需要把实例属性表的后缀改成vs可用的.props 打开同一个文件夹下的Caffe.sln&#xff0c;查看其中的属性表<CpuOnlyBuild>true</CpuOnlyBuild><UseCuDNN>false<…

Yann LeCun专访:我不觉得自己有天分,但是我一直往聪明人堆里钻

来源&#xff1a;AI 科技评论摘要&#xff1a;纽约大学教授、Facebook 副总裁与首席 AI 科学家 Yann LeCun 由于对深度学习的突出贡献&#xff0c;被誉为深度学习的「三驾马车」之一&#xff0c;更被称为「CNN」之父。Yann LeCun 也一直非常活跃&#xff0c;发论文、教学、创立…

任务分配调整

在经过新一轮分工讨论后&#xff0c;我们将我们最初的分工做了一次更新。截图于此。但是同样&#xff0c;基于敏捷开发的原则&#xff0c;任务将会在过程中为适应遇到的情况而不断更新。 请大家及时完成各自任务&#xff0c;并每天22点之前在tfs上更新完毕&#xff0c;同时将当…

以LeNet-5为例理解CNN

在用caffe实现对MNIST手写数字分类的过程中发现利用的网络是LetNet-5.决定从这个网络入手好好认识一下CNN。 LeNet-5早在1998年就出现了&#xff08;5表示5层模型&#xff09;&#xff0c;标志着CNN的诞生。以其作者YannLeCun的名字命名。但是却没有得到广泛的应用&#xff0c;…

任正非最新谈话:直到2006年,我才真正抛弃自杀的念头

来源&#xff1a;世界科技创新论坛摘要&#xff1a;日前&#xff0c;一份任正非会见索尼CEO吉田宪一郎会谈纪要流出&#xff0c;这份纪要以吉田宪一郎发问任正非的视角&#xff0c;揭开了不少华为鲜为人知的故事&#xff0c;其中涉及华为的管理、创业之初的故事&#xff0c;还有…

前沿 | 历时十二年!曼彻斯特百万级神经元的类脑超算终开启

具有百万处理器内核的「脉冲神经网络架构」或 SpiNNaker&#xff0c;每秒能完成约 200 兆次运算。来源&#xff1a;机器之心摘要&#xff1a;这台世界最大的神经形态超级计算机由曼彻斯特大学计算机科学学院设计和制造&#xff0c;它被设计和制造成与人脑相同的工作方式&#x…

Caffe中的卷积实现

https://www.zhihu.com/question/28385679 https://github.com/Yangqing/caffe/wiki/Convolution-in-Caffe:-a-memo 作者贾扬清亲自解释了这个问题。Caffe框架是他在研究生毕业毕业前两个月的时间写的&#xff0c;自然有一些缺点&#xff08;占用内存方面&#xff09;。其实卷积…

小程序创业:新金矿、野望与焦虑

来源&#xff1a;视觉中国摘要&#xff1a;小程序正在带来新的红利&#xff0c;互联网上的生意可以再做一遍&#xff1f;张远想要尽可能地保持低调&#xff0c;但现在这个愿望正在变得越来越难。在最近几个月阿拉丁小程序排行榜上&#xff0c;糖豆广场舞、糖豆爱生活、糖豆每日…

网络编程套接字socket

哈哈哈&#xff0c;之前的保存成草稿忘了发 目录 一 . 先回顾一下网络初始中的相关概念&#xff1a; 1.网络通信&#xff1a; 2.局域网&#xff1a; 3.广域网&#xff1a; 4.IP地址&#xff1a; 5.端口&#xff1a; 概念 格式 6.协议&#xff1a; 7.五元组&#xff1a; 8.分层…

增长率高达40%!物联网平台如何拉动产业马车飞速狂奔

来源&#xff1a; 联动原素、安信通信研究、IoT Analytics物联网智库 整理发布物联网的低准入门槛造就了这个内容庞大的产业生态&#xff0c;致使更多的企业融入进来。伴随物联网大规模发展&#xff0c;物联网平台在其中的作用越加凸显&#xff0c;新一轮资本涌入、技术开发、业…

中国代表性Fintech企业动态观察

来源&#xff1a;全球高科技联盟阿里巴巴系企业一、阿里巴巴金融科技和区块链总体布局揭开面纱9月28日&#xff0c;阿里达摩院官网正式上线&#xff0c;公开5 大研究领域、14 个实验室&#xff0c;从中可一探阿里在金融科技和区块链领域的总体技术布局。阿里金融科技领域致力于…

windows+caffe下对CIFAR训练

CIFAR是什么 CIFAR-10和CIFAR-100都是带标签的大小为8000万小图数据集的子集。其中CIFAR-10有10类&#xff0c;每类6000个大小为32x32的图像。其中训练图像和测试图像的比例是5:1&#xff0c;对每类图像&#xff0c;随机选择1000个测试图像&#xff0c;剩下的就是训练图像。注意…

BAT看上了产业互联网

来源&#xff1a;《中国经济周刊》2018年 第 43 期摘要&#xff1a;互联网浪潮正从过去的消费互联网向产业互联网转移&#xff0c;巨头们正在把“矛头”从C(消费者)端转向B(企业)端&#xff0c;他们希望越来越多的企业接入互联网&#xff0c;进行数字化和智能化改造&#xff0c…

hdu 1165 坑爹找规律题

http://acm.hdu.edu.cn/showproblem.php?pid1165 不看题解&#xff0c;使劲找规律&#xff0c;应该是可以找到的&#xff0c;就是费时间&#xff01; Problem DescriptionAs is known, Ackermann function plays an important role in the sphere of theoretical computer sci…

caffe下matlab、python的配置和faster RCNN的运行

因为自己的电脑没有安装linux环境&#xff0c;显卡也不支持CUDA&#xff0c;所以在实现faster RCNN的demo的过程中还是很麻烦的。 完善项目文件 下图是vs2013 打开的caffe解决方案的工程目录。由于windows版本caffe的不完善&#xff0c;要先在其libcaffe项目中添加roi_poling层…

Innodb 表空间卸载、迁移、装载

从MySQL的Innodb特性中我们知道&#xff0c;Inndob的表空间有共享和独享的特点&#xff0c;如果是共享的。则默认会把表空间存放在一个文件中&#xff08;ibdata1&#xff09;&#xff0c;当开启独享表空间参数Innodb_file_per_table时&#xff0c;会为每个Innodb表创建一个.ib…

马化腾与中国知名科学家联手发起“科学探索奖”

来源&#xff1a;腾讯今日&#xff0c;公布一件大事情&#xff1a;腾讯基金会将投入10亿元人民币的启动资金资助“科学探索奖”&#xff0c;每年将在基础科学和前沿核心技术方面的九大领域&#xff0c;遴选出50名青年科技工作者。获奖人年龄上限为45岁&#xff0c;且每位获奖者…

转:DP和HDP

Dirichlet Process and Hierarchical Dirichlet Process 原文&#xff1a;http://hi.baidu.com/zentopus/item/46a622f5ef13e4c5a835a28e Dirichlet Process and Hierarchical Dirichlet Process 在这篇文章里&#xff0c;我会初步地介绍Dirichlet Process以及Hierarchical Dir…

摩尔定律的三种走向

来源&#xff1a;科学网中兴事件以来&#xff0c;中国集成电路行业的发展受到全国人民的关注。许多人群情激奋&#xff0c;恨不得马上自力更生&#xff0c;赶上先进。也有一些人认为现在的世界经济是一个综合体&#xff0c;一个国家不可能样样领先&#xff0c;需要时日。正好&a…