faster rcnn end2end 训练与测试

除了前面讲过的rpn与fast rcnn交替训练外,faster rcnn还提供了一种近乎联合的训练,姑且称为end2end训练。

根据论文所讲,end2end的训练一气呵成,对于前向传播,rpn可以作为预设的网络提供proposal.而在后向传播中,rpn,与fast rcnn分别传导,而汇聚到shared layer.,但是没有考虑掉roi pooling层对于predicted bounding box的导数。如下图:



我们这里截取Ross'Girshick 在ICCV15上的ppt<Training'R-CNNs'  of  'various  'velocities   Slow, fast, and faster>  



对于roi pooling层,显然依赖于图像本身,和roi区域。对于fast rcnn来讲,roi是固定的,而对于faster rcnn来说,roi是通过rpn产生的,rpn不定,所以roi的生成依赖于

图像。



但是由于最大池化的作用,所以没有办法对roi的四个位置求导。




所以忽略掉对于roi的导数,当然了如果改变max pooling的方式,比如如下所说采取双线性插值,这样输出既有roi的坐标也有图像像素值,则可以关于roi求导。





根据github上py-faster-rcnn描述

  • For training smaller networks (ZF, VGG_CNN_M_1024) a good GPU (e.g., Titan, K20, K40, ...) with at least 3G of memory suffices
  • For training Fast R-CNN with VGG16, you'll need a K40 (~11G of memory)
  • For training the end-to-end version of Faster R-CNN with VGG16, 3G of GPU memory is sufficient (using CUDNN)

使用end2end的训练方式,显存也减少了,从原先的11g减少到3g.我觉得主要的原因是在原先的交替训练中,rpn训练结束后,会有一个rpn生成的过程,这时会生成所有训练图片的proposals,而这是个巨大的负担。而使用end2end的方式训练,一次训练一张图片,rpn阶段产生一张图片的proposal,然后送入fast rcnn训练。显然这种方法很省时也很省内存。


对于end2end的测试,从网络配置上基本与交替训练的相同。在一些小的细节,比如end2end测试时仍然保留了drop层,而对于交替训练的方式,在训练阶段有,测试时去掉了。

下面给出了个人画的end2end的训练网络图。

请访问:链接


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/258619.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于像素聚类的分割方法基于slic的方法_博士论文摘要 | 张荣春:数码影像与TLS点云数据融合提取地质结构面方法研究...

《测绘学报》构建与学术的桥梁 拉近与权威的距离数码影像与TLS点云数据融合提取地质结构面方法研究张荣春1,21.南京邮电大学地理与生物信息学院, 江苏 南京 210023;2.河海大学地球科学与工程学院, 江苏 南京 211100收稿日期&#xff1a;2019-03-27基金项目&#xff1a;国家自然…

jaxb转xml空值双标签_单品运营思维:标签-词路-聚焦-直搜-超直

非标品标签思维&#xff1a;针对非标品 主要是2.0为主的打法根据搜索入池的关键词&#xff0c;有什么词做什么词。有个细节&#xff1a;不一定进什么词做什么词&#xff0c;这个维度当中加入3.0的思维3.0入手 转2.0再切3.0(检测词路健康度&#xff0c;非严格意义估算单量)举例&…

如何在PFSense中设置故障转移和负载平衡

故障转移是一种备份操作模式&#xff0c;仅在主系统由于系统故障或任何计划停机时间而变得不可用时&#xff0c;系统组件&#xff08;如网络&#xff09;的操作才由辅助系统承担。在本教程中&#xff0c;我们将看到如何设置故障转移和负载平衡&#xff0c;以使pfSense能够将流量…

图像金字塔总结

本文转载自&#xff1a; http://blog.csdn.net/dcrmg/article/details/52561656 一、 图像金字塔 图像金字塔是一种以多分辨率来解释图像的结构&#xff0c;通过对原始图像进行多尺度像素采样的方式&#xff0c;生成N个不同分辨率的图像。把具有最高级别分辨率的图像放在底部…

什么叫做罗列式_项目起盘的时候,如何确定自己该做什么社群?

这是祁杰『社群日记』第48篇持续日更&#xff0c;做最懂社群的营销咨询人很多人手上有资源&#xff0c;准备起盘项目的时候&#xff0c;总会思考一个问题&#xff1a;我能做什么样的社群&#xff1f;今天我们从用户需求出发&#xff0c;拆解一下哪些社群是能够确切地满足用户的…

Feature Pyramid Networks for Object Detection 总结

最近在阅读FPN for object detection,看了网上的很多资料&#xff0c;有些认识是有问题的&#xff0c;当然有些很有价值。下面我自己总结了一下&#xff0c;以供参考。 1. FPN解决了什么问题&#xff1f; 答&#xff1a; 在以往的faster rcnn进行目标检测时&#xff0c;无论…

那些 IT 界的神翻译,原来我学不好编程的原因就在这

近日博主 ruanyf 在网上发布了一条关于套接字“socket”的解释&#xff0c;引发了网友对于那些 IT 界的神翻译的讨论&#xff1a; 突然想到&#xff0c;socket就是插座。服务器的socket&#xff0c;就是服务器提供插座&#xff0c;等着客户端的插头插进来。一旦插入完成&#x…

navicat 结构同步会加锁吗_被柜员怠慢的张小波,真的会永久地转走几个亿的结构性存款吗?...

4月7日下午&#xff0c;北京凤凰联动文化传媒有限公司总裁张小波发布微博称&#xff0c;前几天去安贞附近一银行&#xff0c;想把借记卡的转帐额度从每天五百万上调一下&#xff0c;没有想到&#xff0c;在其问到“最高可调到多少”时&#xff0c;柜员回答一个亿并“鄙夷地看了…

Mask RCNN笔记

mask rcnn简介 mask rcnn是何凯明基于以往的faster rcnn架构提出的新的卷积网络&#xff0c;一举完成了object instance segmentation. 该方法在有效地目标的同时完成了高质量的语义分割。 文章的主要思路就是把原有的Faster-RCNN进行扩展&#xff0c;添加一个分支使用现有的检…

网页设计中常用的19个Web安全字体

来自http://www.jb51.net 在Web编码中&#xff0c;CSS默认应用的Web字体是有限的&#xff0c;虽然在新版本的CSS3&#xff0c;我们可以通过新增的font-face属性来引入特殊的浏览器加载字体。但多数情况下&#xff0c;考虑各个因素的影响我们还是在尽量充分利用这些默认调用的字…

搜索专题题解

题目链接&#xff1a; codeforces 277A - Learning Languages 题目描述&#xff1a; 一个团体有n个人&#xff0c;每个人都掌握了一些语言&#xff0c;每个人学一门语言有1个花费&#xff0c;两个人之间可以通过其他人的翻译&#xff0c;问最少花费多少使得这个团体的任意两个人…

Facebook 开源的快速文本分类器 FastTex

FastText是Facebook开发的一款快速文本分类器&#xff0c;提供简单而高效的文本分类和表征学习的方法&#xff0c;性能比肩深度学习而且速度更快。 fastText 原理fastText 方法包含三部分&#xff1a;模型架构、层次 Softmax 和 N-gram 特征。下面我们一一介绍。 1.1 模型架构 …

FCN-加载训练与测试数据

当我们生成了数据后&#xff0c;我们来看看FCN是如何加载数据的。 FCN 代码预览 其中&#xff1a; - data : 训练测试数据 - ilsvrc-nets&#xff1a;存放预训练的模型 - 剩下的框&#xff1a;不同数据集的训练测试prototxt - voc_layers&#xff0c;siftflow_layers等&am…

怎么撤销定时说说_已注册商标遇到撤三申请怎么办

很多企业的商标都遇到过商标撤三的情况&#xff0c;撤三简单的说就是&#xff0c;注册商标没有正当理由连续三年不使用的&#xff0c;任何单位或者个人可以向商标局申请撤销该注册商标。所以说&#xff0c;无论您的企业多大&#xff0c;商标持有的再多&#xff0c;也要做好商标…

Spartan-6 FPGA SelectIO Resources User Guide 笔记2 SelectIO Attributes/Constraints

1.Location Constraint 用于分配I/O端口 NET <I/O_NAME> LOC "<EXTERNAL_PORT_IDENTIFIER>"; Example: NET MY_IO LOCR7; 2.IOSTANDARD Attribute 用于选择IO标准如LVCMOS25&#xff0c;LVDS_25等 NET <I/O_NAME> IOSTANDARD”<IOSTANDARD V…

正则表达式及其在python上的应用

今天学习了一早上正则表达式。如下内容部分转载自《读懂正则表达式就这么简单》 一、什么是正则表达式 正则表达式是一种特殊的字符串模式&#xff0c;用于匹配一组字符串&#xff0c;就好比用模具做产品&#xff0c;而正则就是这个模具&#xff0c;定义一种规则去匹配符合规…

安全专家在硬盘固件中发现NSA的网络间谍程序

本周安全专家在硬盘固件中发现了美国国家安全局&#xff08;NSA&#xff09;的网络间谍程序&#xff0c;这些程序非常难以被检测或者删除。来自卡巴斯基的研究者公布了该恶意程序用来“Phone Home”的URL地址&#xff0c;NSA利用这些随机、凌乱的地址来收集硬盘上的敏感数据。 …

SVN 分支/合并/切换

本文无条理性&#xff0c;仅作自我参考。 花费了两个半下午&#xff0c;走马观花的看了一下说明文档&#xff0c;SVN设计的太复杂&#xff0c;对我这样的&#xff0c;不在一个集体的的业余开发者&#xff0c;要理解起来真是太难了。。。。 分支 Make branches as often as yo…

关于FCN的数据集着色说明

前方我们讲解了《 FCN-数据篇》。里面包含了如何制作类似pascal voc的label。很大篇幅在谈如何着色&#xff0c;如何转化为索引图像。 由于一些内容参考网上的资料&#xff0c;所以对里面的一些操作含义也有些糊涂。 其实网上的东西也不都对&#xff0c;很多人云亦云。所以需要…

Android Property Animation动画

3.0以前&#xff0c;android支持两种动画模式&#xff0c;tween animation,frame animation&#xff0c;在android3.0中又引入了一个新的动画系统&#xff1a;property animation&#xff0c;这三种动画模式在SDK中被称为property animation,view animation,drawable animation…