Fast R-CNN(理解)

0 - 背景

  经典的R-CNN存在以下几个问题:

  • 训练分多步骤(先在分类数据集上预训练,再进行fine-tune训练,然后再针对每个类别都训练一个线性SVM分类器,最后再用regressors对bounding box进行回归,并且bounding box还需要通过selective search生成)
  • 时间和空间开销大(在训练SVM和回归的时候需要用网络训练的特征作为输入,特征保存在磁盘上再读入的时间开销较大)
  • 测试比较慢(每张图片的每个region proposal都要做卷积,重复操作太多)

  在Fast RCNN之前提出过SPPnet来解决R-CNN中重复卷积问题,但SPPnet仍然存在与R-CNN类似的缺陷:

  • 训练分多步骤(需要SVM分类器,额外的regressors)
  • 空间开销大

  因此,该文提出的Fast RCNN便是解决上述不足,在保证效果的同时提高效率。基于VGG16的Fast RCNN模型在训练速度上比R-CNN快大约9倍,比SPPnet快大约3倍;测试速度比R-CNN快大约213倍,比SPPnet快大约10倍,在VOC2012数据集上的mAP大约为66%。

1 - 整体思路

1.1 - 训练

  • 输入是$224 \times 224$的固定大小图片
  • 经过5个卷积层+2个降采样层(分别跟在第一和第二个卷积层后面)
  • 进入ROIPooling层(其输入是conv5层的输出和region proposal,region proposal个数大约为2000个)
  • 再经过两个output都为4096维的全连接层
  • 分别经过output各为21和84维的全连接层(并列的,前者是分类输出,后者是回归输出)
  • 最后接上两个损失层(分类是softmax,回归是smoothL1)

  fast R-CNN模型的流程图如下:

        

1.1.1 - ROIPooling

  由于region proposal的尺度各不相同,而期望提取出来的特征向量维度相同,因此需要某种特殊的技术来做保证。ROIPooling的提出便是为了解决这一问题的。其思路如下:

  • 将region proposal划分为$H \times W$大小的网格
  • 对每一个网格做MaxPooling(即每一个网格对应一个输出值)
  • 将所有输出值组合起来便形成固定大小为$H \times W$的feature map
1.1.2 - 训练样本

  训练过程中每个mini-batch包含2张图像和128个region proposal(即ROI,64个ROI/张),其中大约25%的ROI和ground truth的IOU值大于0.5(即正样本),且只通过随机水平翻转进行数据增强。

1.1.3 - 损失函数

  多损失融合(分类损失和回归损失融合),分类采用log loss(即对真实分类的概率取负log,分类输出K+1维),回归的loss和R-CNN基本一样。

  总的损失函数如下:

$$L(p,u,t^u,v)=L_{cls}(p,u)+\lambda [u\geqslant 1]L_{loc}(t^u,v)$$

  分类损失函数如下:

$$L_{cls}(p,u)=-log\ p_u$$

  回归损失函数如下:

$$L_{loc}(t^u,v)=\sum_{i\epsilon \{x,y,w,h\}}smooth_{L_1}(t_i^u-v_i)$$

  其中有:

$$smooth_{L_1}(x)=\left\{\begin{matrix}0.5x^2\ \ \ \ \ \ if\ |x|< 1\\|x|-0.5\ \ otherwise\end{matrix}\right.$$

1.1.4 - 改进全连接层

  由于卷积层计算针对的是一整张图片,而全连接层需要对每一个region proposal都作用一次,所以全连接层的计算占网络计算的将近一半(如下图)。作者采用SVD来简化全连接层计算。

        

 1.1.5 - 训练整体架构总结

  图片引用自博客。

    

 

1.2 - 测试

1.2.1 - 测试整体架构总结

  图片引用自博客。

    

 

2 - 思考

2.1 - 改进

  • 卷积不再是重复对每一个region proposal,而是对于整张图像先提取了泛化特征,这样子减少了大量的计算量(注意到,R-CNN中对于每一个region proposal做卷积会有很多重复计算)
  • ROIPooling的提出,巧妙的解决了尺度放缩的问题
  • 将regressor放进网络一起训练,同时用softmax代替SVM分类器,更加简单高效

2.2 - 不足

  region proposal的提取仍然采用selective search,整个检测流程时间大多消耗在这上面(生成region proposal大约2~3s,而特征提取+分类只需要0.32s),之后的Faster RCNN的改进之一便是此点。

3 - 结果

3.1 - mAP

  FRCN相比其他算法表现更好,且注意到,VOC12由于数据集更大而使得模型效果提高很多。(这一角度也说明了数据对于当前深度学习的重要性不容忽视!)

3.2 - 速度

          

3.3 - 多任务训练(multi-task)

  由于本文提出的模型是基于R-CNN通过multi-task训练方式进行改进的,因此要说明multi-task的有效性。一共分为S/M/L三组,每组对应四列,分别为:

  • 仅采用分类训练,测试也没有回归
  • 采用论文中的分类+回归训练,测试没有回归
  • 采用分段训练,测试没有回归
  • 采用论文中的分类+回归训练,测试有回归

3.4 - 单尺度vs多尺度

  多尺度表示输入图像采用多种尺度输入,在测试的时候发现多尺度虽然能在mAP上得到些许提升但也增加了时间开销(作者给出原因:深度卷积网络可以学习尺度不变性)。

          

4 - 参考资料

https://blog.csdn.net/u014380165/article/details/72851319

https://www.cnblogs.com/CZiFan/p/9901729.html

https://www.cnblogs.com/CZiFan/p/9901000.html

转载于:https://www.cnblogs.com/CZiFan/p/9903518.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/484823.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

全球最顶级的十大创新公司

来源&#xff1a;中企思智库2021年2月英国著名的全球信息服务提供商科睿唯安发布了“2021年度全球百强创新机构”榜单&#xff0c;榜单通过衡量全球各大企业机构专利实力以及创新文化进行综合评选&#xff0c;具体排名如下&#xff1a;3M——是世界第一大创新企业&#xff0c;A…

读《redis设计与实现》笔记--redis数据结构

redis五大数据结构&#xff1a;string&#xff0c;hash&#xff0c;list&#xff0c;set&#xff0c;zset(有序集合) redis底层数据结构&#xff1a;简单动态字符串(SDS)&#xff0c;链表&#xff0c;字典&#xff0c;跳表&#xff0c;整数集合&#xff0c;压缩列表 底层数据…

Zookeeper实现Master选举(哨兵机制)

master选举使用场景及结构 现在很多时候我们的服务需要7*24小时工作&#xff0c;假如一台机器挂了&#xff0c;我们希望能有其它机器顶替它继续工作。此类问题现在多采用master-salve模式&#xff0c;也就是常说的主从模式&#xff0c;正常情况下主机提供服务&#xff0c;备机负…

一种用户-系统协同的概念模型

来源&#xff1a;人机与认知实验室翻译&#xff1a;何瑞麟&#xff0c;胡少波&#xff0c;关天海 一种用户-系统协同[的概念模型&#xff1a;增强复合型信息系统的易用性摘要世界各地的许多组织都使用复杂的信息系统&#xff08;例如&#xff0c;企业资源计划和供应链管理系统…

为Openstack制作CentOS7镜像

1&#xff09;CentOS7官方iso改名为centos7.iso并上传至控制节点的/home/image目录&#xff1b; [rootcontroller home]# mkdir image [rootcontroller home]# cd image/ [rootcontroller image]# ll 总用量 4365312 -rw-r--r-- 1 root root 4470079488 11月 3 13:38 centos7.…

下一代汽车的核心竞争力到底是什么?

来源&#xff1a;深城物联全球芯片短缺的情势下&#xff0c;汽车芯片的关注度持续走高。除了硬件外&#xff0c;最近&#xff0c;业内对于车辆软件系统的讨论也越来越热烈。华为近日发布了首款智能电动车极狐阿尔法S&#xff0c;HI版本上首次搭载了自研鸿蒙OS智能互联系统&…

NIO的多线程优化

单线程会浪费多核的优势 单线程如果在某一业务上花费时间过长&#xff0c;会影响其他业务的处理 boss负责连接&#xff0c;worker负责读写 服务端代码&#xff1a; package com.netty.demo;import java.io.IOException; import java.net.InetSocketAddress; import java.nio…

国产CPU深度研究报告(干货,110页)

来源&#xff1a;特大牛 来自特大号&#xff08;ITXXXL&#xff09;来自特大号&#xff08;ITXXXL&#xff09;来自特大号&#xff08;ITXXXL&#xff09;来自特大号&#xff08;ITXXXL&#xff09;来自特大号&#xff08;ITXXXL&#xff09;未来智能实验室的主要工作包括&…

logging模块(* * * * *)

一 (简单应用)、 import logging logging.debug(debug message) logging.info(info message) logging.warning(warning message) logging.error(error message) logging.critical(critical message) 输出&#xff1a; WARNING:root:warning messageERROR:root:erro…

业界首个!华为联合中国信通院等发布《网络体系强基展望白皮书》

来源&#xff1a; 华为数据通信编辑&#xff1a; 杨盼近日&#xff0c;华为联合中国信息通信研究院等单位&#xff0c;共同发布《网络体系强基展望白皮书》(以下简称《白皮书》)。《网络体系强基展望白皮书》从工业网络现状、趋势和需求出发&#xff0c;首次提出了“工业设备网…

【原】Win SQL Server2012 IIS 安装(图文详解)

1、进入服务器管理&#xff0c;点击添加“添加角色和功能” 2、单击“安装类型”&#xff0c;然后选择“基于角色或者功能得安装”&#xff0c;单击下一步 3、选择“从服务器池中选择服务器”&#xff0c;单击下一步 4、在角色列表里面找到“Web服务器(IIS)”&#xff0c;并勾选…

终极孵化器:仿生婴儿的美丽新世界

Conceptual Photograph: The Voorhes来源&#xff1a; IEEE电气电子工程师子宫是人类生物学中最复杂的构造之一&#xff1a;可以帮助完成从胚胎到胎儿再到婴儿的壮举。但是如果没有胎盘&#xff0c;这种巨大的转化也是不可能实现的&#xff0c;胎盘是一种赋予生命的器官&#x…

学界丨北大清华合力打造通用人工智能实验班,朱松纯教授领衔

来源&#xff1a;北京大学微信公众号、AI科技评论、新智元据悉&#xff0c;首批北大通班同学已经开课&#xff0c;清华通班也已启动首批招生。师资方面&#xff0c;清华和北大各有优势学科&#xff0c;在通班的合作上可以优势互补&#xff1b;在平台方面&#xff0c;以朱松纯教…

struts2_模型驱动

一.注意点 建立实现ModelDriven接口的action类在该action类中,创建实体对象并new在getModel返回该对象在显示页面中提交的表单name正常写二.案例 创建实体类User: package com.ahd.entity;import com.opensymphony.xwork2.ModelDriven;public class User{private String userna…

美智库预言特斯拉十年内退出中国:已踩红线,谷歌就是前车之鉴

来源&#xff1a;厚势汽车编辑&#xff1a;琪琪2020 年年末&#xff0c;在经历了 8 年的发展期后&#xff0c;特斯拉终于在中国市场站稳了脚跟。2020 年销售暴涨&#xff0c;在中国电动车市场占比达到 21% &#xff0c;全球仅第四季度就交付 18 万辆电动车&#xff0c;相对于第…

222页斯坦福人工智能报告出炉:全球AI投资猛增680亿,北美博士学术机构就业率下降

来源&#xff1a;中国自动化学会编辑 ∑Gemini1、我们生活在一个「人工智能」的时代如图所示&#xff0c;人工智能的研究正在蓬勃发展&#xff1a;在2019年&#xff0c;全球发表了超过12万篇的AI论文。在2000年至2019年之间&#xff0c;人工智能的论文占所有同行评审论文的比例…

量子理论的哲学宣言

来源&#xff1a;《中国社会科学》2019年第2期作者&#xff1a;成素梅&#xff08;上海社会科学院&#xff09;本文为国家社会科学基金重大项目“当代量子论与新科学哲学的兴起”(16ZDA113)阶段性成果。关于量子理论的哲学研究有两个层次&#xff0c;一是根据量子理论及其技术的…

2050大会走向通用人工智能专场总结

来源&#xff1a;混沌巡洋舰这两天主持了阿里云A组召集的杭州云栖小镇的2050大会《走向更加通用的人工智能》专场。活动分为论坛和深度交流两部分。也邀请了来自神经符号&#xff0c;类脑计算&#xff0c;复杂系统的很多朋友共同交流。我觉得如果来总结这个主题&#xff0c; 我…

一种基于平衡二叉树(AVL树)插入、查找和删除的简易图书管理系统

目录1. 需求分析2. 项目核心设计2.1 结点插入2.2 结点删除3 测试结果4 总结分析4.1 调试过程中的问题是如何解决的&#xff0c;以及对设计与实现的回顾讨论和分析4.2 算法的时间和空间复杂度的分析&#xff0c;以及进一步改进的设想4.3 本次实验的经验和体会5 完整代码(C)1. 需…

物联网产业104页深度研究报告:物联网研究框架与投资机会分析

报告出品方&#xff1a;国信证券作者&#xff1a;马成龙、付晓钦、陈彤1物联网是未来五年甚至十年的大赛道1.1 物联网&#xff1a;下一代网络网络革命的本质是连接主体和连接方式的变化&#xff1a;第一代互联网&#xff08;PC互联网&#xff09;是计算机与计算机之间的联网&am…