Python 全栈体系【四阶】(三十七)

第五章 深度学习

八、目标检测

3. 目标检测模型

3.1 R-CNN 系列
3.1.1 R-CNN
3.1.1.1 定义

R-CNN(全称 Regions with CNN features) ,是 R-CNN 系列的第一代算法,其实没有过多的使用“深度学习”思想,而是将“深度学习”和传统的“计算机视觉”的知识相结合。比如 R-CNN pipeline 中的第二步和第四步其实就属于传统的“计算机视觉”技术。使用 selective search 提取 region proposals,使用 SVM 实现分类。

在这里插入图片描述

3.1.1.2 思路
  • 给定一张图片,从图片中选出 2000 个独立的候选区域(Region Proposal)。
  • 将每个候选区域输入到预训练好的 AlexNet 中,提取一个固定长度(4096)的特征向量。
  • 对每个目标(类别)训练一 SVM 分类器,识别该区域是否包含目标。
  • 训练一个回归器,修正候选区域中目标的位置:对于每个类,训练一个线性回归模型判断当前框定位是否准确。
3.1.1.3 训练
  • 使用区域生成算法,生成 2000 个候选区域,这里使用的是 Selective search。

  • 对生成的 2000 个候选区域,使用预训练好的 AlexNet 网络进行特征提取。将候选区域变换到网络需要的尺寸(227×227)。 在进行变换的时候,在每个区域的边缘添加 p 个像素(即添加边框,设置 p=16)。同时,改造预训练好的 AlexNet 网络,将其最后的全连接层去掉,并将类别设置为 21(20 个类别,另外一个类别代表背景)。每个候选区域输入到网络中,最终得到 4096×21 个特征。

在这里插入图片描述

  • 利用上面提取到的候选区域的特征,对每个类别训练一个 SVM 分类器(二分类),判断候选框中物体的类别,输出 Positive/Negative。如果该区域与 Ground truth 的 IOU 低于某个阈值,就将给区域设置为 Negative(阈值设置为 0.3)。如下图所示:

在这里插入图片描述

3.1.1.4 效果
  • R-CNN 在 VOC 2007 测试集上 mAP 达到 58.5%,打败当时所有的目标检测算法。
3.1.1.5 缺点
  • 重复计算,训练耗时,每个 region proposal,都需要经过一个 AlexNet 特征提取,为所有的 RoI(region of interest)提取特征大约花费 47 秒。
  • 训练占用空间,特征文件需要保存到文件,5000 张的图片会生成几百 G 的特征文件。
  • selective search 方法生成 region proposal,对一帧图像,需要花费 2 秒。
  • 三个模块(提取、分类、回归)是分别训练的,并且在训练时候,对于存储空间消耗较大。
3.1.2 Fast R-CNN
3.1.2.1 定义

Fast R-CNN 是基于 R-CNN 和 SPPnets 进行的改进。SPPnets,其创新点在于只进行一次图像特征提取(而不是每个候选区域计算一次),然后根据算法,将候选区域特征图映射到整张图片特征图中。

在这里插入图片描述

3.1.2.2 流程
  • 使用 selective search 生成 region proposal,大约 2000 个左右区域候选框

  • 使用 CNN 对图像进行卷积运算,得到整个图像的特征图

  • 对于每个候选框,通过 RoI Projection 映射算法取出该候选框的特征图,再通过 RoI 池化层形成固定长度的特征向量

  • 每个特征向量被送入一系列全连接(fc)层中,最终分支成两个同级输出层 :一个输出个类别加上 1 个背景类别的 Softmax 概率估计,另一个为个类别的每一个类别输出 4 个定位信息

3.1.2.3 改进
  • 和 RCNN 相比,训练时间从 84 小时减少为 9.5 小时,测试时间从 47 秒减少为 0.32 秒。在 VGG16 上,Fast RCNN 训练速度是 RCNN 的 9 倍,测试速度是 RCNN 的 213 倍;训练速度是 SPP-net 的 3 倍,测试速度是 SPP-net 的 3 倍
  • Fast RCNN 在 PASCAL VOC 2007 上准确率相差无几,约在 66~67%之间
  • 加入 RoI Pooling,采用一个神经网络对全图提取特征
  • 在网络中加入了多任务函数边框回归,实现了端到端的训练
3.1.2.4 缺点
  • 依旧采用 selective search 提取 region proposal(耗时 2~3 秒,特征提取耗时 0.32 秒)
  • 无法满足实时应用,没有真正实现端到端训练测试
  • 利用了 GPU,但是 region proposal 方法是在 CPU 上实现的
3.1.3 Faster RCNN

经过 R-CNN 和 Fast-RCNN 的积淀,Ross B.Girshick 在 2016 年提出了新的 Faster RCNN,在结构上将特征抽取、region proposal 提取, bbox regression,分类都整合到了一个网络中,使得综合性能有较大提高,在检测速度方面尤为明显。

在这里插入图片描述

3.1.3.1 整体流程
  • Conv Layers。作为一种 CNN 网络目标检测方法,Faster RCNN 首先使用一组基础的卷积/激活/池化层提取图像的特征,形成一个特征图,用于后续的 RPN 层和全连接层。
  • Region Proposal Networks(RPN)。RPN 网络用于生成候选区域,该层通过 softmax 判断锚点(anchors)属于前景还是背景,在利用 bounding box regression(包围边框回归)获得精确的候选区域。
  • RoI Pooling。该层收集输入的特征图和候选区域,综合这些信息提取候选区特征图(proposal feature maps),送入后续全连接层判定目标的类别。
  • Classification。利用取候选区特征图计算所属类别,并再次使用边框回归算法获得边框最终的精确位置。
3.1.3.2 RPN 网络

RPN 网络全称 Region Proposal Network(区域提议网络),是专门用来从特征图生成候选区域的网络。其结构如下所示:

在这里插入图片描述

流程步骤:

(1)输入:通过主干网卷积得到的特征图

(2)对于特征图上的每一个点(称之为 anchor point,锚点),生成具有不同 尺度 和 宽高比 的锚点框,这个锚点框的坐标(x,y,w,h)是在原图上的坐标

(3)然后将这些锚点框输入到两个网络层中去,一个(rpn_cls_score)用来分类,即这个锚点框里面的特征图是否属于前景;另外一个(rpn_bbox_pred)输出四个位置坐标(相对于真实物体框的偏移)

(4)将锚点框与 Ground Truth 中的标签框进行 IoU 对比,如果其 IoU 高于某个阈值,则该锚点框标定为前景框,否则属于背景框;对于前景框,还要计算其与真实标签框的 4 个位置偏移;将这个标注好的锚点框(带有 前背景类别 和 位置偏移 标注)与 3 中卷积网络层的两个输出进行 loss 比较(类别:CrossEntrpy loss 和 位置回归:smooth L1 loss),从而学习到如何提取前景框

(5)学习到如何提取前景框后,就根据 rpn_cls_score 层的输出概率值确定前景框;位置偏移值则被整合到锚点框的坐标中以得到实际的框的坐标;这样子就得到了前景框,起到了 selective search 的作用。RPN 生成的 proposal 就称为 Region of Interest.由于他们具有不同的尺度和长度,因此需要通过一个 ROI pooling 层获得统一的大小

3.1.3.3 Anchors

Anchors(锚点)指由一组矩阵,每个矩阵对应不同的检测尺度大小。如下矩阵:

[[ -84.  -40.  99.  55.][-176.  -88. 191. 103.][-360. -184. 375. 199.][ -56.  -56.  71.  71.][-120. -120. 135. 135.][-248. -248. 263. 263.][ -36.  -80.  51.  95.][ -80. -168.  95. 183.][-168. -344. 183. 359.]]

其中每行 4 个值( x 1 , y 1 , x 2 , y 2 x_1, y_1, x_2, y_2 x1,y1,x2,y2),对应矩形框左上角、右下角相对于中心点的偏移量。9 个矩形共有三种形状,即 1:1, 1:2, 2:1,即进行多尺度检测。

在这里插入图片描述

例如,一张 800*600 的原始图片,经过 VGG 下采样后(生成特征矩阵)16 倍大小,大小变为 50*38,每个点设置 9 个 anchor,则总数为:

ceil(800 / 16) * ceil(600 / 16) * 9 = 50 * 38 * 9 = 17100
3.1.3.4 Bounding box regression

物体识别完成后,通过一种方式对外围框进行调整,使得和目标物体更加接近。

3.1.3.5 损失函数

对一个图像的损失函数,是一个分类损失函数与回归损失函数的叠加:

L ( { p i } , { t i } ) = 1 N c l s ∑ L c l s ( p i , p i ∗ ) + λ 1 N r e g ∑ p i ∗ L r e g ( t i , t i ∗ ) L(\{p_i\},\{t_i\}) = \frac{1}{N_{cls}}\sum{L_{cls}(p_i, p_i^*)} + \lambda\frac{1}{N_{reg}}\sum{p_i^*L_{reg}(t_i, t_i^*)} L({pi},{ti})=Ncls1Lcls(pi,pi)+λNreg1piLreg(ti,ti)

  • i 是一个 mini-batch 中 anchor 的索引

  • p i p_i pi是 anchor i 为目标的预测概率

  • ground truth 标签 p i ∗ p_i^* pi就是 1,如果 anchor 为负, p i ∗ p_i^* pi就是 0

  • t i t_i ti是一个向量,表示预测的包围盒的 4 个参数化坐标

  • N c l s N_{cls} Ncls是与正 anchor 对应的 ground truth 的坐标向量

  • N r e g N_{reg} Nreg为 anchor 位置的数量(大约 2400), λ \lambda λ=10

分类损失函数:

L c l s ( p i , p i ∗ ) = − l o g [ p i ∗ p i + ( 1 − p i ∗ ) ( 1 − p i ) ] L_{cls}(p_i, p_i^*) = -log[p_i^*p_i + (1-p_i^*)(1-p_i)] Lcls(pi,pi)=log[pipi+(1pi)(1pi)]

位置损失函数:

L r e g ( t i , t i ∗ ) = R ( t i − t i ∗ ) L_{reg}(t_i, t_i^*) = R(t_i - t_i^*) Lreg(ti,ti)=R(titi)

其中:

R = s m o o t h L 1 ( x ) = { 0.5 x 2 i f ∣ x ∣ < 1 ∣ x ∣ − 0.5 o t h e r w i s e R = smooth_{L1}(x) = \begin{cases}{0.5x^2} \ \ if |x| < 1\\ |x|-0.5 \ \ otherwise \end{cases} R=smoothL1(x)={0.5x2  ifx<1x0.5  otherwise

3.1.3.6 改进
  • 在 VOC2007 测试集测试 mAP 达到 73.2%,目标检测速度可达 5 帧/秒
  • 提出 Region Proposal Network(RPN),取代 selective search,生成待检测区域,时间从 2 秒缩减到了 10 毫秒
  • 真正实现了一个完全的 End-To-End(端对端)的 CNN 目标检测模型
  • 共享 RPN 与 Fast RCNN 的特征
3.1.3.7 缺点
  • 还是无法达到实时检测目标
  • 获取 region proposal, 再对每个 proposal 分类计算量还是较大
3.1.4 RCNN 系列总结
3.1.4.1 RCNN

解决什么问题:能够从图像中检测出物体

使用了什么方法:

  • SS 算法产生候选区
  • 对每个候选区进行卷积,得到每个区域的特征图
  • 将特征图送到一组 SVM 做多分类,再训练一个模型定位

取得了什么效果:mAP 能达到 58.5%,速度极慢

特点及适用性:慢,几乎不用

3.1.4.2 Fast RCNN

解决什么问题:对 RCNN 模型进行优化,提升速度

使用了什么方法:

  • SS 算法产生候选区
  • 对整个图像进行卷积,得到整个图像的特征图(最主要的优化)
  • 将分类器、定位模型整合到一起,用神经网络来替代

取得了什么效果:

  • 速度:速度较上一代模型 RCNN 成倍提升,达到 0.5F/S
  • mAP:66~67%
3.1.4.3 Faster RCNN

解决什么问题:对 Fast RCNN 进行优化,提升速度和精度

使用了什么方法:

  • 改进候选区域产生方法:使用 RPN,在特征图而不是在原图上产生候选区,只需 10ms
  • 引入 Anchor Box 机制:在同一个检测点,使用大小不同、比例不同的检测框
  • 将所有步骤(提取特征、生成候选区、产生分类+定位输出)整合到同一个模型中

取得了什么效果:

  • 速度:5F / S
  • mAP:73.2%

特点及适用性:

  • 缺点:检测速度还是较慢,无法检测视频,无法实现实时性检测
  • 优点:精度不错
  • 适用性:适用于精度要求较高,速度要求不高的情况

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/4858.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Mac NTFS磁盘读写工具选择:Tuxera还是Paragon?

在Mac上使用NTFS磁盘时&#xff0c;选择一款合适的读写工具至关重要。Tuxera和Paragon作为两款备受推崇的Mac NTFS磁盘读写工具&#xff0c;都能够帮助用户轻松地实现NTFS格式的读写。那么&#xff0c;面对这两款功能强大的工具&#xff0c;我们应该如何选择呢&#xff1f;本文…

CACTER AI实验室:AI大模型在邮件安全领域的应用

随着人工智能技术的飞速发展&#xff0c;AI已经深入到生活的各个领域。AI大模型在邮件安全领域展现出巨大潜力&#xff0c;尤其是反钓鱼检测上的应用&#xff0c;正逐渐展现出其独特的价值。 4月24日&#xff0c;CACTER AI实验室高级产品经理刘佳雄在直播交流会上分享了CACTER …

c语言——二叉树

目录 目录 二叉树关键概念理解 一颗拥有1000个结点的树度为4&#xff0c;则它的最小深度是&#xff1f; 那么对于二叉树&#xff0c;只掌握这些是远远不够的&#xff0c;我们还需要掌握几个最基本的经典问题&#xff0c; 求二叉树大小 求叶子结点个数 求深度 求第k层的…

Window11安装vim编辑器

我们在做git操作的时候&#xff0c;很多文字编辑工作会默认打开 Vim 编辑器来进行操作。 Vim 是一个高度可配置的文本编辑器&#xff0c;旨在让创建和更改任何类型的文本变得非常高效。大多数 UNIX 系统和 Apple OS X 都将它作为vi包含在内&#xff0c;用惯了Linux中的Vim编辑器…

长江证券:地产需求,去哪儿呢?

核心观点&#xff1a; 1.来有影&#xff0c;去无踪。无论是价格还是销量&#xff0c;年初以来房地产市场进一步深度调整。现实的直观感受是&#xff0c;住房需求锐减以及二手房供给骤增。如此短期变化&#xff0c;能否用人口、城镇化等长期因素来解释&#xff1f;是否能通过不…

“地表最强”文生视频模型?Sora 背后有何秘密?

自 2022 年底 ChatGPT 的横空出世&#xff0c;人工智能再度成为全世界的焦点&#xff0c;基于大语言模型&#xff08;LLM&#xff09;的 AI 更是人工智能领域的“当红炸子鸡”。此后的一年&#xff0c;我们见证了 AI 在文生文、文生图领域的飞速进展&#xff0c;但在文生视频领…

【C++】学习笔记——内存管理

文章目录 二、类和对象20. 友元1. 友元函数2.友元类 21. 内部类22. 匿名对象23. 拷贝对象时的一些编译器优化 三、内存管理1. C/C内存分布2. C语言中动态内存管理方式&#xff1a;malloc/calloc/realloc/free3. C内存管理方式 未完待续 二、类和对象 20. 友元 1. 友元函数 我…

溪谷软件:游戏联运有多简单?

游戏联运&#xff0c;即游戏联合运营&#xff0c;是一种游戏运营模式&#xff0c;涉及到多个平台或公司共同推广和运营同一款游戏。对于开发者而言&#xff0c;游戏联运的简化程度可能因具体情况而异&#xff0c;但以下是一些因素&#xff0c;使得游戏联运在某种程度上变得更加…

认识Linux及一些基本

目录 linux简介&#xff1a; 1. 发展史 UNIX发展的历史 Linux发展历史 2. 开源 3. 企业应用现状 Linux在服务器领域的发展 Linux在桌面领域的发展 Linux在移动嵌入式领域的发展 Linux在云计算/大数据领域的发展 4. 发行版本 Debian Ubuntu 红帽企业级Linux Cent…

金荣中国模拟账户有什么用?实战演练,助力投资者稳健起步

在投资市场中&#xff0c;新手投资者往往面临着缺乏经验、不熟悉市场规则等问题&#xff0c;这些都可能导致投资者在真实交易中遭受损失。为了解决这个问题&#xff0c;金荣中国为投资者提供了一个模拟账户&#xff0c;那么金荣中国模拟账户有什么用&#xff1f;功能旨在通过实…

数组中的区别与例外

数组名可以表示整个数组&#xff0c;取出的是整个数组的地址 有两个例外&#xff1a; 1.sizeof&#xff08;数组名&#xff09;&#xff0c;这里的数组名表示整个数组&#xff0c;计算的是整个数组的大小&#xff0c;单位是字节。 2.&数组名&#xff0c;数组名能表示首元…

大数据分析与应用实验(黑龙江大学)

实验一 Hadoop伪分布式实验环境搭建与WordCount程序 一、实验目的 1、学习搭建Hadoop伪分布式实验环境 2、在伪分布式实验环境下运行WordCount程序 二、实验内容 1、搭建Hadoop伪分布式实验环境&#xff0c;并安装Eclipse。 2、在Eclipse环境下&#xff0c;编写并执行Wor…

LLM - 大语言模型(LLM) 的 评估体系

欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://blog.csdn.net/caroline_wendy/article/details/138160155 大语言模型(LLM)的评估是复杂且多维的过程,涉及多个方面,包括评估体系、评估方法、评估实践。评估体系包括评估数据集、模型输出、样本/输出变换…

头条系统-01-环境搭建、SpringCloud微服务(注册发现、服务调用、网关)

文章目录 环境搭建、SpringCloud微服务(注册发现、服务调用、网关)1)项目介绍2)项目概述2.1)学习到的技术内容2.2)项目课程大纲2.3)项目概述2.4)项目术语2.5)业务说明 3)技术栈4)nacos环境搭建4.1)虚拟机镜像准备注&#xff1a; 4.2)nacos安装 5)初始工程搭建5.1)环境准备连接G…

org.yaml.snakeyaml.scanner.ScannerException: while scanning a simple key 。。。

控制台信息&#xff1a; 这个信息一般是yml文件配置出现了问题&#xff0c;如 出现非法数据 、缩进有问题等 问题地方如下&#xff0c;修改一下就好了 控制台一般报的这种错就是配置文件的格式不正确

C++初阶-----对运算符重载的进一步理解(2)

目录 1.对于加加&#xff0c;减减运算符的重载理解 2.const修饰的一些事情 3.日期对象之间的减法实现逻辑 1.对于加加&#xff0c;减减运算符的重载理解 &#xff08;1&#xff09;在C语言里面&#xff0c;我们已经知道并且了解加加&#xff0c;减减的一些基本的用法&#…

【软件开发规范篇】JAVA后端开发编码命名规范

作者介绍&#xff1a;本人笔名姑苏老陈&#xff0c;从事JAVA开发工作十多年了&#xff0c;带过大学刚毕业的实习生&#xff0c;也带过技术团队。最近有个朋友的表弟&#xff0c;马上要大学毕业了&#xff0c;想从事JAVA开发工作&#xff0c;但不知道从何处入手。于是&#xff0…

HTML+CSS:构建网站不可不知的18个模块!

你好&#xff0c;我是云桃桃。 一个希望帮助更多朋友快速入门 WEB 前端的程序媛。 云桃桃-大专生&#xff0c;一枚程序媛&#xff0c;感谢关注。回复 “前端基础题”&#xff0c;可免费获得前端基础 100 题汇总&#xff0c;回复 “前端工具”&#xff0c;可获取 Web 开发工具…

virtualbox 网络设置实现主机和虚拟机互相访问

前言 一般来说&#xff0c;virtualbox 虚拟机的上网模式是 NAT。这样虚拟机可以上网并访问宿主机&#xff0c;但宿主机无法访问虚拟机&#xff0c;也无法 ping 通。下面介绍双网卡模式&#xff0c;实现虚拟机和宿主机能够互相访问 ping 通。 双网卡模式 进入虚拟机的网络设置…

贪心算法在找零问题中的应用

贪心算法在找零问题中的应用 引言a. 贪心算法求解找零问题算法设计算法证明 b. 硬币面额为c的幂时的贪心算法证明算法设计算法证明 c. 设计使贪心算法失效的硬币面额组合d. 通用找零算法设计算法设计算法实现&#xff08;伪代码&#xff09;算法实现&#xff08;C代码&#xff…