目标检测——R-CNN系列检测算法总结

R-CNN系列算法详细解读文章:

  • R-CNN算法解读
  • SPPNet算法解读
  • Fast R-CNN算法解读
  • Faster R-CNN算法解读
  • Mask R-CNN算法解读

目录

  • 1、概述
    • 1.1 获取目标候选框
    • 1.2 候选框提取特征
    • 1.3 候选框分类及边框回归
  • 2、R-CNN系列算法概述
    • 2.1 R-CNN算法
    • 2.2 SPPNet算法
    • 2.3 Fast R-CNN算法
    • 2.4 Faster R-CNN算法
    • 2.5 Mask R-CNN算法
  • 3、R-CNN系列算法对比

1、概述

R-CNN系列检测算法是两阶段检测算法,可大体分为三步:第一步从待检测图片中获得若干目标候选框(Region Proposal);第二步对每个候选框提取特征;最后对利用该特征对候选框做分类和边框回归。

1.1 获取目标候选框

获取目标候选框方法有如下四种,可分为:滑动窗口、规则块、选择性搜索及自动学习。

  • 第一种滑动窗口,多见于传统检测算法,利用手工设计设计加adaboost分类器;滑动窗口本质上就是穷举法,利用不同尺度及不同宽高比的窗口尽量包含多的图像块试图包含图像中所有目标,力求把图像中目标“穷举”出来,最后应用分类器分类。常见做法有图像多尺度加固定窗口大小或多尺度窗口采样得到子图像块,很显然,这种做法很容易形成候选框冗余,减慢了整体检测时间。
  • 第二种规则块,在第一种滑动窗口的情况下,结合目标的特性比如大小及长宽比就行筛选,一定程度上减小了候选框冗余,但整体还是复杂度很高。
  • 第三种选择性搜索方式,前面两种方式形成的候选框都存在大量冗余情况,所以如何将冗余框去除并有效合并是一个重要问题,选择性搜索正是利用这一点,自底向上进行相邻框重叠区域合并,从而减少冗余。论文”Selective Search for Object Recognition”中提到选择性搜索算法首先对图像利用felzenszwalb分割算法进行区域分割,然后利用区域与区域之间的相似度进行合并(相似度量包含有颜色、纹理、大小及吻合度)。R-CNN、SPPNet、Fast R-CNN均采用这种方式。
  • 第四种自动学习方式,也是Faster R-CNN提出的利用RPN网络进行自动学习,RPN网络基于设置的anchor进行学习,最后通过RPN网络预测得到感兴趣区域,这种方式有点类似YOLO系列一阶段检测算法,只是RPN网络不会预测目标的具体类别,只会预测是否是“目标”(objectness)。

1.2 候选框提取特征

传统检测算法提取图像特征都是手工设计特征,比如:Haar、HOG,灰度共生矩阵、LBP、SIFT等等,这些特征在检测特定目标下可能有用,但扩大化到检测其他目标或许会失去效果,而且手工设计特征需要一定的专业性,要设计一个新的特征,需要的专业知识没有多年的经验是无法办到的。随着2012年AlexNet的出现,卷积神经网络的提取特征能力得到体现。R-CNN系列检测算法正是利用这一优势才得以在检测领域打败传统检测算法。

1.3 候选框分类及边框回归

图像检测算法怎么和图像分类算法联系起来,一个简单的思想就是将图像“穷举分块”,然后对每一个子图像块进行是否是目标的分类,是目标,则可算检测到目标。这无疑会造成目标会有很多重叠的检测框,所以后面用nms算法去重。为了让最后的检测框更准,所以R-CNN又提出边框回归,后续基于R-CNN算法的改进都加入了边框回归。分类算法,从R-CNN及SPPNet的单独SVM,到Fast/Faster/Mask R-CNN的softmax;不同是的前者是独立模块,后者将分类和回归融合在一个网络中作为两个分支用多任务损失一起参与训练。

2、R-CNN系列算法概述

2.1 R-CNN算法

在这里插入图片描述
R-CNN算法用Selective Search的候选区域选择方式替换了经典的滑窗方式,使得候选框“少而精”(推理阶段取了2000个候选框),然后用AlexNet对2000个候选框依次做提取特征操作,将特征保持在磁盘空间里,最后用SVMs分类器输入候选框特征进行分类,bounding-box回归也是利用这些特征。R-CNN算法是特点是这些操作都是独立的,特征提取操作相对于后面的算法非常冗余。

2.2 SPPNet算法

在这里插入图片描述
SPPNet作者发现卷积层可以接受任意大小的输入并输出任意尺寸的特征图,但分类器(SVM/softmax)或者全连接层只能接受固定尺寸的输入。为了让卷积神经网络能接受任意大小的输入图像,提出SPP Layer(空间金字塔池化层),它能将任意输入大小图像在全连接层之前保证是一个固定长度的向量。所以SPP Layer是能在分类网络、检测网络中通用的,主要处理流程如下:
在这里插入图片描述
SPPNet相对于R-CNN的改进就是通过加入SPP Layer后将2000次提取特征的操作合并为1次操作,大大减少了推理时间,另外通过多尺度训练也增加了模型的鲁棒性。但候选框生成、提取特征、分类、bounding-box回归还是独立模块,训练和推理效率依然很低。

2.3 Fast R-CNN算法

在这里插入图片描述
从算法框图可见,Fast R-CNN算法将特征提取、分类及bounding-box回归融合在一起了,采用多任务损失将分类和回归联合训练,训练和推理可以一步到位,不用存储特征占用额外的磁盘空间。另外Fast R-CNN也设计了RoI Pooling层(可视为单个级别的SPP层)应对不同大小的区域候选框用于生成固定大小的特征向量。针对候选框生成方面,依然采用SS算法(大部分的时间耗时在这里)。

2.4 Faster R-CNN算法

在这里插入图片描述
基于Fast R-CNN的劣势提出改进,提出了RPN网络用于替换SS算法让其自动生成目标区域候选框。RPN网络在特征图上利用在3x3大小的滑窗内设定9个anchor,在anchor的基础上预测出目标区域候选框(RoI),通过RPN与Fast R-CNN共享特征提取部分的参数,达到统一训练/推理的目的,相对于SS加上Fast R-CNN大大减少了检测时间。

2.5 Mask R-CNN算法

在这里插入图片描述
从算法框图可以看出,Mask R-CNN是 Faster R-CNN的基础上新增一个mask分支实现的,并且为了让RoI区域特征保持空间一致性,提出了RoIAlign替换了Faster R-CNN中的RoI Pooling,纠正了RoI Pooling在特征图上的取值偏移,使得检测分支和mask分支在特征图上的RoI区域和原图的RoI区域在空间位置上对齐,这也是Mask R-CNN在检测领域比Faster R-CNN更高的原因之一。

3、R-CNN系列算法对比

算法候选框生成特征提取分类回归特点
R-CNNSSAlexNetSVMsL2回归偏移量四个模块独立,需要额外的特征存储,特征提取重复操作
SPPNetSSZF-5SVMsL2回归偏移量提出SPP层,使得特征提取合并为一次操作,但四个模块依然独立,需要额外的特征存储
Fast R-CNNSSVGG-16SoftmaxsmoothL1回归偏移量将特征提取、分类、回归融合在一起,用多任务训练,提出RoI池化层,SS模型依然耗时严重
Faster R-CNNRPNZF-5/VGG-16SoftmaxsmoothL1回归偏移量提出RPN网络自动生成区域候选框,将RPN与Fast RCNN网络融合,形成端到端推理
Mask R-CNNRPNResNet50/101SoftmaxsmoothL1回归偏移量提出RoI Align层,减少RoI区域特征在空间位置上偏移,新增Mask分支,对目标定位有一定积极作用

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/196517.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2024最新版软件测试八股文(文档)

前言 (第一个就刷掉一大批人) 有很多“会自动化”的同学来咨询技术问题,他总会问到我一些元素定位的问题。元素定位其实都不算自动化面试的问题。 一般我都会问:你是定位不到吗?通常结果都是说确实定位不到。 做自…

131.类型题-计算数学序列的和,请编写函数fun,其功能是S=……【满分解题代码+详细分析】(数学序列的和类型题-C/C++JavaPython实现)

文章目录 131.类型题-计算数学序列的和:计算并输出一.题目1.1 解题思路二.解题代码2.1 C/C++解题代码2.2 python解题代码2.3 Java解题代码三.解题代码仔细分析3.1 C/C++解题代码仔细分析3.2 Java解题代码仔细分析3.3 Python解题代码仔细分析四.本类型题解题诀窍五.寄语131.类型…

Spring Boot 之 ModelFactory

1.initModel 功能&#xff1a; public void initModel(NativeWebRequest request, ModelAndViewContainer container, HandlerMethod handlerMethod)throws Exception {Map<String, ?> sessionAttributes this.sessionAttributesHandler.retrieveAttributes(request);c…

Codeforces Round 910 (Div. 2)

Codeforces Round 910 (Div. 2) 文章目录 Codeforces Round 910 (Div. 2)ABCD A 模拟 #include <bits/stdc.h>using namespace std; const int N1e510; char s[N];void solve(){int n , k , cb 0 , ans 0;cin >> n >> k;for(int i 1 ; i < n ; i ){c…

简易电路特性测试仪

目录 摘 要... 3 第一章 绪论... 5 1.1 研究课题背景... 5 1.2 国内外发展概况... 7 1.3 课题研究的目的... 9 1.4 课题的研究内容及章节安排... 9 第二章 电路特性测试仪的设计方案... 10 2.1 系统总体设计思路... 10 2.2 电路特性测试仪总体设计方案…

HarmonyOS开发上手

首先献出开发官网地址 &#xff08;https://developer.harmonyos.com/cn/develop/&#xff09; 本文内容 基础入门内容介绍安装DevEco StudioDevEco Studio常用功能介绍项目工程结构详解 1. 基础入门内容介绍 应用开发流程 在正式开始之前还需要了解一些有关的基础概念 方舟…

【PyTorch】概述

文章目录 1. PyTorch是什么&#xff1f;2. PyTorch的特点3. PyTorch的架构 1. PyTorch是什么&#xff1f; PyTorch是一个深度学习框架&#xff0c;由Facebook于2016年开源发布。PyTorch是基于Torch框架的Python接口&#xff0c;旨在提供易用的强大工具来进行神经网络的构建和训…

python实现从远程服务器读取 JSON 文件、解析内容并将其存储到 MySQL 表中,然后删除已解析的文件

创建一个 Python 脚本&#xff0c;利用 Paramiko 库连接到远程服务器&#xff0c;读取 JSON 文件、解析内容并将其存储到 MySQL 表中&#xff0c;最后删除文件。 import paramiko import json import MySQLdb import os# SSH 连接参数 ssh_client paramiko.SSHClient() ssh_c…

H5流媒体播放器EasyPlayer播放H.265新增倍速播放功能,具体如何实现?

目前我们TSINGSEE青犀视频所有的视频监控平台&#xff0c;集成的都是EasyPlayer.js版播放器&#xff0c;它属于一款高效、精炼、稳定且免费的流媒体播放器&#xff0c;可支持多种流媒体协议播放&#xff0c;包括WebSocket-FLV、HTTP-FLV&#xff0c;HLS&#xff08;m3u8&#x…

做项目碰到的一些安卓与苹果的不兼容,做个记录

默认字体 // 苹果手机默认字体为 font-family:simsun; // 安卓和H5默认字体为 font-family: initial;屏幕截图(html-to-image) // 这里只做js部分(vue3使用)import * as htmlToImage from html-to-image;let imgcanvas ref() // 图片标签img的src指向const captureScreen ()…

vivado分析-在 Versal 器件中执行 NoC 服务质量分析

AMD Vivado ™ 中的服务质量 (QoS) 用于将片上网络 (NoC) 编译器生成的当前 NoC 解决方案估算所得 QoS 与 AXI NoCIP 和 / 或 AXI4 ‑ Stream NoC IP 中指定的 QoS 要求进行对比。一旦 NoC 解决方案过时 &#xff0c; 就需要调用 NoC 编译器并生成新的 NoC 解决方案以…

论文投稿查询会议期刊及deadlines的网站

1. 这个是查近期CCF-ABC的ddl会议的网址 https://ccfddl.github.io/ https://ccfddl.top/ 2. 期刊选刊 https://ijournal.topeditsci.com/home https://journalsuggester.springer.com/ 3. IEEE出版物推荐 https://publication-recommender.ieee.org/home

微信小程序跳转到外部小程序

要在微信小程序中跳转到外部小程序&#xff0c;你可以使用 navigateToMiniProgram 或 redirectToMiniProgram API。下面是它们的说明和代码示例&#xff1a; navigateToMiniProgram API&#xff1a; 该 API 可以让用户从当前小程序跳转到另一个外部小程序&#xff0c;并保留当…

《算法通关村——滑动窗口高频问题之**寻找子串异位词**》

《算法通关村——滑动窗口高频问题之寻找子串异位词》 567. 字符串的排列 给你两个字符串 s1 和 s2 &#xff0c;写一个函数来判断 s2 是否包含 s1 的排列。如果是&#xff0c;返回 true &#xff1b;否则&#xff0c;返回 false 。 换句话说&#xff0c;s1 的排列之一是 s2…

python3实现定时拉取rabbitmq队列里面的数据,并输出到文件中。

使用pika,一个Python RabbitMQ客户端库&#xff0c;结合Python的datetime和json库来实现定时从RabbitMQ队列中拉取数据&#xff0c;并将数据输出到按当天日期动态生成的文件中。 首先&#xff0c;确保您已经安装了 pika 库。如果尚未安装&#xff0c;可以使用以下命令进行安装&…

重温经典struts1之搭建环境

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 前言 今天参加了一个项目&#xff0c;什么项目&#xff1f;struts1的项目&#xff0c;什么&#xff1f;&#xff01;现在还有struts1的项目&#xff0c;读到这里你是不是和我…

Linux scatterlist 详解

源码基于&#xff1a;Linux 5.4 约定&#xff1a; 芯片架构&#xff1a;ARM64内存架构&#xff1a;UMACONFIG_ARM64_VA_BITS&#xff1a;39CONFIG_ARM64_PAGE_SHIFT&#xff1a;12CONFIG_PGTABLE_LEVELS &#xff1a;3 0. 前言 之前在《Linux DMA... 零拷贝》博文分享了DMA 技…

网络安全卫士:上海迅软DSE的员工上网管理策略大揭秘!

在日常办公中&#xff0c;企业员工可能会在互联网上有意或无意的将一些包含内部重要信息的内容发布出去&#xff0c;从而造成不必要的违规及泄密风险&#xff0c;因此对终端用户进行规范的上网行为管理&#xff0c;既能有效预防重要数据泄密&#xff0c;同时也能提高员工办公效…

linux之tcpdump命令

在日常系统维护中&#xff0c;遇到需要抓包的需求&#xff0c;下面对linux环境使用tcpdump命令进行抓包进行分析记录。tcpdump命令可用抓取流动在网卡上的数据包。 1、tcpdump常用参数说明 -c : 抓包次数&#xff0c;达到指定次数后停止抓包-C : 文件大小&#xff0c;写入文件…

连续性变量的组间差异分析

目录 正态分布 正态分布检测 1&#xff1a;图像法 2:计算法 Shapiro–Wilk W检验&#xff08;小样本推荐&#xff09; Lilliefors正态性检验 Anderson–Darling 或AD检验 DAgostino检验&#xff08;大样本推荐&#xff09; 独立样本t检验 1&#xff0c;方差齐性检验 …