【Pytorch神经网络理论篇】 33 基于图片内容处理的机器视觉:目标检测+图片分割+非极大值抑制+Mask R-CNN模型

同学你好!本文章于2021年末编写,获得广泛的好评!

故在2022年末对本系列进行填充与更新,欢迎大家订阅最新的专栏,获取基于Pytorch1.10版本的理论代码(2023版)实现,

Pytorch深度学习·理论篇(2023版)目录地址为:

CSDN独家 | 全网首发 | Pytorch深度学习·理论篇(2023版)目录本专栏将通过系统的深度学习实例,从可解释性的角度对深度学习的原理进行讲解与分析,通过将深度学习知识与Pytorch的高效结合,帮助各位新入门的读者理解深度学习各个模板之间的关系,这些均是在Pytorch上实现的,可以有效的结合当前各位研究生的研究方向,设计人工智能的各个领域,是经过一年时间打磨的精品专栏!https://v9999.blog.csdn.net/article/details/127587345欢迎大家订阅(2023版)理论篇

以下为2021版原文~~~~

 

基于图片内容的处理任务,主要包括目标检测、图片分割两大任务。

1 目标检测

目标检测任务的精度相对较高,主要是以检测框的方式,找出图片中目标物体所在的位置。目标检测任务的模型运算量相对较小,速度相对较快。

1.1 目标检测任务概述

目标检测任务要求模型能检测出图片中特定的目体,并获得这一目标物体的类别信息和位置信息。

在目标检测任务中,模型的输出是一个列表,列表的每一项用一个数组给出检测出的标物体的类别和位置(常用检测框的坐标表示)。

1.2 目标检测任务模型的分类

1.2.1 单阶段(1-stage)检测模型:

主要指直接从图片获得预测结果,也被称为Region-free法。相关的模型有YOLO、SSD、RetinaNet。

1.2.2 两阶段(2-stage)检测模型:

主要指先检测包含实物的区域,再对该区域内的实物进行分类识别,相关模型有R-CNN、Faster R-CNN,Mask R-CNN。

1.2.3 两种分类的对比

单阶段检测模型在分类方面表现出的精度高。

两阶段检测模型在检测框方面表现出的精度高。

2 图片分割:其模型大多数是两阶段

图片分割是指对图中的每个像素点进行分类,适用于对像素理解要求较高的场景。

2.1 图片分割的分类

2.1.1 语义分割

能将图片中具有不同语义的部分分开。

2.1.2 实例分割

能描述出目标物体的轮廓(比检测框更为精细)。

2.2 目标检测+语义分割=实例分割

🐶目标检测:给你一张只有一条狗的图片,输入训练好的模型中(假设模型包含所有类型的狗),不管狗出现在图片中的哪个位置,它都能被检测为狗;给你一张有两条狗的图片,输入网络,会生成两个bbox,均被检测为狗,无法进行个体的区分。

🐶语义分割:对所有像素进行分类,图片中只要出现狗,都会被分为一类,同样无法进行个体的区分。

🐶实例分割:在所有不同类的狗的像素都被分类为狗的基础上,对不同类的狗进行目标定位,再给上狗1和狗2的标签,这就是实例分割。

3 非极大值抑制算法(Non-Max Suppression,NMS)

3.1 非极大值抑制算法的作用

在目标检测任务中,通常模型会从一张图片中检测出很多个结果,其中很有可能会出现重复物体(中心和大小略有不同)的情况。为了确保检测结果的唯一性,需要使用非极大值抑制算法对检测结果进行去重。

3.2 非极大值抑制算法的实现过程

1、从所有的检测框中找到置信度较大(置信度大于某个圆值)的检测框。
2、逐一计算其与剩余检测框的区域面积的重叠率(IOU)。
3、按照IOU阈值过滤。如果IOU大于一定阈值,则将该检测框剔除。

4、对剩余的检测框重复上述过程,直到处理完所有的检测框。
在整个过程中,用到的置信度阈值与lOU阈值需要提前给定。

3.3 IOU的概念(Intersection-over-Union)

IOU是交并比是目标检测中使用的一个概念是产生的候选框(candidate bound)与原标记框(ground truth bound)的交叠率,即它们的交集与并集的比值。最理想情况是完全重叠,即比值为1。在多目标跟踪中,用来判别跟踪框和目标检测框之间的相似度。

4 Mask R-CNN模型

MaskR-CND模型属于两阶段检测模型,即该模型会先检测包含实物的区域,再对该区域内的实物进行分类识别。

4.1 检测实物区域的步骤

  • 1、按照非极大值抑制算法将一张图片分成多个子框。这些子框被称作描点(Anchor),锚点是不同尺寸的检测框,彼此间存在部分重叠。
  • 2、在图片中对具体实物进行标注其坐标(所属的位置区域)。
  • 3、根据实物标注的坐标与锚点区域的IOU,计算出前景与背景。计算规则为IOU高的就是前景,IOU低的就是背景,其余的就忽略。
  • 4、根据第3步结果中属于前景的锚点坐标和第2步结果中实物标注的坐标,算出二者的相对位移和长宽的缩放比例。
  • 5、最终,检测区域的任务会被转化成一堆锚点的分类(前景和背景)和回归任务(偏移和缩放)。

4.1.2 区域检测图解

如图2-2所示,每张图片都会将其自身标注的信息转化为与锚点对应的标签,让模型已有的锚点进行训练或识别。

4.2 区域生成网络

在MaskR-CNN模型中,实现区域检测功能的网络被称作区域生成网络(Regon Proposal Network,RPN)。

4.3 感兴趣区域

在实际处理过程中,会从RPN的输出结果中选取前景概率较高的一定数量的锚点作为感兴趣区域(Region of Interest,ROI),送到第2阶段的网络中进行计算。

4.4 Mask R-CNN模型的完整步骤

4.4.1 Mask R-CNN模型的架构

4.4.2 Mask R-CNN模型的完整步骤

1、提取主特征,这部分的模型又被称作骨干网络。它用来从图片中提取出一些不同尺寸的重要特征,通常用于一些预训练好的模型(如VGG模型、Inception模型、ResNet模型等)。这些获得的特征数据被称作特征图。

2、特征融合;用特征金字塔网络(FeaturePyramid Network,FPN)整合骨干网络中不同尺寸的特征。最终的特征信息用于后面的RPN和最终的分类器(classifer)网络的计算。

3、提取ROI:主要通过RPN来实现。RPN的作用是,在众多锚点中计算出前景和背景的预测值,并计算基于锚点的偏移,然后对前景概率较大的ROI用非大值抑制算法实现去重,并从最终结果中取出指定个数的ROl用于后续网络的计算。

4、ROI池化:使用区域对齐的方式实现。将第2步的结果当作图片,按照ROl中的区域框位置从图中取出对应的内容,并将形状统一成指定大小,用于后面的计算。

5、最终检测:对第4步的结果依次进行分类、设置矩形坐标、实物像素分割处理,得到最终结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/469264.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux inputuevent使用

input 输入子系统 在应用层使用的时候,容易出现找不到UEventObserver.java 这时候就要导入jar包 导入classes.jar这个jar包 weiqifaweiqifa-Inspiron-3847:~/weiqifa/tm100$ ls out/target/common/obj/JAVA_LIBRARIES/framework_intermediates/ classes classes…

linq中给字段添加别名

linq 是我们在查询中经常回用到的一种形式,比如我们创建一个类,然后List<添加> 并绑定到表格中public class Modeltest{string id;public string Id{get { return id; }set { id value; }}string pwd;public string Pwd{get { return pwd; }set { pwd value; }}string…

报错 ValueError: too many values to unpack (expected 2)

enc_output,enc_slf_attn self.slf_attn(user_embedding,item_input,item_input,mask slf_attn_mask) 实际上只有一个返回值&#xff0c;但是却写了两个返回值&#xff0c;所以报错。 改正为 enc_output self.slf_attn(user_embedding,item_input,item_input,mask sl…

Python带*参数和带**参数

一、带*形参 1、格式&#xff1a;*形参名&#xff0c;如*args 2、数据类型&#xff1a;元组 3、传参方式&#xff1a;接收任意个位置参数&#xff08;可以不传参&#xff09;。 4、位置&#xff1a;在一个函数里只能有一个&#xff0c;且放在末尾&#xff08;没有带**形参的…

IE浏览器解决无法识别js中getElementsByClassName问题

关于ie浏览器无法识别js中getElementsByClassName问题&#xff0c;现通过以下方法&#xff0c;引用如下js /***打印js对象详细信息*/ function alertObj(obj) {var description "";for ( var i in obj){var property obj[i];description i " " prope…

arduino i2c 如何写16位寄存器_树莓派3B开发Go语言(二)寄存器版本GPIO

作者&#xff1a;爪爪熊链接&#xff1a;https://www.jianshu.com/p/0495c0554a63來源&#xff1a;简书之前将go语言的运行环境给搭建起来了&#xff0c;但是没有开始真正的试试Go 语言操作树莓派硬件的效果。一、树莓派3B硬件介绍树莓派3B采用了博通的BCM2837方案&#xff0c;…

Android aidl在Framework的使用

为何要做这个 我要在framework的PhoneWindowManager.java里面调用LightService.java里面的函数&#xff0c;用来做灯光的提示之类的&#xff0c;为何我要在PhoneWindowManager.java里面加这个呢&#xff0c;这里就不做讨论了&#xff0c;但是直接调用哪些接口是不行的&#xf…

没有理智的欲望会走向毁灭,没有欲望的理智会永守清贫

欲望是人类的本性,哥伦布因为它片帆浮海、横渡大洋发现了美州。理性是人类的禀赋,哥白尼因为它仰望星空、冥想终生提出了日心说。在金融市场上没有理智的欲望会走向毁灭,没有欲望的理智会永守清贫。转载于:https://www.cnblogs.com/timlong/p/6509870.html

【Pytorch神经网络实战案例】25 (带数据增强)基于迁移学习识别多种鸟类(CUB-200数据集)

1 数据增强 在目前分类效果最好的EficientNet系列模型中&#xff0c;EfficientNet-B7版本的模型就是使用随机数据增强方法训练而成的。 RandAugment方法也是目前主流的数据增强方法&#xff0c;用RandAugment方法进行训练&#xff0c;会使模型的精度得到提升。 2 RandAugment…

Capture images using V4L2 on Linux

这文章相当好&#xff0c;没有理由不转载 I have always been using OpenCV’s VideoCapture API to capture images from webcam or USB cameras. OpenCV supportsV4L2 and I wanted to use something other than OpenCV’s VideoCapture API so I started digging up about …

diskgenius 数据迁移_U盘格式化后数据恢复免费方法教程

U盘里的数据一般都很重要&#xff0c;比如论文或者办公文件&#xff0c;而有时候我们会被病毒或者误操作把U盘给格式化了&#xff0c;这时候要怎么恢复U盘里的数据呢&#xff0c;只有一个办法&#xff0c;就是用U盘数据恢复软件&#xff0c;但网上此类软件虽然很多&#xff0c;…

结对编程1

Deadline&#xff1a; 2017-3-15 12:00AM&#xff0c;以博客发表日期为准。 评分基准: 按时交 - 有分&#xff0c;检查的项目包括后文的三个方面 题目要求代码提交博文规范晚交 - 0分迟交两周以上 - 倒扣本次作业分数抄袭 - 倒扣本次作业分数题目描述&#xff1a; 不知道大家是…

【Pytorch神经网络理论篇】 34 样本均衡+分类模型常见损失函数

同学你好&#xff01;本文章于2021年末编写&#xff0c;获得广泛的好评&#xff01; 故在2022年末对本系列进行填充与更新&#xff0c;欢迎大家订阅最新的专栏&#xff0c;获取基于Pytorch1.10版本的理论代码(2023版)实现&#xff0c; Pytorch深度学习理论篇(2023版)目录地址…

我的2015年

2015年的收获 1、结婚了&#xff0c;这是很开心的一件事情&#xff0c;从刚开始的吵吵闹闹&#xff0c;到现在的结婚成家&#xff0c;自己的责任也增加了许多。 2、老婆怀了宝宝&#xff0c;这件事跟结婚的喜悦是一样的&#xff0c;从开始到现在&#xff0c;很多人都在问我&a…

安卓 camera 调用流程_安卓如何做出微信那样的界面仿微信“我”的界面1/5

本系列目标通过安卓编程仿写微信“我”的界面,让大家也能做出类似微信界面.效果图如下:本文目标做出页面顶部的相机部分(其他部分在后续文章中逐步分享).效果图如下:实现方案通过截图工具或者下载一张照相机照片,放到工程的src/main/res/drawable目录下,命名为camera.png添加一…

【Pytorch神经网络实战案例】26 MaskR-CNN内置模型实现目标检测

1 Pytorch中的目标检测内置模型 在torchvision库下的modelsldetecton目录中&#xff0c;找到__int__.py文件。该文件中存放着可以导出的PyTorch内置的目标检测模型。 2 MaskR-CNN内置模型实现目标检测 2.1 代码逻辑简述 将COCO2017数据集上的预训练模型maskrcnm_resnet50_fp…

MTK平台Android4.4 拍照默认图片格式修改

因为摄像头效果要调试&#xff0c;需要把摄像头拍照的照片格式修改了 晚上看了一下资料&#xff0c;这个链接&#xff0c;这个链接比较有用 http://www.cnblogs.com/peterzd/archive/2012/10/11/2695640.html 里面有一段话这样写&#xff1a; ** Environment.getExternalS…

法与时应,度与情合

不能制定脱离实际的法度&#xff0c;否则就是恶法&#xff0c;不可操作&#xff0c;事与愿违。转载于:https://www.cnblogs.com/jcode/p/6514698.html

【Pytorch神经网络实战案例】27 MaskR-CNN内置模型实现语义分割

1 PyTorch中语义分割的内置模型 在torchvision库下的models\segmentation目录中&#xff0c;找到segmentation.Py文件。该文件中存放着PyTorch内置的语义分割模型。 2 MaskR-CNN内置模型实现语义分割 2.1 代码逻辑简述 将COCO 2017数据集上的预训练模型dceplabv3_resnet101…

怎么查看电脑内存和配置_电脑内存不足处理方法,电脑卡死处理方法。

超过10万人正在关注赶快来关注吧&#xff0c;这里有你想找的热点资讯&#xff0c;这里有你想要的各种资料&#xff0c;还有海量的资源&#xff0c;还在等什么。快来关注&#xff0c;大佬带你开车。电脑系统经常奔溃&#xff0c;软件经常运行不了&#xff0c;开不了机&#xff0…