【深度学习】——常见深度学习模型总结、anchor-free和anchor-based

目录

1、faster rcnn:

2、SSD:

3、YOLOv1:

小结:

拓展:anchor-based和anchor-free

anchor


1、faster rcnn:

FasterRcnn 算法原理讲解笔记(非常详细)icon-default.png?t=L892https://blog.csdn.net/xjtdw/article/details/98945548

1)主要流程

将输入的图像按照短边设置为600后,等比例不失真缩放;

主干网络(VGG16、RESTNET)进行特征提取得到特征图38,38(下采样率为16);

特征图每个点生成九个anchor,共有38*38*9个anchors;

每个anchor等比例缩小16得到在特征图上的坐标,先将超出图像的anchor去掉,然后根据特征图可以得到每个anchor的得分(这个得分是二分类,前景or背景),根据得分筛选出12000个anchor,这里使用的分类网络为softmax+交叉熵损失;

NMS和得分再次筛选得到2000个anchor,这2000个就是建议框proposal;

2000个建议框再和标签框构建IOU矩阵,根据IOU来区分正负样本,然后选择3:1的正负样本数,总数256,这样就得到了256个roi;

将roi区域池化为7*7大小的区域,传输到全连接层,进行分类和回归(分类网络为softmax+交叉熵损失),回归损失使用的是smoothL1损失。

2)rpn和proposal以及roi层的区别

rpn是一个网络,主要作用是区域生成和对正样本的位置先进行调整,得到位置更加准确的建议框;proposal一般为2000个,是rpn网络的产物;roi是proposal和标签框构建iou矩阵后得到的区域;

3)为什么最后要池化为7*7

fasterrcnn原始使用的是VGG的全连接层,而全连接层是固定维度的,因此需要将维度编程适用于vgg

4)为什么小目标最后会消失

经过主干网络特征提取后,图像的下采样率为16,这样就导致了目标像素小于16的对象会被下采样过程中丢弃,同时后续使用的特征图是下采样后的,特征图中没有小目标的特征点存在,导致后续训练的网络并没有对小目标进行训练检测。

5)要注意什么?

fasterrcnn:尽量保证标签框在锚框的最大范围内,便于收敛;

是一个two stage模型,主要创新点在于RPN网络用于候选框的生成。首先利用先验知识对特征图上每一个点生成先验大小的9个ANCHOR框,然后第一阶段是训练RPN网络即生成候选区域,确定每一个框是否包含物体,这里主要是对固定的ANCHOR进行筛选和修正,将剩余的锚框作为候选区域;第二个阶段则是对候选区域进行分类和回归,确定物体的类别具体是什么,以此实现物体的检测

优点精度高

缺点:训练时间长,且anchor是在同一个特征图上得到的,不利于小目标物体的检测

注意:先验大小——指的是根据现有的目标的纵横比来进行锚框的设计,以此来使得候选区域尽可能地接近真实的物体的位置

2、SSD:

是一个one stage模型,主要创新点在于多尺度训练。SSD是从多个特征层上进行anchor的获取,然后直接将这些anchor框作为候选框进行物体类别的预测与位置的预测。这里还是采用了先验知识来指导anchor的生成,每个特征层每个点生成的anchor的个数不一样,主要为4个或者是6个,为了样本平衡,也会对样本进行筛选,使得正负样本1:3.

优点:速度快

缺点:精度不够

注意:先验大小——指的是根据现有的目标的纵横比来进行锚框的设计,以此来使得候选区域尽可能地接近真实的物体的位置

3、YOLOv1:

是一个one stage模型,主要创新点在于最后7*7*30的特征矩阵当中。YOLOV1是一个没有先验框的模型,它主要是将输入的图像分割成7*7大小的网格,然后每个网格生成2个预测框,最后每个网格含有30个信息值(2个预测框的x,y,h,w,c以及20个类别的条件概率)。

优点:速度比SSD快,是目前性能综合最高的了

小结:

以上三种模型都需要生成候选框,且训练数据都需要有标记的图像数据。不同的是前二者有先验框来指导候选框的生成,而YOLO没有;且rcnn系列是二阶段,后两者是一阶段。前两者可以看成是anchor_based,yolov1可以看成是anchor_free.

拓展:anchor-based和anchor-free

参考链接:https://www.zhihu.com/question/356551927/answer/926659692

目标检测算法一般可分为anchor-based、anchor-free、两者融合类,区别就在于有没有利用anchor提取候选目标框。

A. anchor-based类算法代表是fasterRCNN、SSD、YoloV2/V3等

B. anchor-free类算法代表是CornerNet、ExtremeNet、CenterNet、FCOS,yolov1等

anchor

(也被称为anchor box)是在训练之前,在训练集上利用k-means等方法聚类出来的一组矩形框,代表数据集中目标主要分布的长宽尺度。在推理时生成的特征图上由这些anchor滑动提取n个候选矩形框再做进一步的分类和回归(详细叙述请参考提出anchor思想的fasterRCNN一文)。也就是传统目标检测算法中,在图像金字塔上使用的那个m*n的滑窗。只不过传统方法中特征图是不同尺度的,滑窗一般是固定大小的;而类似于fasterRCNN算法中特征图是固定的,anchor是多尺度的。

preview

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/255859.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PHP PDO函数库详解

PDO是一个“数据库访问抽象层”,作用是统一各种数据库的访问接口,与mysql和mysqli的函数库相比,PDO让跨数据库的使用更具有亲和力;与ADODB和MDB2相比,PDO更高效。目前而言,实现“数据库抽象层”任重而道远&…

数据交互相关分享

Python与web Python Web.py与AJAX交互转载于:https://juejin.im/post/5a40af3d6fb9a044ff31b1f5

springMVC 相对于 Structs 的优势

智者说,没有经过自己的思考和估量,就不能接受别人的东西。资料只能是一个参考,至于是否正确,还得自己去分辨 SpringMVC相对于Structs的几个优势: 1、springMVC安全性更高,structs2框架是类级别的拦截&#…

YOLOV1学习

YOLOV1学习(输入的图像固定大小为448X448X3) 参考文献 模型结构 将输入的图像归一化为大小为448x448x3的图像,然后将经过中间24层的卷积后得到了7x7x1024的特征图,然后后面连接的是两个全连接层,分别是4096和1470&am…

KUKA通信 CREAD问题

嗨。 我想通过串行端口1发送X,Y,Z,A,B,C坐标给机器人。 G1: ...... CREAD(HANDLE,SR_T,MR_T,TIMEOUT,OFFSET,"%F",X) P.XX CREAD(HANDLE,SR_T,MR_T,TIMEOUT,OFFSET,"%F",Y) P.YY ...... GOTO G1…

bzoj 1901: Zju2112 Dynamic Rankings

Time Limit: 10 Sec Memory Limit: 128 MBSubmit: 6245 Solved: 2593[Submit][Status][Discuss]Description 给定一个含有n个数的序列a[1],a[2],a[3]……a[n],程序必须回答这样的询问:对于给定的i,j,k,在a[i],a[i1],a[i2]……a[j]中第k小的…

第 36 章 RRDTool

36.1. install $ apt-get install rrdtool原文出处:Netkiller 系列 手札 本文作者:陈景峯 转载请与作者联系,同时请务必标明文章原始出处和作者信息及本声明。

手机号码已经注册写到数据库中,如何利用相同手机号码再次注册?

手机号码已经注册写到数据库中,如何利用相同手机号码再次注册? 解:删除数据库中以前注册的手机号码就可以了啊,delete那条记录,转载于:https://www.cnblogs.com/panxuejun/p/6122499.html

腾讯技术研究类和数据分析第一次笔试(2021.8.22)——Python

第一题:开锁——数学期望 # 最优策略:钥匙的选择先从消耗时间最少的开始选择,然后选择第二小的依次类推 # 开锁概率1/n def openLockTime(n, m, time):time_reverse [] # (n,m)->(m,n)for i in range(m):m_time []for j in range(n):m…

教你怎样选择伺服电机控制方式

伺服电机一般都有三种控制方式:速度控制方式,转矩控制方式,位置控制方式 。 速度控制和转矩控制都是用模拟量来控制的。位置控制是通过发脉冲来控制的。具体采用什么控制方式要根据客户的要求,满足何种运动功能来选择。 …

.Net Discovery系列之四 深入理解.Net垃圾收集机制(下)

上一节给大家介绍了 .Net GC的运行机制,下面来讲下与GC相关的重要方法。 第二节.GC关键方法解析 1.Dispose()方法 Dispose可用于释放所有资源,包括托管的和非托管的,需要自己实现。 大多数的非托管资源都要求手动释放,…

真静态和伪静态的区别

首先肯定的是纯静态和伪静态都是SEO的产物,但纯静态和伪静态还是有很大区别的。 纯静态是生成真实的HTML页面保存到服务器端,用户访问时直接访问这 个HTML页面即可,从而大大的减轻了服务器压力(如dedecms就是采用的纯静态&#xf…

非常有趣的Console

console觉醒之路,打印个动画如何? 原文地址: http://www.helloweba.com/view-blog-383.html 批量去掉或替换文本中的换行符(notepad、sublime text2) 原文地址:http://m.blog.csdn.net/article/details?id43228729 有…

shopee虾皮科技测试工程师第一次笔试

10道单选题 10道多选题 2道编程题 第一题:十进制转二进制计算1的个数(负数转为补码) #!/usr/bin/env python # -*- coding: utf-8 -*- # Time : 2021/8/23 15:44 # Author : linlianqin # Site : # File : 十进制转换为二进制&am…

假期实践

第一天 地点:杭州颐高数码城 第一天,我来到了自己家附近的颐高数码城。文三路这边有一个卖数码产品的一条街,这里也是最贴近我专业实践的地方,所以第一天的实践我选择了这里。 2001年开业的颐高数码广场座落于“电子一条街”文三路、学院路口…

3.AngularJS-过滤器

转自:https://www.cnblogs.com/best/p/6225621.html 二、过滤器 使用过滤器格式化数据,变换数据格式,在模板中使用一个插值变量。语法格式如下: {{ express | filter:parameter1:p2:p3… | … | …}} 过滤器分了内置过滤器与自定义…

webstorm卡顿问题

解决webstorm卡顿问题 webstorm强大的功能就不多做介绍了。但是它的缺点也显而易见:吃内存。 电脑配置稍低一点,运行webstorm就特别容易卡顿,特别是项目比较大的时候,那卡顿得不要不要的。 在我的笔记本8g内存 256ssd的配置下&…

cmd.exe启动参数说明

启动命令解释程序 Cmd.exe 的新范例。如果在不含参数的情况下使用,cmd 将显示操作系统的版本和版权信息。 语法 cmd [{/c | /k}] [/s] [/q] [/d] [{/a | /u}] [/t:FG] [/e:{on | off}] [/f:{on | off}] [/v:{on | off}] [String] 参数 /c 执行 String 指定的命令&am…

【深度学习】——训练过程

包含哪些层 训练过程 其实就是yf(x)的求参过程,先给参数一个初始值,然后根据初始函数计算得到预测值,根据预测值和真值计算损失,然后又根据损失函数进行反向传播更新参数,更新参数后,再次计算预测值&#…

ABB RAPID 程序 WorldZone 归纳

在 RAPID 程序中,静态的 WorldZone 不能被解除并再次激活,或者进行擦除。在 RAPID 程序中, 临时的 WorldZone 可以被解除(WZDisable) , 再次激活(WZEnable) 或者擦除(WZF…