YOLO-V1

一、YOLO-V1整体思想与网络架构

1.1 YOLO算法整体思路解读

  • YOLO-V1:

经典的one-stage方法
把检测问题转化成回归问题,一个CNN就搞定了!
可以对视频进行实时检测,应用领域非常广!

在这里插入图片描述

  • 核心思想:

1、预测一张图像中有哪些物体,交给谁来预测呢?例如一张图像高度和宽度7×7,观察一下物体落在了图像当中的某个位置了,每个格子负责预测一下,在你这个格子上它是什么物体,比如如下图“狗”落在了图像当中一个区域,但是了现在只关心它的中心点落到哪里,比如红色框里有个中心点,红色中心点点到图像的某个格子,那么这个格子负责预测一下这个狗。怎么预测了,图像中有两个黄色的框,可以这么想黄色的框不是我们要的最终结果,我们先这样红色格子去做预测了,但是它也不知道这个狗长什么样子的,那么需要一些经验的东西,把候选框微调----回归任务(宽度、高度怎么变),并且还有起始位置x,y(起始位置可能是一个中心点)
2、首先输入是一个S×S的格子,在这个格子当中希望每个格子里每个点产生出来两种候选框去做微调,但是不是所有的候选框都做微调,必须是有物体的微调,什么时候判断有这样一个物体:每个格子预测一个值–置信度,置信度>阈值的就可能是一个物体,是物体了才对物体中有的两种候选框筛选出来一个(IOU大的一个),实际做结果把x,y,w,h算出来映射到原始图像当中,就能把这个框算出来。

在这里插入图片描述

1.2 整体网络架构解读

  • 网络架构
    在这里插入图片描述
    1.首先第一步拿到了一个输入图像,大小为448×448×3(大小不能变,主要原因是全连接层,全连接层是定死的)
    2.中间过程:特征提取,就是一个卷积神经网络(7×7×1024的特征图)
    3.第一个全连接4096×1,第二个全连接1470×1,Reshape一下7×7×30,这个值非常关键

7×7的格子,30:每个格子有30个值。对每一个格子要产生两种框。第一种框:B1:x1,y1,w1,h1,c1 其中这里的x1,y1不是实际坐标值,而是规划完之后相对整体图像来说的一个0-1之间的值,它在相对的一个长宽的一个位置。B2:x2,y2,w2,h2,c2 这样B1和B2总共10个值,剩下的20个是20分类(不同数据集可能是80),预测一下每一个分类概率值等于多少。例如狗:80%,猫:10%。如下图:

在这里插入图片描述

(S*S)*(B*5+C):最终格子大小S*S的,B:两个框,C:类别

1.3 位置损失计算

在这里插入图片描述

做预测的值x,y,w,h和最终真实值之间肯定会有差异,差异越小越好

  • 位置误差:

S*S网格当中,对于每个格子都有预测,每一个都要实际计算。对于其中某一个格子有两种框。当前cell
i中的第i个box对这个物体负责:有两个候选框,但是对真实值来说它和两个候选框都能算一个IOU(最大的),然后算真实值和预测值之间的一个差异。加上根号说明了如果数值较小的话较为敏感,数值较大的话相对来说没有那么敏感,加根号解决了一点这个问题但是不够透彻在V1中。λcoord前面的系数在损失函数中表示权重项。

在这里插入图片描述

  • 置信度误差:

这里分成了两部分,一部分是包含物体时置信度的损失,一个是不包含物体时置信度的值。
其中前一项表示有无人工标记的物体落入网格内,如果有,则为1,否则为0.第二项代表bounding box和真实标记的box之间的IoU。值越大则box越接近真实位置。confidence是针对bounding box的,由于每个网格有两个bounding box,所以每个网格会有两个confidence与之相对应。从损失函数上看,当网格i中的第j个预测框包含物体的时候,用上面的置信度损失,而不包含物体的时候,用下面的损失函数。对没有object的box的confidence loss,赋予小的loss weight, λnoobj记为在pascal VOC训练中取0.5。有object的box的confidence loss和类别的loss的loss weight正常取1。

  • 类别损失:

类别损失这里也用了均方误差,实际上,感觉这里用交叉熵更好一些。其中在这里插入图片描述
表示有无object的中心点落到网格i中,如果网格中包含有物体object的中心的话,那么就负责预测该object的概率。

总体来说,对于不同的任务重要程度不同,所以也应该给与不同的loss weight:

  • 每个网格两个预测框坐标比较重要,给这些损失赋予更大的loss weight,在pascal VOC中取值为5
  • 对没有object的box的confidence loss,赋予较小的loss weight,在pascal VOC训练中取0.5
  • 对有object的box的confidence loss和类别的loss weight正常取值为1

1.4 NMS(非极大值抑制)

在这里插入图片描述

基本原理是先在图像中找到所有可能包含目标物体的矩形区域,并按照它们的置信度进行排列。然后从置信度最高的矩形开始,遍历所有的矩形,如果发现当前的矩形与前面任意一个矩形的重叠面积大于一个阈值,则将当前矩形舍去。使得最终保留的预测框数量最少,但同时又能够保证检测的准确性和召回率。具体的实现方法包括以下几个步骤:
1、对于每个类别,按照预测框的置信度进行排序,将置信度最高的预测框作为基准
2、从剩余的预测框中选择一个与基准框的重叠面积最大的框,如果其重叠面积大于一定的阈值,则将其删除。
3、对于剩余的预测框,重复步骤2,直到所有的重叠面积都小于阈值,或者没有被删除的框剩余为止。
通过这样的方式,NMS可以过滤掉所有与基准框重叠面积大于阈值的冗余框,从而实现检测结果的优化。值得注意的是,NMS的阈值通常需要根据具体的数据集和应用场景进行调整,以兼顾准确性和召回率。
总结来说,非极大值抑制原理是通过较高置信度的目标框作为基准,筛选出与其重叠度较低的目标框,从而去除掉冗余的目标框,提高目标检测的精度和效率。

1.5 YOLO-V1问题

优点:快速,简单!
每个Cell只预测一个类别,如果重叠无法解决
小物体检测效果一般,长宽比可选的但单一

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/863759.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

11_电子设计教程基础篇(磁性元件)

文章目录 前言一、电感1、原理2、种类1、制作工艺2、用途 3、参数1、测试条件2、电感量L3、品质因素Q4、直流电阻(DCR)5、额定电流6、谐振频率SRF(Self Resonant Frequency)7、磁芯损耗 4、应用与选型 二、共模电感1、原理2、参数…

《昇思25天学习打卡营第15天 | 昇思MindSpore基于MindSpore的红酒分类实验》

15天 本节学了通过MindSpore的完成红酒分类。 1.K近邻算法(K-Nearest-Neighbor, KNN)是一种用于分类和回归的非参数统计方法,是机器学习最基础的算法之一。 1.1分类问题 1.2回归问题 1.3距离的定义 2.数据处理 2.1 数据准备 2.2 数据读取与处…

动画重定向——当给一个人物模型用别人物的动画时,会遇到人物与动画不匹配问题,怎么解决呢?

每日一句:实践出真知,试错方确信 目录 最开始我想的原因! 分析一下动画相关参数 Animator组件参数详解: 人物模型的导入设置参数: Skinned Mesh Renderer组件详解: Skinned Mesh Renderer工作原理 设置Skinned …

AI大模型的崛起:第四次工业革命的前奏?

在当今这个信息爆炸的时代,人工智能(AI)大模型的崛起引起了广泛的关注和讨论。有人将其视为第四次工业革命的前奏,然而,这真的可能吗?本文将探讨这一问题,并对中国AI大模型的发展进行简要分析。…

MyBatis第一节

目录 1. 简介2. 配置3. doing3.1 创建一个表3.2 打开IDEA,创建一个maven项目3.3 导入依赖的jar包3.4 创建entity3.5 编写mapper映射文件(编写SQL)3.6 编写主配置文件3.7 编写接口3.8 测试 参考链接 1. 简介 它是一款半自动的ORM持久层框架,具有较高的SQ…

Qt:4.信号和槽

目录 1.信号源、信号和槽: 2.Qt类的继承关系: 3.自定义槽函数: 4.第一种信号和槽的连接的方法: 5.第二种信号和槽的连接的方法: 6.自定义信号: 7.发射信号: 8.信号和槽的传参:…

神经网络在机器学习中的应用:手写数字识别

机器学习是人工智能的一个分支,它使计算机能够从数据中学习并做出决策或预测。神经网络作为机器学习的核心算法之一,因其强大的非线性拟合能力而广泛应用于各种领域,包括图像识别、自然语言处理和游戏等。本文将介绍如何使用神经网络对MNIST数…

《昇思25天学习打卡营第17天 | 昇思MindSporeCycleGAN图像风格迁移互换》

17天 本节学习了CycleGAN图像风格迁移互换。 CycleGAN即循环对抗生成网络,该模型实现了一种在没有配对示例的情况下学习将图像从源域 X 转换到目标域 Y 的方法。该模型一个重要应用领域是域迁移,可以通俗地理解为图像风格迁移。其实在 CycleGAN 之前&a…

WP黑格导航主题BlackCandy

BlackCandy-V2.0全新升级!首推专题区(推荐分类)更多自定义颜色!选择自己喜欢的色系,焕然一新的UI设计,更加扁平和现代化! WP黑格导航主题BlackCandy

计算机科学基础简单介绍(1—6)

计算机影响了我们生活的方方面面,在我们这个时代完全渗透了我们的生活。 最早是算盘、星盘、时钟、尺卡等古老的计算工具,后来出现了进步计算机,类似与汽车里程表的一种机械工具,但是他也是手工制品。经过历史的演变与发展&#x…

gbase 8c分布式升级步骤

GBase 8c 多模多态企业级分布式数据库具备高性能、高可用、弹性伸缩、高安全性等特性,可以部署在物理机、虚拟机、容器、私有云和公有云,为关键行业核心系统、互联网业务系统和政企业务系统提供安全、稳定、可靠的数据存储和管理服务。GBase 8c支持行存、…

大数据之路 读书笔记 Day2

大数据之路 读书笔记 Day2 日志采集——浏览器的页面采集 一、分类 #mermaid-svg-8c9sRexRDdSB9pWA {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-8c9sRexRDdSB9pWA .error-icon{fill:#552222;}#mermaid-svg-8c9…

【python爬虫实战】爬取豆瓣top250(网站有反爬虫机制肿么办)

关于请求头headers: 值得注意的是,与上一篇 :​​​​​​【python爬虫实战】爬取书店网站的 书名&价格(注释详解)-CSDN博客 爬取书名不同,这次爬取豆瓣网站必须使用“请求头headers”,不然将没有输…

js使用异步方法(promise)返回回调参数内的值,

需求分析 使用回调方式的异步方法时,需要返回异步操作的结果,这个时候就不能直接在回调函数内返回值,因为回调函数需要等待异步操作结束才执行,而同步调用返回值时,异步操作没有结束,回调函数就没有执行完成…

每天五分钟深度学习框架pytorch:tensor向量之间常用的运算操作

本文重点 在数学中经常有加减乘除运算,在tensor中也不例外,也有类似的运算,本节课程我们将学习tensor中的运算 常见运算 加法+或者add import torch import numpy as np a=torch.rand(16,3,28,28) b=torch.rand(1,3,28,28) print(a+b) import torch import numpy as np a…

力扣SQL50 连续出现的数字 distinct

Problem: 180. 连续出现的数字 👨‍🏫 力扣官解 Code SELECT DISTINCTl1.Num AS ConsecutiveNums FROMLogs l1,Logs l2,Logs l3 WHEREl1.Id l2.Id - 1AND l2.Id l3.Id - 1AND l1.Num l2.NumAND l2.Num l3.Num ;

用Lobe Chat部署本地化, 搭建AI聊天机器人

Lobe Chat可以关联多个模型,可以调用外部OpenAI, gemini,通义千问等, 也可以关联内部本地大模型Ollama, 可以当作聊天对话框消息框来集成使用 安装方法参考: https://github.com/lobehub/lobe-chat https://lobehub.com/zh/docs/self-hosting/platform/…

DELL:利用大语言模型(LLM)生成评论与解释,革新虚假信息检测

ACL 2024 DELL: Generating Reactions and Explanations for LLM-Based Misinformation Detection https://arxiv.org/abs/2402.10426https://arxiv.org/abs/2402.10426 1.概述 大型语言模型(LLM)虽在诸多领域显示出色性能,但在直接应用于新闻真实性鉴别时,面临两大核心挑…

百亿级存储架构: ElasticSearch+HBase 海量存储架构与实现

百亿级存储架构: ElasticSearchHBase 海量存储架构与实现 尼恩:百亿级数据存储架构起源 在40岁老架构师 尼恩的读者交流群(50)中,经常性的指导小伙伴们改造简历。 经过尼恩的改造之后,很多小伙伴拿到了一线互联网企业如得物、阿…

多平台自动养号【开心版】偷偷使用就行了!

大家好,今天我无意间发现了一款【多平台自动养号工具】,看了一下里面的功能还是挺全面的,包含了【抖音,快手,小红薯】还有一些截流功能 虽然这款工具功能强大,但美中不足的是需要付费的。但别担心&#xf…