YOLO系列模型疑问

YOLO模型V1版本

1、论文里提到bounding box的(x,y)值表示什么意思呢?

原论文:

Each bounding box consists of 5 predictions: x, y, w, h, and confidence. The (x, y) coordinates represent the center of the box relative to the bounds of the grid cell. 

意思好像是x和y是相对于网格(grid cell)的位置,我的理解:

①网格(grid cell):指的是将图像先resize为448x448后再划分为7x7,形成的49个网格。

②相对于网格的什么地方:相对于网格的左上角的位置

③bounding box指的是什么:用于计算待预测物体位置的信息,因为x、y、w、h并不是物体在原始图像中的真实坐标及大小。

④怎么计算x、y、w、h:模型经过训练后直接预测得到。 

 2、模型如何直接预测得到bounding box中的x、y、w、h?

2.1、训练阶段要学习如何拟合x、y、w、h:

①、图片中每个物体都被标记了一个矩形框,所以我们有该矩形框的左上角坐标和中心点坐标。

②、我们已经把图片resize并划分为7x7的网格了,知道每个网格的左上角的x和y坐标,同时也知道每个网格的长和宽包含的坐标个数。

③、物体的真实矩形框的中心坐标(X_m,Y_m)肯定落在划分的7x7的网格中的某一个中,比如网格:G,它的左上角坐标为(X_g,Y_g)

④、可以用②和③的信息得到(X_m,Y_m)到(X_g,Y_g)的偏移量(也就是训练时要拟合的回归值,而在预测阶段就是要预测的bounding box中的x、y值),

⑤、在训练时知道每个gred对应的(n个)bounding box的长和宽,同时也有图像的大小(448x448),那就知道了训练时要拟合的相对w和相对h,在预测阶段也是预测相对的w和相对的h。

2.2、预测阶段得到偏移量(x,y)和相对宽高(w、h)的逻辑是什么?

抽象一点说:

        在训练阶段送给网络的数据是(49x2)个bounding box框内的图像数据(这种说法严格来说是不准确的),分别抽取其范围内的特征,用这些特征和模型不断更新的权重参数进行计算(不断调整误差、减少损失),最终确定了模型的参数, 这些参数即可以给出(网格或网格对应的2个bounding box)包含物体的置信度,也可以给出模型认为(或预测)的物体的中心位置应该离该网格左上角的偏移位置、以及该网格对应的bounding box应该缩放的比例,同时也会给出该网格或其对应的2个bounding box分别属于20个物体类别的概率。

简单一点说:就是先使用模型的提取特征的层(卷积层)提取特征(该特征包含的信息比较多,可解释性比较差,说不清到底是什么),在后面的任务层(全连接层)也有保存好的模型参数,使用这些参数和卷积得到特征进行计算,就得到了前述的三种信息(boundingbox 应该有的偏移量及缩放量、存在物体的置信度、属于哪类物体的概率)。

不知道理解的对不对,希望大佬们多多指教。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/15936.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Golang发送GET请求并设置查询参数

服务端 package mainimport ("encoding/json""net/http""zdpgo_chi""zdpgo_chi/middleware" )func main() {r : zdpgo_chi.NewRouter()r.Use(middleware.RequestID)r.Use(middleware.RealIP)r.Use(middleware.Logger)r.Use(middlewar…

看这两位东北圣女美吗?如何描写美女的大长腿?

看这两位东北圣女美吗?如何描写美女的大长腿? 最近署名为懂球娘娘的一篇描写东北圣女的文章火了,文中描述了海棠朵朵与辛芷蕾这两位娇媚动人的角色。其美艳动人的形象和魅力四溢的描写让人为之倾倒。 这种通过文字展现人物魅力的能力让人佩服…

Hadoop运行wordcount实例任务卡在job running的多种情况及解决方法

第一种:配置问题 这是别人的图片,据楼主排查解决是因为hosts配置问题… 现象:各种无法运行、启动 解决办法: 1、修改日志级别 export HADOOP_ROOT_LOGGERDEBUG,console 查看下详细信息,定位到具体问题解决 第二种&…

每周题解:繁忙的都市

题目链接 繁忙的都市 题目描述 城市 C 是一个非常繁忙的大都市,城市中的道路十分的拥挤,于是市长决定对其中的道路进行改造。城市 C 的道路是这样分布的:城市中有 n n n 个交叉路口,有些交叉路口之间有道路相连,两…

5月26(信息差)

🌍 珠峰登顶“堵车”后冰架断裂 5人坠崖 2人没爬上来! 珠峰登顶“堵车”后冰架断裂 5人坠崖 2人没爬上来! 🎄 Windows 11 Beta 22635.3646 预览版发布:中国大陆地区新增“微软电脑管家”应用 ✨ 成都限购解除即将满…

[图解]产品经理-竞赛题解析:阿布思考法和EA

1 00:00:00,410 --> 00:00:02,330 今天我们来说一道 2 00:00:02,610 --> 00:00:04,690 前些天出的一道竞赛题 3 00:00:07,250 --> 00:00:09,310 怎么样用阿布思考法 4 00:00:09,320 --> 00:00:10,540 来改进EA 5 00:00:11,690 --> 00:00:12,620 题目是这样的…

简述 v-model 双向绑定的原理是什么?

v-model 是 Vue.js 中用于实现表单输入和应用状态(即数据)之间双向绑定的指令。其原理可以概括如下: 基本思想: v-model 是 v-bind 和 v-on 的语法糖,它结合了输入元素的 value 属性和 input 事件。当输入元素的值发生…

Kivy 项目51斩百词 5

MRWord\pages\infopage\info.py def read_random_word(self) def read_random_word(self):"""随机读取一条数据"""sql "SELECT * FROM word WHERE id (SELECT word_id FROM today ORDER BY RANDOM() limit 1)"rows select_data(sq…

Django 里html模板

Django 提供两种方式让程序员自定义html模板。 第一种方法 在项目文件夹里的urls.py进行添加 修改代码如下 from django.contrib import admin from django.urls import path from app01 import views # 得添加这行urlpatterns [path(xxx/, views.home), # 添加这行path(…

Java中print,println,printf的功能以及区别

在Java中,System.out.print, System.out.println, 和 System.out.printf 都是用于在控制台输出的方法,但它们在使用和功能上有所不同。 System.out.print: * 功能:将指定的内容输出到控制台,但不换行。 * 示例:Sy…

TXT文本编辑器:一键提取,多关键字匹配,内容尽在掌控!

在浩如烟海的文档中,寻找关键信息往往是一项繁琐而耗时的任务。你是否曾经为了查找某个关键字而翻遍了整个文件夹,却仍然一无所获?现在,有了TXT文本编辑器,这一切都将变得轻松而高效 这款软件以其简洁明了的操作界面和…

Flutter 中的 FittedBox 小部件:全面指南

Flutter 中的 FittedBox 小部件:全面指南 在Flutter的丰富布局小部件中,FittedBox扮演着一个独特而重要的角色。它是一个灵活的组件,用于将子组件的大小和位置适应到给定的约束条件中。本文将提供FittedBox的全面指南,帮助你了解…

C#9特性整理(部分)

1. 实例化类型推断(Target-typed new) 我们会使用 new 关键字来实例化,但在部分字段和属性声明的时候,这些类型已经是在旁边给出,且不能使用 var 代替的。因此,我们必须这么写: public Person…

最近5星好评的华为的书《常变与长青》

常变与长青 (豆瓣) 作者简介 郭平,1988年加入华为,历任产品开发部项目经理、供应链总经理、总裁办主任、管理工程部总裁、企业发展部总裁、终端公司董事长兼总裁、公司轮值CEO、财经委员会主任、公司副董事长、轮值董事长等职务,现任公…

微信小程序毕业设计-学生知识成果展示与交流系统项目开发实战(附源码+演示视频+LW)

大家好!我是程序猿老A,感谢您阅读本文,欢迎一键三连哦。 💞当前专栏:微信小程序毕业设计 精彩专栏推荐👇🏻👇🏻👇🏻 🎀 Python毕业设计…

接口自动化核心模块Requests详解(二)

一、概述 使用requests进行接口测试时,主要使用get 和post两种方式,两种请求方式的传参模式和方法是完全不一样的 二、传参实战 2.1 post传参的数据格式 使用post进行传参时,有三种数据格式,data(键值对的字典),json(有嵌套的…

Keyshot v11 解锁版安装教程 (3D光线追踪与全域光渲染程序)

前言 keyshot是一款实时渲染模式的软件。实时渲染是目前比较流行的一种渲染方式,优点是快速。调节的材质,灯光修改,光影变化等修改的各种参数结果,所见即所得,意思是你在软件操作界面看到的,就是最终的结果…

props配置项

src/App.vue: <template><div><Student name"JOJO" sex"男酮" :age"20" /></div> </template><script>import Student from ./components/Student.vueexport default {name:App,components: { Student },}…