YOLOv5-小知识记录(一)

0. 写在前面

        这篇博文主要是为了记录一下yolov5中的小的记忆点,方便自己查看和理解。

1. 完整过程

        (1)Input阶段,图片需要经过数据增强Mosaic,并且初始化一组anchor预设

        (2)特征提取(Backbone):使用Conv、C3、SPPF基本结构对输入图片进行特征提取,Conv用于对输入进行下采样(一共进行了5次下采样);C3用于对输入进行特征提取、融合,丰富特征的语义信息,在这个过程中使用了BoottleNeck减少参数量和计算量、借鉴CSPNet思想增强CNN学习能力SPPF利用池化、特征融合的方式丰富特征的语义信息,使得最深层的特征图拥有极丰富的语义信息;

        (3)加工特征(Neck):v5是三种尺度的特征图融合浅层特征,浅层特征在检测方面有优势,借鉴了PANet,对提取的特征图融合浅层特征,使得特征图既具有丰富的语义信息又具有物体准确的位置信息;

        (4)预测目标(Head):对加工后的特征图进行预测,根据损失函数和优化器优化参数权重。

2. 小知识

        2.1 特征融合方式

        concat: 张量拼接,会扩充两个张量的维度,例如26*26*256和26*26*512张量拼接,结果是26*26*768;

        add:张量相加,张量直接相加,不会扩充维度,例如104*104*128和104*104*128相加,结果还是104*104*128。

        2.2 anchor

        锚框就是在图像上预设好不同大小,不同长宽比的参照框。anchor是由FasterRCNN提出的,anchor解决了scale和aspect ratio变化范围大的问题,即将单元格的预测框控件划分了几个子空间,降低模型学习难度。

        输入640*640的图片,经过32倍、16倍和8倍下采样,会产生20*20、40*40和80*80大小的特征图(网格尺寸),特征图的每个像素(该像素对应的视野大小就是网格中的单元格大小)设置3个anchor,因此v5共有(20*20+40*40+80*80)*3 = 25200个anchor。

        借助网络训练的强大拟合能力,直接让网络输出每个anchor是否包含(或者说与物体有较大重叠,也就是IoU较大)物体,以及被检测物体相对本anchor的中心点偏移以及长宽比例。因为anchor的位置是固定的,所以就很容易换算出实际物体的位置。

         2.3 BottleNeck

        目的是减少参数量和计算而设计的,1*1,64 + 3*3,64 + 1*1,256的卷积层替换3*3的卷积层;

假设Input[1,256,10,10],则:

普通卷积参数量:256 * 3 *3 *256+256=590080;计算量FLOPs:256*3*3*256*10*10=58982400;

BottleNeck的参数量:(256*1*1*64+64) + (64*3*3*64+64)+(64*1*1*256+256)=70016;

BottleNeck的计算量:256*1*1*64*10*10+64*3*3*64*10*10+64*1*1*256*10*10 = 6963200;

BottleNeck结构减少了参数量和计算量十分明显。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/776318.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Python】使用Python和MinHash计算中文文本相似度

我的心情总是失落 我懂女孩子是矜持的 你的耳机里到底听的是什么 有没有我熟悉的歌 我想发寻你的传单 可是我没有你的照片 只好写初识游泳馆 大厅的里面 我们不见不散 🎵 赵雷《十九岁》 在处理中文文本数据时,如何快速有效地计算两…

Python搜索算法——二分搜索

二分搜索算法(Binary Search)是一种高效的搜索算法,用于在有序数组中查找目标元素。它通过反复将目标值与数组的中间元素进行比较,并根据比较结果缩小搜索范围,直到找到目标值或确定它不在数组中。 二分搜索算法步骤&…

MSA7T10 DVBT2高清机顶盒方案

一、方案描述 MSA7T10系列芯片是Mstar推出的极富竞争力的DVB-T2机顶盒FTA方案,芯片内置64MB DDR2和T2解调器,支持T2 1.3.1规范,支持HEVC,H.264,MPEG高清视频,支持PVR/Timeshit功能,支持各种多媒…

Prometheus收集、存储和分析主机和服务质量

普罗米修斯(Prometheus)是一款开源的监控和警报解决方案,用于收集、存储和分析各种指标数据。它可以与各种编程语言配合使用,通过暴露特定格式的HTTP端点来监控主机上的指标。 以下是一个简单的Python脚本,用于监控主…

曲线生成 | 图解Reeds-Shepp曲线生成原理(附ROS C++/Python/Matlab仿真)

目录 0 专栏介绍1 什么是Reeds-Shepp曲线?2 Reeds-Shepp曲线的运动模式3 Reeds-Shepp曲线算法原理3.1 坐标变换3.2 时间翻转(time-flip)3.3 反射变换(reflect)3.4 后向变换(backwards) 4 仿真实现4.1 ROS C实现4.2 Python实现4.3 Matlab实现 0 专栏介绍 &#x1f5…

如何利用社媒群组如何高效开发国外客户

现在社媒营销也是越来越流行了,很多外贸人都开始做社媒营销。社媒营销相对来说是比较有温度的一个营销,因为大部分社媒平台都支持在线聊天,触达的即时性是比较高的,效果也比传统的一些方法要好一些。 当然做社媒也是有难度的&…

西藏实景三维技术研讨交流会成功举办

2024年3月21-22日,西藏自治区“实景三维技术研讨交流会”在拉萨成功举办。 本次会议由西藏自治区自然资源厅、自然资源部重庆测绘院指导,西藏自治区测绘学会、西藏自治区地理信息产业协会主办,武汉大势智慧科技有限公司(后简称“…

SLAM中的三维运动学【SLAM】

李群视角下的运动学 连续时间下的运动学模型 物体在连续时间下运动的位姿由 R ( t ) R(t) R(t)和 t ( t ) t(t) t(t)表示,根据 R R R的正交性质有: R ( t ) T R ( t ) I R(t)^{T}R(t) I R(t)TR(t)I 公式两边对时间 t t t求导有: R ( t …

数据库-索引快速学

索引 当表中数据量庞大时,往往搜索一条数据就会耗费很长的时间等待 索引是帮助数据库高效获取数据的数据结构 create index 索引名 on 数据表名(字段名);为该表下的某一字段创建索引,检索耗时会大大的减小 索引的优缺点 优点&…

【Python BUG】CondaHTTPError解决记录

问题描述 CondaHTTPError: HTTP 429 TOO MANY REQUESTS for url https://mirrors.ustc.edu.cn/anaconda/pkgs/free/win-64/current_repodata.json Elapsed: 00:26.513315 解决方案 找到用户路径下的 .condarc文件,建议用这个方法前和我一样做个备份,方…

python中类的导入与使用

1、类的介绍 与C中面向对象思想类似,有时候为了方便,需要专门创建一个类,将相关的函数全部写入到该类中,方便后续创建对象,再使用类中函数。那么如何创建完类,在其他文件中使用类中函数,这是这篇…

Python Flask框架 -- flask-migrate迁移ORM模型

# 之前使用的这个db.create_all()很有局限性,它不能把在class里修改的东西同步上数据库,所以不用了 # with app.app_context(): # 请求应用上下文 # db.create_all() # 把所有的表同步到数据库中去 例如,在User类中增加一个email字段&…

STM32和GD32内部时钟与外部时钟讲解

STM32F103为例: 1. 当 HSI 被用作 PLL 时钟输入时,可以实现的最大系统时钟频率为 64 MHz。 2. 要使 USB 功能可用,必须同时启用 HSE 和 PLL,并使 USBCLK 运行在 48 MHz。 3. 要实现 ADC 转换时间为 1 s,APB2 必须为 14 MHz、28 MHz 或 56 MHz。 ①. HSE = 高速外部时钟信号…

浅谈机器学习分类

I. 前言 在这个信息时代,数据的快速发展促进了人工智能(AI)等智能化技术的迅速发展。机器学习(Machine Learning)作为人工智能的重要分支之一,在数据处理、预测分析、模式识别等方面具有广泛的应用。前言的…

[linux初阶][vim-gcc-gdb] OneCharter: vim编辑器

一.vim编辑器基础 目录 一.vim编辑器基础 ①.vim的语法 ②vim的三种模式 ③三种模式的基本切换 ④各个模式下的一些操作 二.配置vim环境 ①手动配置(不推荐) ②自动配置(推荐) vim是vi的升级版,包含了更加丰富的功能. ①.vim的语法 vim [文件名] ②vim的三种模式 命令…

爬取搜狗翻译项目实例

视频中讲解的是百度翻译,但是视频中的方法现在已经不适用了,因为他们对 URL 的参数进行了修改,导致没法直接修改参数来爬取对应的翻译结果,这里我使用搜狗翻译来做演示,原理是一样的。 我们搜索的关键字会返回在 URL 中…

家用超声波清洗机高端品牌推荐!4款值得入手的热门超声波清洗机

急着洗眼镜的朋友先不要慌,虽然洗眼镜是日常生活中最常见的操作,但是在清洗眼镜方面也是有讲究的,不是随随便便把眼镜擦一下就算清洁干净了!因为我们拿眼镜布擦眼镜的时候,布料粗糙的微粒就会跟砂纸一样打磨着镜片&…

【python】flask模板渲染引擎Jinja2中的模板继承,简化前端模块化开发

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,…

[树莓派5][linux][已解决] arecord -D “plughw:1,0“ 的设备序号怎么确定?

我们常用这条命令来测试麦克风录音&#xff1a; arecord -D "plughw:1,0" -f dat -c 1 -r 16000 -d 10 test.wav 其中plughw:1,0这个格式是&#xff1a; plughw:<card>,<device> 我们先用这条命令来查看设备&#xff1a; aplay -l 我查询到的是 **** Li…

Python:语法糖

注意&#xff1a;本文引用自专业人工智能社区Venus AI 更多AI知识请参考原站 &#xff08;[www.aideeplearning.cn]&#xff09; 在编程世界中&#xff0c;有一个词语听起来既甜蜜又神秘&#xff1a;语法糖&#xff08;Syntactic Sugar&#xff09;。这个术语并不是指真正的糖…