YOLOv5-小知识记录(一)

YOLOv5-小知识记录(一)

news/2025/10/22 0:16:07/文章来源:https://blog.csdn.net/Skywalker_air/article/details/137109612

0. 写在前面

这篇博文主要是为了记录一下yolov5中的小的记忆点，方便自己查看和理解。

1. 完整过程

（1）Input阶段，图片需要经过数据增强Mosaic，并且初始化一组anchor预设；

（2）特征提取（Backbone）：使用Conv、C3、SPPF基本结构对输入图片进行特征提取，Conv用于对输入进行下采样（一共进行了5次下采样）；C3用于对输入进行特征提取、融合，丰富特征的语义信息，在这个过程中使用了BoottleNeck减少参数量和计算量、借鉴CSPNet思想增强CNN学习能力；SPPF利用池化、特征融合的方式丰富特征的语义信息，使得最深层的特征图拥有极丰富的语义信息；

（3）加工特征（Neck）：v5是三种尺度的特征图融合浅层特征，浅层特征在检测方面有优势，借鉴了PANet，对提取的特征图融合浅层特征，使得特征图既具有丰富的语义信息又具有物体准确的位置信息；

（4）预测目标（Head）:对加工后的特征图进行预测，根据损失函数和优化器优化参数权重。

2. 小知识

2.1 特征融合方式

concat: 张量拼接，会扩充两个张量的维度，例如26*26*256和26*26*512张量拼接，结果是26*26*768;

add:张量相加，张量直接相加，不会扩充维度，例如104*104*128和104*104*128相加，结果还是104*104*128。

2.2 anchor

锚框就是在图像上预设好不同大小，不同长宽比的参照框。anchor是由FasterRCNN提出的，anchor解决了scale和aspect ratio变化范围大的问题，即将单元格的预测框控件划分了几个子空间，降低模型学习难度。

输入640*640的图片，经过32倍、16倍和8倍下采样，会产生20*20、40*40和80*80大小的特征图（网格尺寸），特征图的每个像素（该像素对应的视野大小就是网格中的单元格大小）设置3个anchor，因此v5共有（20*20+40*40+80*80）*3 = 25200个anchor。

借助网络训练的强大拟合能力，直接让网络输出每个anchor是否包含（或者说与物体有较大重叠，也就是IoU较大）物体，以及被检测物体相对本anchor的中心点偏移以及长宽比例。因为anchor的位置是固定的，所以就很容易换算出实际物体的位置。

2.3 BottleNeck

目的是减少参数量和计算而设计的，1*1,64 + 3*3，64 + 1*1，256的卷积层替换3*3的卷积层；

假设Input[1,256,10,10]，则：

普通卷积参数量：256 * 3 *3 *256+256=590080；计算量FLOPs:256*3*3*256*10*10=58982400;

BottleNeck的参数量:（256*1*1*64+64） + （64*3*3*64+64）+（64*1*1*256+256）=70016；

BottleNeck的计算量：256*1*1*64*10*10+64*3*3*64*10*10+64*1*1*256*10*10 = 6963200；

BottleNeck结构减少了参数量和计算量十分明显。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/776318.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【Python】使用Python和MinHash计算中文文本相似度

【Python】使用Python和MinHash计算中文文本相似度

我的心情总是失落我懂女孩子是矜持的你的耳机里到底听的是什么有没有我熟悉的歌我想发寻你的传单可是我没有你的照片只好写初识游泳馆大厅的里面我们不见不散 🎵 赵雷《十九岁》在处理中文文本数据时，如何快速有效地计算两…

阅读更多...

Python搜索算法——二分搜索

Python搜索算法——二分搜索

二分搜索算法（Binary Search）是一种高效的搜索算法，用于在有序数组中查找目标元素。它通过反复将目标值与数组的中间元素进行比较，并根据比较结果缩小搜索范围，直到找到目标值或确定它不在数组中。二分搜索算法步骤&…

阅读更多...

MSA7T10 DVBT2高清机顶盒方案

MSA7T10 DVBT2高清机顶盒方案

一、方案描述 MSA7T10系列芯片是Mstar推出的极富竞争力的DVB-T2机顶盒FTA方案，芯片内置64MB DDR2和T2解调器，支持T2 1.3.1规范，支持HEVC，H.264，MPEG高清视频，支持PVR/Timeshit功能，支持各种多媒…

阅读更多...

Prometheus收集、存储和分析主机和服务质量

Prometheus收集、存储和分析主机和服务质量

普罗米修斯（Prometheus）是一款开源的监控和警报解决方案，用于收集、存储和分析各种指标数据。它可以与各种编程语言配合使用，通过暴露特定格式的HTTP端点来监控主机上的指标。以下是一个简单的Python脚本，用于监控主…

阅读更多...

曲线生成 | 图解Reeds-Shepp曲线生成原理(附ROS C++/Python/Matlab仿真)

曲线生成 | 图解Reeds-Shepp曲线生成原理(附ROS C++/Python/Matlab仿真)

目录 0 专栏介绍1 什么是Reeds-Shepp曲线？2 Reeds-Shepp曲线的运动模式3 Reeds-Shepp曲线算法原理3.1 坐标变换3.2 时间翻转(time-flip)3.3 反射变换(reflect)3.4 后向变换(backwards) 4 仿真实现4.1 ROS C实现4.2 Python实现4.3 Matlab实现 0 专栏介绍 &#x1f5…

阅读更多...

如何利用社媒群组如何高效开发国外客户

如何利用社媒群组如何高效开发国外客户

现在社媒营销也是越来越流行了，很多外贸人都开始做社媒营销。社媒营销相对来说是比较有温度的一个营销，因为大部分社媒平台都支持在线聊天，触达的即时性是比较高的，效果也比传统的一些方法要好一些。当然做社媒也是有难度的&…

阅读更多...

西藏实景三维技术研讨交流会成功举办

西藏实景三维技术研讨交流会成功举办

2024年3月21-22日，西藏自治区“实景三维技术研讨交流会”在拉萨成功举办。本次会议由西藏自治区自然资源厅、自然资源部重庆测绘院指导，西藏自治区测绘学会、西藏自治区地理信息产业协会主办，武汉大势智慧科技有限公司（后简称“…

阅读更多...

SLAM中的三维运动学【SLAM】

SLAM中的三维运动学【SLAM】

李群视角下的运动学连续时间下的运动学模型物体在连续时间下运动的位姿由 R ( t ) R(t) R(t)和 t ( t ) t(t) t(t)表示，根据 R R R的正交性质有： R ( t ) T R ( t ) I R(t)^{T}R(t) I R(t)TR(t)I 公式两边对时间 t t t求导有： R ( t …

阅读更多...

数据库-索引快速学

数据库-索引快速学

索引当表中数据量庞大时，往往搜索一条数据就会耗费很长的时间等待索引是帮助数据库高效获取数据的数据结构 create index 索引名 on 数据表名（字段名）;为该表下的某一字段创建索引，检索耗时会大大的减小索引的优缺点优点&…

阅读更多...

【Python BUG】CondaHTTPError解决记录

【Python BUG】CondaHTTPError解决记录

问题描述 CondaHTTPError: HTTP 429 TOO MANY REQUESTS for url https://mirrors.ustc.edu.cn/anaconda/pkgs/free/win-64/current_repodata.json Elapsed: 00:26.513315 解决方案找到用户路径下的 .condarc文件，建议用这个方法前和我一样做个备份，方…

阅读更多...

python中类的导入与使用

python中类的导入与使用

1、类的介绍与C中面向对象思想类似，有时候为了方便，需要专门创建一个类，将相关的函数全部写入到该类中，方便后续创建对象，再使用类中函数。那么如何创建完类，在其他文件中使用类中函数，这是这篇…

阅读更多...

Python Flask框架 -- flask-migrate迁移ORM模型

Python Flask框架 -- flask-migrate迁移ORM模型

# 之前使用的这个db.create_all()很有局限性，它不能把在class里修改的东西同步上数据库，所以不用了 # with app.app_context(): # 请求应用上下文 # db.create_all() # 把所有的表同步到数据库中去例如，在User类中增加一个email字段&…

阅读更多...

STM32和GD32内部时钟与外部时钟讲解

STM32和GD32内部时钟与外部时钟讲解

STM32F103为例： 1. 当 HSI 被用作 PLL 时钟输入时，可以实现的最大系统时钟频率为 64 MHz。 2. 要使 USB 功能可用，必须同时启用 HSE 和 PLL，并使 USBCLK 运行在 48 MHz。 3. 要实现 ADC 转换时间为 1 s，APB2 必须为 14 MHz、28 MHz 或 56 MHz。 ①. HSE = 高速外部时钟信号…

阅读更多...

浅谈机器学习分类

浅谈机器学习分类

I. 前言在这个信息时代，数据的快速发展促进了人工智能（AI）等智能化技术的迅速发展。机器学习（Machine Learning）作为人工智能的重要分支之一，在数据处理、预测分析、模式识别等方面具有广泛的应用。前言的…

阅读更多...

[linux初阶][vim-gcc-gdb] OneCharter: vim编辑器

[linux初阶][vim-gcc-gdb] OneCharter: vim编辑器

一.vim编辑器基础目录一.vim编辑器基础 ①.vim的语法 ②vim的三种模式 ③三种模式的基本切换 ④各个模式下的一些操作二.配置vim环境 ①手动配置(不推荐) ②自动配置(推荐) vim是vi的升级版,包含了更加丰富的功能. ①.vim的语法 vim [文件名] ②vim的三种模式命令…

阅读更多...

爬取搜狗翻译项目实例

爬取搜狗翻译项目实例

视频中讲解的是百度翻译，但是视频中的方法现在已经不适用了，因为他们对 URL 的参数进行了修改，导致没法直接修改参数来爬取对应的翻译结果，这里我使用搜狗翻译来做演示，原理是一样的。我们搜索的关键字会返回在 URL 中…

阅读更多...

家用超声波清洗机高端品牌推荐！4款值得入手的热门超声波清洗机

家用超声波清洗机高端品牌推荐！4款值得入手的热门超声波清洗机

急着洗眼镜的朋友先不要慌，虽然洗眼镜是日常生活中最常见的操作，但是在清洗眼镜方面也是有讲究的，不是随随便便把眼镜擦一下就算清洁干净了！因为我们拿眼镜布擦眼镜的时候，布料粗糙的微粒就会跟砂纸一样打磨着镜片&…

阅读更多...

【python】flask模板渲染引擎Jinja2中的模板继承，简化前端模块化开发

【python】flask模板渲染引擎Jinja2中的模板继承，简化前端模块化开发

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯，先赞后看哦~🎈🎈 🏆 作者简介：景天科技苑 🏆《头衔》：大厂架构师，华为云开发者社区专家博主，…

阅读更多...

[树莓派5][linux][已解决] arecord -D “plughw:1,0“ 的设备序号怎么确定？

[树莓派5][linux][已解决] arecord -D “plughw:1,0“ 的设备序号怎么确定？

我们常用这条命令来测试麦克风录音： arecord -D "plughw:1,0" -f dat -c 1 -r 16000 -d 10 test.wav 其中plughw:1,0这个格式是： plughw:<card>,<device> 我们先用这条命令来查看设备： aplay -l 我查询到的是 **** Li…

阅读更多...

Python：语法糖

Python：语法糖

注意：本文引用自专业人工智能社区Venus AI 更多AI知识请参考原站 （[www.aideeplearning.cn]） 在编程世界中，有一个词语听起来既甜蜜又神秘：语法糖（Syntactic Sugar）。这个术语并不是指真正的糖…

阅读更多...

最新文章