yolov5学习及手势识别实战

yolov5学习及手势识别实战

web/2025/4/24 16:37:27/文章来源:https://blog.csdn.net/m0_63855028/article/details/146336984

目录

一、YOLOv5核心原理

1. 单阶段检测范式

2. 关键技术特性

二、YOLOv5网络架构组成

1. Backbone：CSPDarknet53

2. Neck：PANet（Path Aggregation Network）

3. Head：检测头

三、YOLOv5网络架构细节

1. 整体架构图

2. 关键模块参数

四、YOLOv5的创新优化

1. 自适应训练机制

2. 损失函数设计

3. 轻量化改进（YOLOv5s与YOLOv5x对比）

五、YOLOv5应用场景

总结

手势识别实战

一、YOLOv5核心原理

1. 单阶段检测范式

回归式检测：将目标检测转化为单次前向传播的回归问题，直接预测边界框坐标和类别概率。
网格划分策略：输入图像被划分为S×S网格，每个网格单元负责预测中心点落在该区域的目标。
多尺度预测：通过不同层级的特征图预测不同尺寸的目标（大目标用深层特征，小目标用浅层特征）。

2. 关键技术特性

技术要点	作用描述
自适应锚框	根据训练数据自动计算最佳锚框尺寸（K-means++改进算法）
动态损失平衡	通过调整分类、置信度、坐标回归的损失权重（如CIoU Loss优化）
数据增强策略	Mosaic增强、MixUp、HSV随机调整等提升模型泛化能力
自适应分辨率	支持动态调整输入图像尺寸（如640×640或自定义尺寸）

二、YOLOv5网络架构组成

YOLOv5网络由Backbone（主干网络）、Neck（特征融合层）和Head（检测头）三部分组成：

1. Backbone：CSPDarknet53

CSP结构（Cross Stage Partial Network）
优势：通过分割-处理-合并策略，减少计算量约20%并增强梯度多样性。

# CSP结构示例（YOLOv5中的BottleneckCSP模块）
class BottleneckCSP(nn.Module):def __init__(self, c1, c2, n=1, shortcut=True, g=1, e=0.5):super().__init__()c_ = int(c2 * e)  # 中间通道数self.cv1 = Conv(c1, c_, 1, 1)  # 1x1卷积降维self.cv2 = nn.Conv2d(c1, c_, 1, 1, bias=False)self.cv3 = nn.Conv2d(c_, c_, 1, 1, bias=False)self.cv4 = Conv(2 * c_, c2, 1, 1)self.bn = nn.BatchNorm2d(2 * c_)self.act = nn.SiLU()self.m = nn.Sequential(*[Bottleneck(c_, c_, shortcut, g, e=1.0) for _ in range(n)])def forward(self, x):y1 = self.cv3(self.m(self.cv1(x)))  # 分支1：卷积→Bottleneck堆叠y2 = self.cv2(x)                    # 分支2：直连return self.cv4(self.act(self.bn(torch.cat((y1, y2), dim=1))))

Focus模块（输入切片处理）
作用：将输入图像相邻像素切片重组，替代传统卷积下采样，保留更多细节信息。

class Focus(nn.Module):def __init__(self, c1, c2, k=1, s=1, p=None, g=1, act=True):super().__init__()self.conv = Conv(c1 * 4, c2, k, s, p, g, act)  # 通道数扩展4倍def forward(self, x):# 切片操作：将空间维度信息转为通道维度return self.conv(torch.cat([x[..., ::2, ::2], x[..., 1::2, ::2], x[..., ::2, 1::2], x[..., 1::2, 1::2]], 1))

2. Neck：PANet（Path Aggregation Network）

特征金字塔结构：
- FPN（自顶向下）：深层特征上采样并与浅层特征融合，增强语义信息。
- PAN（自底向上）：浅层特征下采样并与深层特征融合，补充定位细节。

# YOLOv5中的PANet实现（包含Concat和C3模块）
class PANet(nn.Module):def __init__(self, c1, c2):super().__init__()self.up = nn.Upsample(scale_factor=2, mode='nearest')self.c3_1 = C3(c1*2, c2, n=3, shortcut=False)self.c3_2 = C3(c2*2, c2, n=3, shortcut=False)def forward(self, x1, x2, x3):# 自顶向下（FPN）p3 = x3p3_up = self.up(p3)p2 = torch.cat([p3_up, x2], 1)p2 = self.c3_1(p2)# 自底向上（PAN）p2_up = self.up(p2)p1 = torch.cat([p2_up, x1], 1)p1 = self.c3_2(p1)return p1, p2, p3

3. Head：检测头

多尺度预测：输出三个尺度的特征图（如80×80、40×40、20×20），分别对应小、中、大目标。
预测张量结构：

# 输出shape：[batch_size, anchors_per_scale, grid_h, grid_w, 5 + num_classes]
# 5 = tx, ty, tw, th, confidence

解码过程：

def decode_box(pred, anchors, strides):# pred: [..., 4] 对应tx, ty, tw, thgrid_x = torch.arange(pred.shape[2]).repeat(pred.shape[3], 1).view(1, 1, pred.shape[2], pred.shape[3])grid_y = grid_x.permute(0, 1, 3, 2)pred[..., 0] = (torch.sigmoid(pred[..., 0]) * 2 - 0.5 + grid_x) * strides  # cxpred[..., 1] = (torch.sigmoid(pred[..., 1]) * 2 - 0.5 + grid_y) * strides  # cypred[..., 2:4] = (torch.sigmoid(pred[..., 2:4]) * 2) ** 2 * anchors  # w, hreturn pred

三、YOLOv5网络架构细节

1. 整体架构图

Input (640x640x3)
│
├── Focus [3→32]       # 切片下采样
├── Conv [32→64]
├── C3 [64→64]
├── Conv [64→128]
├── C3 [128→128] ×3
├── Conv [128→256]
├── C3 [256→256] ×3
├── Conv [256→512]
├── SPP [512→512]      # 空间金字塔池化
├── C3 [512→512] ×3
│
├── PANet开始
│   ├── UpSample → Concat → C3 [512→256]
│   ├── UpSample → Concat → C3 [256→128]
│   ├── DownSample → Concat → C3 [128→256]
│   └── DownSample → Concat → C3 [256→512]
│
└── Detect Head [3个尺度输出]

2. 关键模块参数

模块类型	参数配置示例	作用说明
Conv	kernel=6x6, stride=2, pad=2	下采样（替代池化）
C3	包含3个Bottleneck	跨阶段特征融合
SPP	池化核[5,9,13]	多尺度感受野融合
Upsample	scale_factor=2	特征图放大（最近邻插值）

四、YOLOv5的创新优化

1. 自适应训练机制

自适应锚框计算：训练初期自动计算最优锚框尺寸（--autoanchor参数）。
自适应图像缩放：保持原始图像宽高比进行填充，减少无效计算（letterbox）。

2. 损失函数设计

CIoU Loss：综合中心点距离、宽高比、重叠率的损失计算：

3. 轻量化改进（YOLOv5s与YOLOv5x对比）

模型版本	参数量（M）	GFLOPs	适用场景
YOLOv5s	7.2	16.5	移动端/嵌入式设备
YOLOv5m	21.2	49.0	平衡速度与精度
YOLOv5l	46.5	109.1	服务器端高性能检测
YOLOv5x	86.7	205.7	极致精度需求场景

五、YOLOv5应用场景

工业质检：快速检测产品缺陷（PCB板、零部件）。
自动驾驶：实时车辆、行人、交通标志识别。
安防监控：人体姿态、异常行为检测。
遥感图像：大尺度场景下的目标识别（建筑物、农田）。

总结

YOLOv5通过CSPDarknet主干网络、PANet特征融合和多尺度检测头，在保持实时性的同时提升了检测精度。其核心创新在于：

工程优化：自适应锚框、动态损失平衡、高效数据增强。
架构改进：Focus模块减少计算量，C3结构增强特征复用。
灵活性：提供多种模型尺寸（s/m/l/x）适应不同硬件需求。

手势识别实战

用git把yolov5从GitHub上下载到本地
把数据集划分为train1598:test457:val228=7:2:1,并放在dataset文件夹里
划分参考
val没有参与狭义的模型训练过程（权重更新），但是它参与了模型评测，以此来选择（不同超参数、不同epoch）最好的模型，就相当于参与了广义的模型训练了。
数据集结构为
```
datasettrainimageslabelstestval
```
把data/coco.yaml复制并改为gesture.yaml
把内容改为

# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]# dataset root dir
train: ../dataset_split/train/images  # train images (relative to 'path') 128 images
val: ../dataset_split/val/images  # val images (relative to 'path') 128 images
test: ../dataset_split/test/images # test images (optional)# Classes
names:0: 000-one1: 001-five2: 002-fist3: 003-ok4: 004-heartSingle5: 005-yearh6: 006-three7: 007-four8: 008-six9: 009-Iloveyou10: 010-gun11: 011-thumbUp12: 012-nine13: 013-pink

把models/yolov5s.yaml里面的80换成14：nc: 14 # number of classes
把train.py里面找到下图代码并改为下图，其他的先不用动
把整个文件压缩
登录autodl账号，开个小小的GPU,点进去后再建立一个文件夹yolov5
上传你的zip
解压缩，打开终端，
cd autodl-temp
cd yolov5
unzip yasuobao(不用加后缀.zip）
配环境pip install -r requirments.txt
终端输入python train.py就可以了

训练完后报错AttributeError: module 'PIL.Image' has no attribute 'ANTIALIAS'

解决方法

训练了100轮

在目标检测任务中，损失函数是评估模型预测准确性的关键指标。Box Loss、Cls Loss 和 DFL Loss 是三种常用的损失函数，它们分别针对不同的预测误差进行优化。

Box Loss（边界框损失）主要用于计算预测边界框与真实边界框之间的差异。常见的计算方法包括 Mean Squared Error（均方误差）和 Smooth L1 Loss（平滑L1损失）。这种损失函数通过最小化预测框与真实框之间的差异，帮助模型更准确地定位目标。

Cls Loss（分类损失）用于计算预测类别与真实类别之间的差异。这通常通过 交叉熵损失（Cross-Entropy Loss）来实现。分类损失的优化有助于提高模型对目标类别的识别准确性。

DFL Loss（自由形变损失）或称为 Distribution Focal Loss，是一种用于处理类别不平衡问题的损失函数。它类似于 Focal Loss，但引入了类别分布信息，从而更有效地处理不同类别样本数量差异较大的情况。

当这三个损失函数的值上升而不下降时，可能表明模型出现了过拟合。

obj_loss（目标置信度损失）是衡量模型预测边界框覆盖对象程度的一个重要指标。衡量目标检测对图像中是否存在目标进行判断的准确程度。当obj_loss较低时，表示模型能够正确识别出图像中的目标。

val.py就是用来测试的，原来在train.py里面默认是输入val，所以得出来的也是val_loss

但是现在要测试，所以要把里面参数部分默认的val改为test，然后再运行

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/web/72784.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【视频】H.264的码率和图像质量

【视频】H.264的码率和图像质量

1、简述分辨率、帧率、I帧设置不变的情况下，码率过低时，IP摄像机如果没有足够的带宽来传输高质量的图像，便会抹掉一些细节，导致出现马赛克，尤其是动态性强的画面（比如：运动的云台、非固定的摄像头）。 2、计算码率 1）码率的基础理论公式为：码率 (bps) = 分辨率像…

阅读更多...

VMware-workstation-17.6.3安装教程

VMware-workstation-17.6.3安装教程

1.下载VMware-workstation-17.6.3软件包 2.安装并输入许可码 3.开始使用

阅读更多...

[Linux][经验总结]Ubuntu6.11.0 docker更换镜像源（实操可用的正确方法）

[Linux][经验总结]Ubuntu6.11.0 docker更换镜像源（实操可用的正确方法）

一、前言关于Ubuntu更换docker镜像源，网上有很多的教程，但在实操中发现，更换的源无法生效——原因是我的docker是在系统安装时，选择附加安装的package的方式安装的。现将处理过程记录如下。二、获取镜像源在网上随便找个几…

阅读更多...

Element Plus开发实战指南：快速上手Vue 3企业级组件库

Element Plus开发实战指南：快速上手Vue 3企业级组件库

Element Plus全栈开发指南：从入门到企业级实战一、环境搭建与工程配置1.1 项目初始化（Windows/Mac通用）1.2 配置文件关键代码二、主题定制与样式管理2.1 SCSS变量覆盖方案2.2 暗黑模式切换三、核心组件深度实践3.1 智能表格开发&#xff0…

阅读更多...

Elasticsearch基础教程：从入门到上手

Elasticsearch基础教程：从入门到上手

🎯 一、Elasticsearch简介 Elasticsearch（简称ES）是一个分布式、RESTful风格的搜索引擎，支持全文检索、结构化查询、分析和近实时搜索。常用于日志分析、商品搜索、数据分析等场景。 1. 什么是 Elasticsearch？ Elas…

阅读更多...

VIVO手机如何实现证件照换底色？证件照换底色技巧分享

VIVO手机如何实现证件照换底色？证件照换底色技巧分享

在日常生活中，我们常常需要使用不同底色的证件照，无论是办理证件、提交资料还是其他用途，一张符合要求的证件照都显得尤为重要。而VIVO手机凭借其强大的拍照功能和便捷的图片编辑工具，为我们提供了一种简单高效的证件照换底色解…

阅读更多...

A SURVEY ON POST-TRAINING OF LARGE LANGUAGE MODELS——大型语言模型的训练后优化综述——第一部分

A SURVEY ON POST-TRAINING OF LARGE LANGUAGE MODELS——大型语言模型的训练后优化综述——第一部分

arXiv 2025 摘要大型语言模型（LLMs）的出现从根本上改变了自然语言处理，使其在从对话系统到科学研究的各个领域中变得不可或缺。然而，它们的预训练架构在特定情境下经常显示出局限性，包括有限的推理能力、伦理不确定…

阅读更多...

深入理解Python闭包与递归：原理、应用与实践

深入理解Python闭包与递归：原理、应用与实践

目录闭包什么是闭包： 闭包的基本结构： 实现闭包的条件： 1.嵌套函数 2.内函数引用外部函数的变量 3.外部函数返回内部函数 4.外部函数已经执行完毕递归函数什么是递归函数： 递归函数条件 1.必须有个明确的结束条…

阅读更多...

【自学笔记】智能合约基础知识点总览-持续更新

【自学笔记】智能合约基础知识点总览-持续更新

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录智能合约基础知识点总览目录1. 智能合约简介2. 以太坊与Solidity示例代码：Hello World智能合约 3. Solidity基础语法示例代码：简单的计数器合…

阅读更多...

ABAP PDF预览

ABAP PDF预览

画个屏幕 PDF JPG TXT都可以参考预览，把二进制流传递给标准函数就行 *&---------------------------------------------------------------------* *& Report YDEMO2 *&---------------------------------------------------------------------* *&am…

阅读更多...

【视频】文本挖掘专题：Python、R用LSTM情感语义分析实例合集|上市银行年报、微博评论、红楼梦、汽车口碑数据采集词云可视化

【视频】文本挖掘专题：Python、R用LSTM情感语义分析实例合集|上市银行年报、微博评论、红楼梦、汽车口碑数据采集词云可视化

原文链接：https://tecdat.cn/?p41149 分析师：Zhenzhen Liu，Shuai Fung 作为数据科学家，我们始终关注如何从非结构化数据中提取高价值信息。本专题合集聚焦企业年报的文本分析技术，通过Python与R语言实战案例&#xff…

阅读更多...

高效团队开发的工具与方法引言

高效团队开发的工具与方法引言

引言在现代软件开发领域，团队协作的效率和质量直接决定了项目的成败。随着项目规模的扩大和技术复杂度的增加，如何实现高效团队开发成为每个开发团队必须面对的挑战。高效团队开发不仅仅是个人技术能力的简单叠加，更需要借助合适的工具和方…

阅读更多...

python中mysql操作整理

python中mysql操作整理

安装 Windows ： pip install pymysql -i https://pypi.douban.com/simple mac ：python3 -m pip install pymysql -i https://pypi.douban.com/simple mysql示例 import pymysql connect pymysql.Connect(host82.156.74.26,port3306,userroot,passwor…

阅读更多...

Python----计算机视觉处理（Opencv：图像颜色替换）

Python----计算机视觉处理（Opencv：图像颜色替换）

一、开运算开运算就是对图像先进行腐蚀操作， 然后进行膨胀操作。开运算可以去除二值化图中的小的噪点，并分离相连的物体。其主要目的就是消除那些小白点在开运算组件中，有一个叫做kernel的参数，指的是核的大小，通常…

阅读更多...

基于SpringBoot的“ERP-物资管理”的设计与实现（源码+数据库+文档+PPT)

基于SpringBoot的“ERP-物资管理”的设计与实现（源码+数据库+文档+PPT)

基于SpringBoot的“ERP-物资管理”的设计与实现（源码数据库文档PPT) 开发语言：Java 数据库：MySQL 技术：SpringBoot 工具：IDEA/Ecilpse、Navicat、Maven 系统展示系统总体结构图 E-R实体关系图管理员登录界面管…

阅读更多...

链表操作：分区与回文判断

链表操作：分区与回文判断

目录链表分区（Partition） 功能概述代码实现要点与难点注意事项链表回文判断（PalindromeList） 功能概述代码实现要点与难点注意事项总结在链表相关的算法问题中，理解链表的基本结构和操作至关重要…

阅读更多...

如何在 Node.js 中使用 .env 文件管理环境变量？

如何在 Node.js 中使用 .env 文件管理环境变量？

Node.js 应用程序通常依赖于环境变量来管理敏感信息或配置设置。.env 文件已经成为一种流行的本地管理这些变量的方法，而无需在代码存储库中公开它们。本文将探讨 .env 文件为什么重要，以及如何在 Node.js 应用程序中有效的使用它。为什么使用 .env 文…

阅读更多...

【Git学习笔记】Git结构原理及其分支管理模型分析

【Git学习笔记】Git结构原理及其分支管理模型分析

【Git学习笔记】Git结构原理及其分支管理模型分析 🔥个人主页：大白的编程日记 🔥专栏：Git学习笔记文章目录【Git学习笔记】Git结构原理及其分支管理模型分析前言一.认识工作区、暂存区、版本库1.1 版本回退1.2 撤销修改1.3 删…

阅读更多...

Scheme语言的压力测试

Scheme语言的压力测试

Scheme语言的压力测试引言 Scheme是一种广泛使用的函数式编程语言，它是Lisp语言家族的一员，以其简洁性和强大的表达能力而闻名。在现代软件开发中，施行压力测试是一项关键技术，旨在评估系统在高负载或极端情况下的表现。在这篇…

阅读更多...

[特殊字符]Windows 11 安装 Git 图文教程（含详细配置说明）

[特殊字符]Windows 11 安装 Git 图文教程（含详细配置说明）

Windows 11 安装 Git 图文教程（含详细配置说明）本教程适用于 Git 新手，手把手教你如何在 Windows 11 上完整安装 Git 并正确配置，配图清晰，步骤明确，建议收藏！ ✅ 第一步：下载 Git 安装包访问官网：https://git-scm.com自动识别系统后点击下载或者直接前往：Git for …

阅读更多...

最新文章