详解YOLOv5网络结构/数据集获取/环境搭建/训练/推理/验证/导出/部署

一、本文介绍

本文给大家带来的教程是利用YOLOv5训练自己的数据集,以及有关YOLOv5的网络结构讲解/数据集获取/环境搭建/训练/推理/验证/导出/部署相关的教程,同时通过示例的方式让大家来了解具体的操作流程,过程中还分享给大家一些好用的资源,我还对其中的参数进行了详细的讲解,通过本文大家可以成功训练自己的数据集,在开始之前给大家推荐一下我的YOLOv5专栏,本专栏包含上百种YOLOv5的改进机制以及如何撰写论文的教程,手把手教大家如何改进YOLOv5非常适合科研小白。

   专栏回顾:YOLOv5改进专栏——持续复现各种顶会内容——内含100+创新

目录

一、本文介绍

二、模型获取

三、数据集获取

四、环境搭建

五、训练教程

六、推理教程

七、验证教程 

八、导出教程


二、模型获取

我们可以从官方的Github开源的地址进行下载即可。

官方代码下载地址:官方代码下载地址点击即可跳转

下载完之后,用我们自己熟悉的IDEA打开即可,YOLOv5不像YOLOv8可以通过pip下载,如果通过Git下载,大家也不能够统一,所以推荐大家就去官方下载最方便了,毕竟就是一个压缩包的事情。


三、数据集获取

在开始训练之前,我们必须准备一份数据集,网上有很多都是给大家转换脚本,我这里给大家推荐一个免费的数据集网站,里面包含200000+的数据集包括各种VOC、COCO数据集,而且可以一键导出我们想要的数据集格式,下载过后的数据集,我们拿过来直接就可以使用无需做任何的修改了。

数据集教程:超详细教程YoloV5官方推荐免费数据集网站Roboflow一键导出Voc、COCO、Yolo、Csv等格式


四、环境搭建

 大家如果没有搭建环境可以看我的另一篇博客,里面讲述了如何搭建pytorch环境(内容十分详细我每次重新更换系统都要看一遍)。

Win11上Pytorch的安装并在Pycharm上调用PyTorch最新超详细过程并附详细的系统变量添加过程,可解决pycharm中pip不好使的问题

在我们配置好环境之后,在之后模型获取完成之后,我们可以进行配置的安装我们可以在命令行下输入如下命令进行环境的配置。

pip install -r requirements.txt

输入如上命令之后我们就可以看到命令行在安装模型所需的库了。 

五、训练教程

YOLO采用的是文件训练的形式,每一个功能都定义了一个文件,我们通过目录下的'train.py'进行训练即可,这里主要讲解一下其中的参数含义,以及必备的设置。

def parse_opt(known=False):parser = argparse.ArgumentParser()parser.add_argument('--weights', type=str, default=ROOT / 'yolov5n.pt', help='权重初始化的路径,在这里面设置权重的地址')parser.add_argument('--cfg', type=str, default='models/yolov5n.yaml', help='模型的配置文件,我们可以根据自己需求配置yaml文件')parser.add_argument('--data', type=str, default=ROOT / '', help='大家的数据集地址')parser.add_argument('--hyp', type=str, default=ROOT / 'data/hyps/hyp.scratch-low.yaml', help='用于指定超参数文件,大家根据这个地址就能够找到一个yaml文件里面配置了各种超参数')parser.add_argument('--epochs', type=int, default=200, help='训练的轮次')parser.add_argument('--batch-size', type=int, default=16, help='训练的批次大小,决定了一次向模型里输入多少张图片')parser.add_argument('--imgsz', '--img', '--img-size', type=int, default=640, help='输入模型里的图像尺寸,YOLO系列默认都是640')parser.add_argument('--rect', action='store_true', help='矩形训练或验证。矩形训练或验证是一种数据处理技术,其中在训练或验证过程中,输入数据会被调整为具有相同宽高比的矩形形状')parser.add_argument('--resume', nargs='?', const=True, default=False, help='这个如果设置为True,那么会根据你最新一次没有训练完成的权重进行继续完成训练')parser.add_argument('--nosave', action='store_true', help='只保存最终的检查点,不保存中间训练过程中的检查点什么意思')parser.add_argument('--noval', action='store_true', help='当设置时,只在最后一个周期(epoch)进行验证,而不是在每个周期都进行')parser.add_argument('--noautoanchor', action='store_true', help=' 当设置时,禁用自动锚定(AutoAnchor)')parser.add_argument('--noplots', action='store_true', help=' 当设置时,不保存任何绘图文件,就是我们runs下面的训练结果')parser.add_argument('--evolve', type=int, nargs='?', const=300, help='允许超参数的进化优化,参数是进化的代数。')parser.add_argument('--bucket', type=str, default='', help='指定一个gsutil存储桶的路径')parser.add_argument('--cache', type=str, nargs='?', const='ram', help='设置图像缓存方式,可以是内存(ram)或磁盘(disk)')parser.add_argument('--image-weights', action='store_true', help='使用加权图像选择进行训练,简单的说就是,处理一些复杂或不平衡的数据集')parser.add_argument('--device', default='0', help='cuda device, i.e. 0 or 0,1,2,3 or cpu, 这个不在多说了,我们的GPU设备号')parser.add_argument('--multi-scale', action='store_true', help='当设置时,图像大小会在训练过程中变化,上下浮动50%')parser.add_argument('--single-cls', action='store_true', help='当设置时,将多类别数据作为单类别数据训练,一般都设置为False')parser.add_argument('--optimizer', type=str, choices=['SGD', 'Adam', 'AdamW'], default='SGD', help='选择优化器')parser.add_argument('--sync-bn', action='store_true', help='当设置时,使用同步批处理归一化(SyncBatchNorm)')parser.add_argument('--workers', type=int, default=0, help='工作的线程,Linux系统可以设置,Windows系统必须设置0否则会导致各种问题')parser.add_argument('--project', default=ROOT / 'runs/train', help='设置项目保存路径,就是我们训练结果保存的地方')parser.add_argument('--name', default='exp', help='保存的项目名称,类似于runs/train/exp/一堆我们训练的结果')parser.add_argument('--exist-ok', action='store_true', help='当设置时,如果项目/名称已存在则不会报错,不会自动增加编号')parser.add_argument('--quad', action='store_true', help='使用四边形数据加载器, 这些默认都是开启的')parser.add_argument('--cos-lr', action='store_true', help='使用余弦学习率调度器, 这些默认都是开启的')parser.add_argument('--label-smoothing', type=float, default=0.0, help='参数是用来设置标签平滑的 epsilon 值的,用来提高模型的泛化能力')parser.add_argument('--patience', type=int, default=100, help='早停机制,损失超过多少个回合变化的较小就停止训练')parser.add_argument('--freeze', nargs='+', type=int, default=[0], help='用于在神经网络训练过程中“冻结”(freeze)一部分层。冻结的意思是在训练过程中保持这些层的权重不变,不对它们进行更新.知识蒸馏的时候会用到这个参数。')parser.add_argument('--save-period', type=int, default=-1, help='每隔x个周期保存一次检查点,如果小于1则禁用')parser.add_argument('--seed', type=int, default=0, help='训练的随机数种子,计算机其实是没有随机数的,都是根据随机数种子来演变出来的随机数')parser.add_argument('--local_rank', type=int, default=-1, help='自动设置用于多GPU DDP训练的局部排名,通常不需要手动修改')# Logger argumentsparser.add_argument('--entity', default=None, help='设置实体,用于日志记录')parser.add_argument('--upload_dataset', nargs='?', const=True, default=False, help='设置是否上传数据集,如果指定“val”,则上传验证集')parser.add_argument('--bbox_interval', type=int, default=-1, help='设置边界框图像记录间隔')parser.add_argument('--artifact_alias', type=str, default='latest', help='设置要使用的数据集工件的版本,默认为latest')return parser.parse_known_args()[0] if known else parser.parse_args()

在上面的所有参数里,我们只需要填写前三个就可以开始训练了(仅需配置好前三个),填好地址即可,其中pt权重文件,如果没有会自动联网下载,大家也可以在我门前面给的官方上主动下载到本地,填好参数之后,我们运行train.py文件就可以开始训练 。 

六、推理教程

推理就是,利用我们训练好的权重文件,或者是官方提供的权重文件进行加载预测的过程,功能集成在'detect.py'文件里面,我下面对其中参数含义进行讲解然后进行一个简单的视频推理示例。

大家可以用下面的代码替换你的代码参数解析部分。 

parser.add_argument('--weights', nargs='+', type=str, default=ROOT / 'yolov5s.pt', help='模型权重的路径或Triton URL。默认为ROOT目录下的yolov5s.pt。')
parser.add_argument('--source', type=str, default=ROOT / 'data/images', help='输入数据的来源,可以是文件、目录、URL、glob模式、屏幕捕获或网络摄像头。默认为ROOT/data/images。')
parser.add_argument('--data', type=str, default=ROOT / 'data/coco128.yaml', help='数据集配置文件的路径,例如coco128.yaml。默认为ROOT/data/coco128.yaml。')
parser.add_argument('--imgsz', '--img', '--img-size', nargs='+', type=int, default=[640], help='推理时的图像大小(高度、宽度)。默认为[640]。')
parser.add_argument('--conf-thres', type=float, default=0.25, help='检测的置信度阈值。默认为0.25,就是我们判断一个物体概率为0-1,如果大于0.25则判断是该类别')
parser.add_argument('--iou-thres', type=float, default=0.45, help='非最大抑制(NMS)的交并比(IoU)阈值。默认为0.45。')
parser.add_argument('--max-det', type=int, default=1000, help='每张图像的最大检测数量。默认为1000。')
parser.add_argument('--device', default='', help='指定运行设备,例如CUDA设备(0或0,1,2,3)或CPU。')
parser.add_argument('--view-img', action='store_true', help='如果设置,展示检测结果。')
parser.add_argument('--save-txt', action='store_true', help='如果设置,将检测结果保存为文本文件。')
parser.add_argument('--save-csv', action='store_true', help='如果设置,将检测结果保存为CSV格式。')
parser.add_argument('--save-conf', action='store_true', help='如果设置,在文本文件中保存置信度信息。')
parser.add_argument('--save-crop', action='store_true', help='如果设置,保存被检测对象的裁剪图像。')
parser.add_argument('--nosave', action='store_true', help='如果设置,不保存图像或视频结果。')
parser.add_argument('--classes', nargs='+', type=int, help='过滤指定的类别,例如0或 0 2 3。')
parser.add_argument('--agnostic-nms', action='store_true', help='如果设置,使用与类别无关的NMS。')
parser.add_argument('--augment', action='store_true', help='如果设置,使用增强的推理。')
parser.add_argument('--visualize', action='store_true', help='如果设置,可视化特征。')
parser.add_argument('--update', action='store_true', help='如果设置,更新所有模型。')
parser.add_argument('--project', default=ROOT / 'runs/detect', help='设置结果保存的项目目录。默认为ROOT/runs/detect。')
parser.add_argument('--name', default='exp', help='设置保存结果的子目录名称。默认为exp。')
parser.add_argument('--exist-ok', action='store_true', help='如果设置,允许已存在的项目/名称,不自动增加编号。')
parser.add_argument('--line-thickness', default=3, type=int, help='设置边界框的线条粗细(像素)。默认为3。')
parser.add_argument('--hide-labels', default=False, action='store_true', help='如果设置,隐藏标签。')
parser.add_argument('--hide-conf', default=False, action='store_true', help='如果设置,隐藏置信度。')
parser.add_argument('--half', action='store_true', help='如果设置,使用FP16半精度推理,推理速度更快,但精度会下降。')
parser.add_argument('--dnn', action='store_true', help='如果设置,使用OpenCV DNN模块进行ONNX推理。')
parser.add_argument('--vid-stride', type=int, default=1, help='设置视频帧率步长。默认为1。')

下面我来进行一个简单的示例,

找到推理文件'detect.py',然后配置前两个参数即可,然后运行文件。

下面的是推理的过程,视频个本质就是帧处理,它会一帧一帧的处理。 

People


七、验证教程 

推理的文件是'val.py'文件,其中的参数解释如下。

 下面的是上面的代码块形式,大家可以复制粘贴。

parser.add_argument('--data', type=str, default=ROOT / 'data/coco128.yaml', help='数据集配置文件路径。')
parser.add_argument('--weights', nargs='+', type=str, default=ROOT / 'yolov5s.pt', help='模型权重文件路径,一般需要替换成你自己训练的权重')
parser.add_argument('--batch-size', type=int, default=32, help='批处理大小,一次验证图片的多少,影响验证速度')
parser.add_argument('--imgsz', '--img', '--img-size', type=int, default=640, help='推理时的图像大小(像素)。')
parser.add_argument('--conf-thres', type=float, default=0.001, help='置信度阈值。')
parser.add_argument('--iou-thres', type=float, default=0.6, help='非最大抑制(NMS)的交并比(IoU)阈值。')
parser.add_argument('--max-det', type=int, default=300, help='每张图像的最大检测数量。')
parser.add_argument('--task', default='val', help='任务类型,可以是train, val, test, speed或study。')
parser.add_argument('--device', default='', help='使用的CUDA设备,例如0或0,1,2,3或cpu。')
parser.add_argument('--workers', type=int, default=8, help='数据加载器的最大工作线程数(在DDP模式下是每个RANK的设置)。')
parser.add_argument('--single-cls', action='store_true', help='将数据集视为单类别。')
parser.add_argument('--augment', action='store_true', help='使用增强的推理。')
parser.add_argument('--verbose', action='store_true', help='按类别详细报告mAP。')
parser.add_argument('--save-txt', action='store_true', help='将结果保存为文本文件。')
parser.add_argument('--save-hybrid', action='store_true', help='将标签和预测的混合结果保存为文本文件。')
parser.add_argument('--save-conf', action='store_true', help='在保存的文本标签中包含置信度。')
parser.add_argument('--save-json', action='store_true', help='保存COCO-JSON格式的结果文件。')
parser.add_argument('--project', default=ROOT / 'runs/val', help='结果保存的项目路径。')
parser.add_argument('--name', default='exp', help='保存结果的子目录名称。')
parser.add_argument('--exist-ok', action='store_true', help='如果项目/名称已存在,则不递增编号。')
parser.add_argument('--half', action='store_true', help='使用FP16半精度推理,半精度会降低精度')
parser.add_argument('--dnn', action='store_true', help='使用OpenCV DNN进行ONNX推理。')


八、导出教程

导出是为了将我们训练结果进行其它平台的部署,因为python的执行效率是很低的,所以为了加速推理速度,可以将模型进行导出,然后进行其它语言的部署,从而提高检测FPS。

其中的导出文件是'export.py'文件,利用这个文件我们就能将我们训练好的模型进行导出。


parser.add_argument('--data', type=str, default=ROOT / 'data/coco128.yaml', help='数据集配置文件的路径。')
parser.add_argument('--weights', nargs='+', type=str, default=ROOT / 'yolov5s.pt', help='模型权重文件的路径。')
parser.add_argument('--imgsz', '--img', '--img-size', nargs='+', type=int, default=[640, 640], help='图像的高度和宽度。')
parser.add_argument('--batch-size', type=int, default=1, help='批处理大小。')
parser.add_argument('--device', default='cpu', help='使用的CUDA设备,例如0或0,1,2,3或cpu。')
parser.add_argument('--half', action='store_true', help='FP16半精度导出。')
parser.add_argument('--inplace', action='store_true', help='设置YOLOv5 Detect()的inplace参数为True。')
parser.add_argument('--keras', action='store_true', help='使用Keras(TensorFlow)。')
parser.add_argument('--optimize', action='store_true', help='TorchScript: 为移动端优化模型。')
parser.add_argument('--int8', action='store_true', help='CoreML/TF/OpenVINO的INT8量化。')
parser.add_argument('--dynamic', action='store_true', help='ONNX/TF/TensorRT: 动态轴。')
parser.add_argument('--simplify', action='store_true', help='ONNX: 简化模型。')
parser.add_argument('--opset', type=int, default=17, help='ONNX: opset版本。')
parser.add_argument('--verbose', action='store_true', help='TensorRT: 详细日志。')
parser.add_argument('--workspace', type=int, default=4, help='TensorRT: 工作空间大小(GB)。')
parser.add_argument('--nms', action='store_true', help='TensorFlow: 在模型中添加NMS。')
parser.add_argument('--agnostic-nms', action='store_true', help='TensorFlow: 添加与类别无关的NMS到模型。')
parser.add_argument('--topk-per-class', type=int, default=100, help='TF.js NMS: 每个类别保留的topk。')
parser.add_argument('--topk-all', type=int, default=100, help='TF.js NMS: 所有类别保留的topk。')
parser.add_argument('--iou-thres', type=float, default=0.45, help='TF.js NMS: 交并比(IoU)阈值。')
parser.add_argument('--conf-thres', type=float, default=0.25, help='TF.js NMS: 置信度阈值。')
parser.add_argument('--include',nargs='+',default=['torchscript'],help='支持的导出格式列表。可选项包括:torchscript, onnx, openvino, engine, coreml, saved_model, pb, tflite, edgetpu, tfjs, paddle。')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/232001.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何保证线程A,B,C顺序执行,或者C在A、B后执行?

第一种方案:使用CountDownLatch工具类 CountDownLatch:是Java多线程编程中的一个同步工具类(计数锁),它允许一个或多个线程等待其他线程完成操作后再继续执行。其内部维护了一个计数器,当线程在执行任务完…

OpenAI 偷偷在训练 GPT-4.5!?

最近看到有人已经套路出 ChatGPT 当前的版本,回答居然是 gpt-4.5-turbo: 实际试验下,用 starflow.tech,切换到小星 4 全能版(同等官网最新 GPT-4),复制下面这段话问它: What is the…

olap/clickhouse-编译器优化与向量化

本文主要结合15721和clickhouse源码来聊聊向量化,正好我最近也在用Eigen做算子加速,了解下还是有好处的。 提示编译器 提示编译器而不是复杂化简单的代码 什么时候使用汇编,什么时候使用SIMD?下面有几个基本原则: …

【ES】--Elasticsearch的深度分页/内存超限等问题

目录 一、ES存在哪些问题二、以上问题的解决方案 一、ES存在哪些问题 对于ES搜索,往往会有一系列的问题。 (1)、默认ES翻页到10000条之后,会报错:ElasticsearchException[Elasticsearch exception [typeillegal_argument_exception, reasonR…

AttributeError: module ‘IPython.utils.traitlets‘ has no attribute ‘Unicode‘

format_type _traitlets.Unicode(_JAVASCRIPT_MODULE_MIME_TYPE) AttributeError: module ‘IPython.utils.traitlets’ has no attribute ‘Unicode’ 解决: …/python3.10/site-packages/google/colab/data_table.py 这里修改如下导包问题 # from IPython.utils…

零基础自学C语言|字符函数和字符串函数

在编程的过程中,我们经常要处理字符和字符串,为了方便操作字符和字符串,C语言标准库中提供了一系列库函数,接下来我们就学习一下这些函数。 📌字符分类函数 C语言中有一系列的函数是专门做字符分类的,也就…

mybatis框架的orm机制(类和数据库表的映射)

MyBatis框架之所以能够将数据库表映射到Java类,其核心原理是基于对象关系映射(ORM)。ORM是一种编程技术,用于在关系型数据库和面向对象编程语言之间建立映射关系,从而实现数据库表和对象之间的转换。 MyBatis实现映射…

对私域的认知,决定了你的私域能做多久!

现在,大部分企业对私域的认知是扭曲的。 比如,说到做私域,很多企业都是忙着往企业微信拉人,做自己的小程序商城来卖货。大多数企业就这样把私域当成了企业的独有“淘宝天猫”,这样做私域,可能会带来短期GM…

Flink系列之:Table API Connectors之Debezium

Flink系列之:Table API Connectors之Debezium 一、Debezium二、依赖三、使用Debezium Format四、可用元数据五、Format参数六、重复的变更事件七、消费 Debezium Postgres Connector 产生的数据八、数据类型映射 一、Debezium Debezium 是一个 CDC(Chan…

在 Windows 上安装并配置 dig命令 的步骤

介绍:dig 是一个网络工具,通常在 Unix 和类 Unix 系统上使用,用于查询 DNS(域名系统)信息。它可以用来获取域名相关的信息,比如 IP 地址、域名服务器的记录等。你可以使用 dig 命令来进行域名解析、查找特定…

Spring之手写IoC

学习的最大理由是想摆脱平庸,早一天就多一份人生的精彩;迟一天就多一天平庸的困扰。各位小伙伴,如果您: 想系统/深入学习某技术知识点… 一个人摸索学习很难坚持,想组团高效学习… 想写博客但无从下手,急需…

DALL-E 系列:AI绘画背后的惊人真相!!【1个离奇内幕、3个意想不到、5大秘密揭示】

DALL-E 系列:AI绘图原理,根据用户给出的描述,生成与描述相匹配的图像 DALL-E 1dVAETransformer DALL-E 2CLIP先验 priordecoder(image) DALL-E 3 论文地址:https://arxiv.org/pdf/2102.12092.pdf DALL-E 的…

Android 原始方法实现Tablayout样式

源码: 【免费】Android原始方法实现Tablayout样式资源-CSDN文库 推荐: GitHub - hackware1993/MagicIndicator: A powerful, customizable and extensible ViewPager indicator framework. As the best alternative of ViewPagerIndicator, TabLayout …

PowerShell实战(一)PowerShell使用ImportExcel模块轻松操作Excel

目录 一、介绍 二、安装模块 三、操作示例 1、导出excel 2、读取Excel数据 3、导出包含图表的Excel 4、导出包含汇总列和图表的Excel 一、介绍 ImportExcel模块可以理解为基于PowerShell环境操作Excel的强大类库,使用它可以在 Windows、Linux 和 Mac 上都可以使用。…

119. 杨辉三角 II

描述 : 给定一个非负索引 rowIndex,返回「杨辉三角」的第 rowIndex 行。 在「杨辉三角」中,每个数是它左上方和右上方的数的和 题目 : LeetCode 119. 杨辉三角 II : 119. 杨辉三角 II 分析 : 这道题用二维数组来做 . 解析 : class Solution {pub…

企微私域裂变:数字化时代的企业增长新引擎

在当前的数字化时代,企业面临着客户获取和转化的挑战。为了解决这一问题,企微私域裂变作为一种新型的营销策略,逐渐受到企业的关注。通过精细化的运营、深入的用户洞察和创新的裂变手段,企微私域裂变帮助企业快速拓展市场&#xf…

GPT-4V with Emotion:A Zero-shot Benchmark forMultimodal Emotion Understanding

GPT-4V with Emotion:A Zero-shot Benchmark forMultimodal Emotion Understanding GPT-4V情感:多模态情感理解的zero-shot基准 1.摘要 最近,GPT-4视觉系统(GPT-4V)在各种多模态任务中表现出非凡的性能。然而,它在情感识别方面的功效仍然是个问题。本文定…

IDEA版SSM入门到实战(Maven+MyBatis+Spring+SpringMVC) -Spring的AOP前奏

第一章 AOP前奏 1.1 代理模式 代理模式:我们需要做一件事情,又不期望自己亲力亲为,此时,可以找一个代理【中介】 我们【目标对象】与中介【代理对象】不能相互转换,因为是“兄弟”关系 1.2 为什么需要代理【程序中…

JavaScript中audio停止播放事件

在HTML中&#xff0c;使用JavaScript来控制<audio>元素的播放和停止。要停止播放音频&#xff0c;使用pause()方法。 以下是一个示例&#xff0c;展示了如何使用JavaScript来停止播放音频&#xff1a; <!DOCTYPE html> <html> <body><audio id&qu…