YOLOv10目标检测-训练自己的数据

yolov10
https://github.com/THU-MIG/yolov10?tab=readme-ov-file

1. 数据集

模型的建立需要收集图片并且进行标注。YOLOv10标注的文件格式如下(每张图片对应一个标签文件):
在这里插入图片描述

0 0.441753 0.815461 0.061021 0.042763
1 0.395895 0.759868 0.066198 0.046053
2 0.497781 0.744737 0.060651 0.039474
0 0.575629 0.787171 0.059541 0.042763
<object-class-id> <x> <y> <width> <height>

第一个数字表示目标框的类别(如类别0,1,2,…),后面四个长数字代表:标记框中心点的横纵坐标(x, y),标记框宽高的大小(w, h),且都是归一化后的值(图片左上角为坐标原点)。

1.1 标注工具

数据标注的工具有很多,比如LabelImg,LableMe,VIA等,在线标注工具Make Sense

1.2 格式转换

from PIL import Imagedef convert_to_yolo_format(bbox, img_size, class_id):"""将目标框 [xmin, ymin, xmax, ymax] 转换为 YOLO 格式参数:bbox: list,目标框的坐标 [xmin, ymin, xmax, ymax];img_size: img_width: 图像的宽度, img_height: 图像的高度;class_id: 目标的类别 ID返回:str: YOLO 格式的标注"""xmin, ymin, xmax, ymax = bboximg_width, img_height = img_size# 计算中心坐标和宽度、高度x_center = (xmin + xmax) / 2y_center = (ymin + ymax) / 2width = xmax - xminheight = ymax - ymin# 归一化坐标和尺寸x_center_normalized = x_center / img_widthy_center_normalized = y_center / img_heightwidth_normalized = width / img_widthheight_normalized = height / img_height# 返回 YOLO 格式的字符串return f"{class_id} {x_center_normalized:.6f} {y_center_normalized:.6f} {width_normalized:.6f} {height_normalized:.6f}"def write_to_yolo_txt(img_path, bboxes, classes, file_path):"""将多个目标框转换为 YOLO 格式并写入 .txt 文件"""with Image.open(img_path) as img:# img_width, img_height = img.sizeimg_size = img.sizewith open(file_path, 'w') as f:for i in range(len(bboxes)):bbox = bboxes[i]yolo_format = convert_to_yolo_format(bbox, img_size, classes[i])f.write(yolo_format + '\n')# 示例数据
bboxes = [[404, 233, 497, 326], [308, 233, 401, 329]]
img_path = "./data/0a1a9c2e5a64f54b5f5899f5114bdc6549b6.jpg"
classes = [0, 0]
output_file = 'output.txt'
write_to_yolo_txt(img_path, bboxes, classes, output_file)

voc(xml)转yolo格式

import os
import json
import argparse
import sys
import shutil
from lxml import etree
from tqdm import tqdmcategory_set = set()
image_set = set()
bbox_nums = 0def parse_xml_to_dict(xml):"""将xml文件解析成字典形式,参考tensorflow的recursive_parse_xml_to_dictArgs:xml: xml tree obtained by parsing XML file contents using lxml.etreeReturns:Python dictionary holding XML contents."""if len(xml) == 0:  # 遍历到底层,直接返回tag对应的信息return {xml.tag: xml.text}result = {}for child in xml:child_result = parse_xml_to_dict(child)  # 递归遍历标签信息if child.tag != 'object':result[child.tag] = child_result[child.tag]else:if child.tag not in result:  # 因为object可能有多个,所以需要放入列表里result[child.tag] = []result[child.tag].append(child_result[child.tag])return {xml.tag: result}def xyxy2xywhn(bbox, size):bbox = list(map(float, bbox))size = list(map(float, size))xc = (bbox[0] + (bbox[2] - bbox[0]) / 2.) / size[0]yc = (bbox[1] + (bbox[3] - bbox[1]) / 2.) / size[1]wn = (bbox[2] - bbox[0]) / size[0]hn = (bbox[3] - bbox[1]) / size[1]return (xc, yc, wn, hn)def parser_info(info: dict, only_cat=True, class_indices=None):filename = info['annotation']['filename']image_set.add(filename)objects = []width = int(info['annotation']['size']['width'])height = int(info['annotation']['size']['height'])for obj in info['annotation']['object']:obj_name = obj['name']category_set.add(obj_name)if only_cat:continuexmin = int(obj['bndbox']['xmin'])ymin = int(obj['bndbox']['ymin'])xmax = int(obj['bndbox']['xmax'])ymax = int(obj['bndbox']['ymax'])bbox = xyxy2xywhn((xmin, ymin, xmax, ymax), (width, height))if class_indices is not None:obj_category = class_indices[obj_name]object = [obj_category, bbox]objects.append(object)return filename, objectsvoc_dir = "./data/Annotations"
txt_dir = "./data/txt"
image_dir = "./data/Images"class_ind = {"person": 0}xml_files = [os.path.join(voc_dir, i) for i in os.listdir(voc_dir) if os.path.splitext(i)[-1] == '.xml']
for xml_file in xml_files:with open(xml_file, 'rb') as fid:xml_str = fid.read()xml = etree.fromstring(xml_str)info_dict = parse_xml_to_dict(xml) filename, objects = parser_info(info_dict, only_cat=False, class_indices=class_ind) # 273.jpeg [[0, (0.411, 0.7448418156808804, 0.21, 0.14718019257221457)], [0, (0.688, 0.7895460797799174, 0.212, 0.1485557083906465)]]image_p = image_dir + "/" + filenametxt_p = image_dir + "/" + os.path.splitext(os.path.basename(xml_file))[0] + ".txt"#################### 写入txtwith open(txt_p, 'w') as f:for obj in objects:f.write("{} {:.6f} {:.6f} {:.6f} {:.6f}\n".format(obj[0], obj[1][0], obj[1][1], obj[1][2], obj[1][3]))

参考:
https://blog.csdn.net/mywhyyds/article/details/143831918
https://blog.csdn.net/festaw/article/details/138039269

1.3 数据

1.3.1 数据集

在根目录下建data文件夹,存放数据,将原本数据集按照7:2:1的比例划分成训练集、验证集和测试集三类
在这里插入图片描述

import os
import random
import shutil# 创建文件夹
# dataset_path = "/data3/guoman/pay_check/seal_model/seal_detection/yolov10/data/dataset1"
# train_images_path = os.path.join(dataset_path,"train/images")
# train_labels_path = os.path.join(dataset_path,"train/labels")
# valid_images_path = os.path.join(dataset_path,"valid/images")
# valid_labels_path = os.path.join(dataset_path,"valid/labels")
# test_images_path = os.path.join(dataset_path,"test/images")
# test_labels_path = os.path.join(dataset_path,"test/labels")# os.makedirs(train_images_path, exist_ok=True)
# os.makedirs(train_labels_path, exist_ok=True)
# os.makedirs(valid_images_path, exist_ok=True)
# os.makedirs(valid_labels_path, exist_ok=True)
# os.makedirs(test_images_path, exist_ok=True)
# os.makedirs(test_labels_path, exist_ok=True)# 设置目录路径
image_dir = 'D:/ModelsDatas/test/allimgs'  # 改成你自己的原图片目录
label_dir = 'D:/ModelsDatas/test/alllables'  # 改成你自己的原标签目录# 获取图片和txt文件列表
images = os.listdir(image_dir)
labels = os.listdir(label_dir)# 设置随机种子,确保结果可复现
random.seed(2024)
# 随机打乱图片列表
random.shuffle(images)# 计算训练集、验证集和测试集的数量
total_images = len(images)
train_count = int(total_images * 0.7)
val_count = int(total_images * 0.2)
test_count = total_images - train_count - val_count# 分配文件到训练集、验证集和测试集
train_images = images[:train_count]
val_images = images[train_count:train_count + val_count]
test_images = images[train_count + val_count:]# 移动文件到对应的目录
for image in train_images:# 移动图片和标签到训练集目录shutil.move(os.path.join(image_dir, image), 'D:/ModelsDatas/YOLO_datasets/train/images') # 请改成你自己的训练集存放图片的文件夹目录shutil.move(os.path.join(label_dir, image[:-4]+'.txt'), 'D:/ModelsDatas/YOLO_datasets/train/labels')# 请改成你自己的训练集存放标签的文件夹目录for image in val_images:# 移动图片和标签到验证集目录shutil.move(os.path.join(image_dir, image), 'D:/ModelsDatas/YOLO_datasets/valid/images')# 请改成你自己的验证集存放图片的文件夹目录shutil.move(os.path.join(label_dir, image[:-4] + '.txt'), 'D:/ModelsDatas/YOLO_datasets/valid/labels')# 请改成你自己的验证集存放标签的文件夹目录for image in test_images:# 移动图片和标签到测试集目录shutil.move(os.path.join(image_dir, image), 'D:/ModelsDatas/YOLO_datasets/test/images')# 请改成你自己的测试集存放图片的文件夹目录shutil.move(os.path.join(label_dir, image[:-4] + '.txt'), 'D:/ModelsDatas/YOLO_datasets/test/labels')# 请改成你自己的测试集存放标签的文件夹目录

1.3.2 数据集文件配置

准备yaml文件,放在data路径下,用于后续训练

names: # class names- 0:fish # 类别号: 类别名称 (需要改成自己的)#-1:cat #如果还有其他类别,以此往下加就行了,类别号请认真和自己当时目标框labels文件中的一一对应#-2:dog
nc: 1 # number of classes 数据集中一共有几个类别,参考上面说的
path: ultralytics/datasets/det/fish2 # 数据集路径(需要改成自己的,也就是train、test和valid目录的上级目录)
train: train/images # 训练集路径(相对于数据集路径)
val: valid/images # 验证集路径(相对于数据集路径)
test: test/images # 测试集路径(相对于数据集路径)

2. 模型

2.1 模型文件配置

在ultralytics/cfg/models/v10文件夹下存放的是YOLOv10的各个版本的模型配置文件,检测的类别是coco数据的80类。在训练自己数据集的时候,只需要将其中的类别数修改成自己的大小。在根目录文件夹下新建yolov10n-test.yaml文件,此处以yolov10n.yaml文件中的模型为例,将其中的内容复制到yolov10n-test.yaml文件中 ,并将nc: 1 # number of classes 修改类别数` 修改成自己的类别数
在这里插入图片描述

2.2 训练文件配置

在进行模型训练之前,需要到官网下载预训练权重,权重地址为:Releases · THU-MIG/yolov10 · GitHub

根据所选择的模型下载相应的权重,比如yolov10n.pt,放在根目录weights/yolov10n.pt路径下。

YOLOv10的超参数配置在ultralytics/cfg文件夹下的default.yaml文件中。

YOLOv10有多种模型,可满足不同的应用需求:

  • YOLOv10-N:用于资源极其有限的环境的纳米版本。
  • YOLOv10-S:兼顾速度和精度的小型版本。
  • YOLOv10-M:通用中型版本。
  • YOLOv10-B:平衡型,宽度增加,精度更高。
  • YOLOv10-L:大型版本,精度更高,但计算资源增加。
  • YOLOv10-X:超大型版本可实现高精度和性能。

3. 模型训练

3.1 train(不对)

python train.py --weights weights/yolov5s.pt  --cfg models/yolov5s.yaml  --data data/myvoc.yaml --epoch 200 --batch-size 8 --img 640   --device 0

参数说明如下(注意epochs及device):

  • weights:指定预训练模型权重文件的路径。
  • cfg:模型配置文件的路径,定义网络结构。
  • data:数据集配置文件的路径。
  • epochs:训练的轮数,即模型将完整遍历数据集的次数(例如:200)。
  • batch-size:批次大小,即每次训练中处理的图片数量(例如:8)。
  • img:输入图像的尺寸,指定训练时图像的宽和高(例如:640)。
  • device:指定使用的设备,输入 cpu 表示在 CPU 上进行训练;输入数字如 0, 1, 2, 3 则表示对应的 GPU 编号。例如:
    (1)device 0 表示使用默认第一个 GPU;
    (2)device 0,1 表示同时使用第一个和第二个 GPU(适合多 GPU 训练)。
    (3)当有多个 GPU 时,可以通过 nvidia-smi 命令查看每个 GPU 的编号。

3.2 train

train.py

import warnings
warnings.filterwarnings('ignore')
from ultralytics import YOLOv10model_yaml_path = r'D:\project\yolov10-main\datasets\yolov10n.yaml'data_yaml_path = r'D:\project\yolov10-main\datasets\data.yaml'
#预训练模型
pre_model_name = 'yolov10n.pt'if __name__ == '__main__':model = YOLOv10(model_yaml_path).load(pre_model_name)results = model.train(data=data_yaml_path,epochs=100,batch=32,workers=0,device='0',project='runs/train',name='exp',)

4. 验证

from ultralytics import YOLOv10model = YOLOv10('./runs/train/exp5/weights/best.pt')
model.val(data='./data/dataset1/myvoc.yaml', batch=256)

5. 测试

from ultralytics import YOLOv10yolo = YOLOv10("./runs/train/exp5/weights/best.pt",task="detect")
result = yolo(source="./data/dataset1/test/images",save=True,save_conf=True,save_txt=True,name='output')

source后为要预测的图片数据集的的路径
save=True为保存预测结果
save_conf=True为保存坐标信息
save_txt=True为保存txt结果

6. 推理

from ultralytics import YOLOv10# Load a pretrained YOLOv10n model
model = YOLOv10("./runs/train/exp5/weights/best.pt")# Perform object detection on an image
results = model.predict("data/dataset1/test/images/f14e45acc1484e3a7b0ee890196e5bfd.jpg")
# Display the results
results[0].show()

参考:
https://blog.csdn.net/tqh267/article/details/139283703
https://openatomworkshop.csdn.net/6743dd743a01316874d7605d.html
https://blog.csdn.net/Natsuago/article/details/143647392
https://cloud.tencent.com/developer/article/2425073
https://blog.csdn.net/weixin_43694096/article/details/139422902
https://blog.csdn.net/c858845275/article/details/141089142
https://blog.csdn.net/tsg6698/article/details/139586476
https://developer.aliyun.com/article/1536979

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/65541.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《机器学习》——KNN算法

文章目录 KNN算法简介KNN算法——sklearnsklearn是什么&#xff1f;sklearn 安装sklearn 用法 KNN算法 ——距离公式KNN算法——实例分类问题完整代码——分类问题 回归问题完整代码 ——回归问题 KNN算法简介 一、KNN介绍 全称是k-nearest neighbors&#xff0c;通过寻找k个距…

如何在 Ubuntu 22.04 上安装和使用 Composer

简介 如果你是一名 PHP 开发者&#xff0c;想要简化你的项目依赖管理&#xff0c;那么 Composer 是一个必不可少的工具。Composer 可以简化包管理&#xff0c;并允许你轻松地将外部库集成到你的项目中。 本教程将向你展示如何在 Ubuntu 22.04 操作系统上安装 Composer&#x…

139.《python中的正则详解》

文章目录 什么是正则正则表达式语法正则demo1.匹配模式2.finditer3.正则分组4.非捕获组5.分组的引用6. 正则替换7.正则切割7.正则「或」7.枚举取反 面试题 前言: 拉开差距的不是上班的8小时,而是下班后的16小时,同志们,加油,卷起!!! 什么是正则 1.正则表达式是一种高级文本处理…

大语言模型(LLM)中大数据的压缩存储及其重要性

在大型语言模型&#xff08;LLM&#xff09;中&#xff0c;KV Cache&#xff08;键值缓存&#xff09;的压缩方法及其重要性。 为什么要压缩KV Cache&#xff1f; 计算效率&#xff1a;在生成文本的过程中&#xff0c;每个生成的token都需要与之前所有的token的键值&#xff…

『大模型笔记』评估大型语言模型的指标:ELO评分,BLEU,困惑度和交叉熵介绍以及举例解释

评估大型语言模型的指标:ELO评分,BLEU,困惑度和交叉熵介绍以及举例解释 文章目录 一. ELO Rating大模型的elo得分如何理解1. Elo评分的基本原理2. 示例说明3. 大模型中的Elo得分总结3个模型之间如何比较计算,给出示例进行解释1. 基本原理扩展到三方2. 示例计算第一场: A A…

高效使用AI完成编程项目任务的指南:从需求分析到功能实现

随着人工智能工具的普及&#xff0c;即便是零编程基础或基础薄弱的用户&#xff0c;也可以借助AI完成许多技术任务。然而&#xff0c;要高效地使用AI完成编程任务&#xff0c;关键在于如何清晰表达需求&#xff0c;并逐步引导AI实现目标。 在本文中&#xff0c;我们将通过开发…

【视觉惯性SLAM:四、相机成像模型】

相机成像模型介绍 相机成像模型是计算机视觉和图像处理中的核心内容&#xff0c;它描述了真实三维世界如何通过相机映射到二维图像平面。相机成像模型通常包括针孔相机的基本成像原理、数学模型&#xff0c;以及在实际应用中如何处理相机的各种畸变现象。 一、针孔相机成像原…

【Compose multiplatform教程18】多平台资源的设置和配置

要正确配置项目以使用多平台资源&#xff0c;请执行以下操作&#xff1a; 添加库依赖项。 为每种资源创建必要的目录。 为限定资源创建其他目录&#xff08;例如&#xff0c;深色 UI 主题或本地化字符串的不同图像&#xff09;。 依赖项和目录设置 要访问多平台项目中的资源…

RabbitMQ工作模式(详解 工作模式:简单队列、工作队列、公平分发以及消息应答和消息持久化)

文章目录 十.RabbitMQ10.1 简单队列实现10.2 Work 模式&#xff08;工作队列&#xff09;10.3 公平分发10.4 RabbitMQ 消息应答与消息持久化消息应答概念配置 消息持久化概念配置 10.5 订阅模式广播模式路由模式主题模式&#xff08;通配符模式&#xff09; 10.6 消息确认机制1…

Excel for Finance 07 `FV PV` 函数

Excel 的 FV 函数用于计算一笔投资在未来的价值&#xff0c;基于固定的利率和定期付款。这是一个金融函数&#xff0c;常用来分析储蓄计划、贷款、或投资的增长。 语法&#xff1a; FV(rate, nper, pmt, [pv], [type])参数说明&#xff1a; rate&#xff08;必需&#xff09;&…

React(二)——注册页/登录页/Reducer/

文章目录 项目地址一、使用Yarn安装所有环境二、文件结构以及路由配置三、登录和注册3.1 注册页面3.1.1 静态页面3.1.2 表单提交useSate3.2 登录页面3.3 admin 的登录页面四、关于auth登录和注册的Reducer4.1 authReducer创建4.2 根rootReducer的创建4.3 创建和配置Redux的stor…

每天五分钟深度学习框架pytorch:越来越深的卷积神经网络模型VGG

本文重点 前面我们使用pytorch搭建了卷积神经网络LeNet-5,AlexNet,本文我们学习卷积神经网络VGG,VGG相比于前面的两个神经网络而言比较深,我们知道网络模型越深那么就难以训练,但是VGG效果比较好。 Vgg使用了更小的滤波器,同时使用了更深的网络结构,AlexNet只有8层网络结…

小程序配置文件 —— 12 全局配置 - pages配置

全局配置 - pages配置 在根目录下的 app.json 文件中有一个 pages 字段&#xff0c;这里我们介绍一下 pages 字段的具体用法&#xff1b; pages 字段&#xff1a;用来指定小程序由哪些页面组成&#xff0c;用来让小程序知道由哪些页面组成以及页面定义在哪个目录&#xff0c;…

从0到100:基于Java的大学选修课选课小程序开发笔记(上)

背景 为学生提供便捷的课程选择方式&#xff0c;并帮助学校进行课程管理和资源调配&#xff1b;主要功能包括&#xff1a;课程展示&#xff0c;自主选课&#xff0c;取消选课&#xff0c;后台录入课程&#xff0c;统计每门课程报名情况&#xff0c;导出数据&#xff0c;用户管…

Dify服务器部署教程

Dify的github地址: https://github.com/langgenius/dify 服务器要求&#xff1a;2c4g 1、克隆仓库 可以通过命令或者下载zip解压后上传服务器都行 git clone https://github.com/langgenius/dify.git 2、docker启动 cd dify/dockercp .env.example .envdocker compose up -d…

Mac 12.1安装tiger-vnc问题-routines:CRYPTO_internal:bad key length

背景&#xff1a;因为某些原因需要从本地mac连接远程linxu桌面查看一些内容&#xff0c;必须使用桌面查看&#xff0c;所以ssh无法满足&#xff0c;所以决定安装vnc客户端。 问题&#xff1a; 在mac上通过 brew install tiger-vnc命令安装, 但是报错如下&#xff1a; > D…

大模型WebUI:Gradio全解系列9——Additional Features:附加功能(上)

大模型WebUI&#xff1a;Gradio全解系列9——Additional Features&#xff1a;附加功能&#xff08;上&#xff09; 前言本篇摘要9. Additional Features&#xff1a;附加功能9.1 队列9.1.1 使用方法9.1.2 配置队列演示 9.2 输入输出流9.2.1 输出流1. 生成器yield2. 流媒体 9.2…

Java - 日志体系_Apache Commons Logging(JCL)日志接口库_桥接Logback 及 源码分析

文章目录 PreApache CommonsApache Commons ProperLogging &#xff08;Apache Commons Logging &#xff09; JCL 集成logbackPOM依赖配置文件 logback.xml使用 源码分析jcl-over-slf4j 的工作原理1. LogFactory 的实现2. SLF4JLogFactory 和 Log 的实例化过程3. SLF4JLog 和 …

文档大师:打造一站式 Word 报告解决方案1

前言 在政府、医院、银行、财务以及销售等领域&#xff0c;常常需要创建各种报告文件来展开工作汇报&#xff0c;譬如季度销售报告、年度总结报告、体检报告和保险合同等。在没有报表工具支持之前&#xff0c;这类报告主要通过 Word 制作&#xff0c;费时费力且难以维护&#…

阿尔萨斯(JVisualVM)JVM监控工具

文章目录 前言阿尔萨斯(JVisualVM)JVM监控工具1. 阿尔萨斯的功能2. JVisualVM启动3. 使用 前言 如果您觉得有用的话&#xff0c;记得给博主点个赞&#xff0c;评论&#xff0c;收藏一键三连啊&#xff0c;写作不易啊^ _ ^。   而且听说点赞的人每天的运气都不会太差&#xff…