【验证码识别】Yolov8入门到实战点选验证码数据集分类训练,孪生训练,导出onnx,搭建部署接口

【验证码识别】Yolov8入门到实战点选验证码数据集分类训练,孪生训练,导出onnx,搭建部署接口

文章目录

  • 【验证码识别】Yolov8入门到实战点选验证码数据集分类训练,孪生训练,导出onnx,搭建部署接口
  • 声明
    • 一、标注验证码数据集
      • labelme标注验证码数据集
        • 1直接下载安装包
        • 2通过pip安装labelme
      • half_model_label标注验证码数据集
  • 二 、使用yolov8开始训练
    • yolov8安装使用
    • 目标检测:
    • 导出onnx使用
    • 分类训练
  • 三、孪生训练
      • 问题拆解
      • yolov5训练过程:
      • Siamese训练过程:
      • onnx介绍:
  • 四、搭建部署自己的接口

声明

本文章中所有内容仅供研究、学习交流使用,不能用作其他任何目的,严禁用于商业用途和非法用途,否则一切后果自负,与作者无关。如有侵权请联系作者删除文章

一、标注验证码数据集

labelme标注验证码数据集

1直接下载安装包

github开源地址: Releases · labelmeai/labelme (github.com)

image-20240531143450093

2通过pip安装labelme

如果你使用这种方式推荐conda进行安装虚拟环境,对于深度学习来说会方便很多

conda create -n yolov8 python=3.8
conda activate yolov8
pip install labelme

最后输入 labelme就能弹出打标界面了。

最重要的设置,每次打标都需要打开:

开启自动保存标注结果(不会每次弹窗),取消勾选Save With Image Data不把图像的编码内容保存到标注标签中。

image-20240531144526095

关键保留最后的标注可以继承上一张图的打标的框,不用每次标记图都要重新画框了,还可以保证每个标注图像大小都一样,对于后面的孪生标注很有用。

image-20240531144647500

最后将json格式的标注文件转为我们训练需要的特定格式内容:

{目标类别id} {归一化后的目标中心点x坐标} {归一化后的目标中心点y坐标} {归一化后的目标框宽度w} {归一化后的目标框高度h}。与其他数据不同的是,yolo标签只有类别id,并无具体类别名称,此外,其以相对尺寸描述标注框的xywh信息,不受图像尺寸改变的影响

image-20240531145618417

标注文件中的每一行表示一个边界框(bounding box),假设图像的宽度 W=1000,高度 H=800,有一个边界框:

  1. 类别ID 7:
    • 左上角坐标:(500,400)
    • 右下角坐标:(712, 561)

我们计算第一个边界框的归一化值:
x c e n t e r = 500 + 712 2 ⋅ 1000 = 1212 2000 = 0.606 x_{center} = \frac{500 + 712}{2 \cdot 1000} = \frac{1212}{2000} = 0.606 xcenter=21000500+712=20001212=0.606

y c e n t e r = 400 + 561 2 ⋅ 800 = 961 1600 = 0.600625 y_{center} = \frac{400 + 561}{2 \cdot 800} = \frac{961}{1600} = 0.600625 ycenter=2800400+561=1600961=0.600625

w i d t h = 712 − 500 1000 = 212 1000 = 0.212 width = \frac{712 - 500}{1000} = \frac{212}{1000} = 0.212 width=1000712500=1000212=0.212

h e i g h t = 561 − 400 800 = 161 800 = 0.20125 height = \frac{561 - 400}{800} = \frac{161}{800} = 0.20125 height=800561400=800161=0.20125
最终的到以下结果

<类别ID> <x_center> <y_center> <width> <height>
6 0.606 0.600625 0.212 0.20125

half_model_label标注验证码数据集

这个是有懒佬他们开发的,我觉得挺好用的,功能很多,大家自己去探索下。half_model_label: 半自动模型识别标注

image-20240531154548654

二 、使用yolov8开始训练

yolov8安装使用

在前面的虚拟环境中安装

pip install ultralytics
conda list ultralytics#查看安装情况

官网地址: https://github.com/ultralytics/ultralytics

如果使用gpu训练,安装CUDA、CUDNN、Python、Pytorch、Torchvision 的版本都要要相互对应 Previous PyTorch Versions | PyTorch

目标检测:

from ultralytics import YOLO# Load a model
model = YOLO("yolov8n.yaml")  # build a new model from YAML
model = YOLO("yolov8n.pt")  # load a pretrained model (recommended for training)
model = YOLO("yolov8n.yaml").load("yolov8n.pt")  # build from YAML and transfer weights# Train the model
results = model.train(data="coco8.yaml", epochs=100, cache=True, imgsz=320, batch=16, workers=0, device=device, resume=resume)

训练完模型使用best.pt 进行预测:

在这里插入图片描述

from ultralytics import YOLO# Load a model
model = YOLO("yolov8n.pt")  # load an official model
model = YOLO("path/to/best.pt")  # load a custom model# Predict with the model
results = model("https://ultralytics.com/images/bus.jpg")  # predict on an image

预测的结果相关参数可以去看官方文档:Predict - Ultralytics YOLO Docs

效果还是不错:

image-20240531161155565

导出onnx使用

最后可以导出onnx,注意imgsz=320必须和训练是参数一致。

from ultralytics import YOLO# Load a model
model = YOLO("yolov8n.pt")  # load an official model
model = YOLO("path/to/best.pt")  # load a custom trained model# Export the model
model.export(format="onnx")

分类训练

分类训练主要是准备数据集,如下图:

image-20240531162002078

这个是由9个格子组成的魔方,我们可以这样思考分类

如果不考虑形状,总共有 2的9次方=512 种可能的矩阵这个分类太多了。

转换为数学的方法,我们有对于一个 3x3 的矩阵,有以下几种种对称变换:

  • 顺时针旋转 90 度
  • 水平翻转
  • 垂直翻转
  • 对角线 (左上到右下) 翻转
  • 对角线 (右上到左下) 翻转
    (1 1 1)
    (1 0 1)
    (0 0 0)
    1表示黑色 0表示白色 白色不可见,我们可以算出有102种类别

先分大的类别,我们这里将有几个空格为大类别,0-9进行分类然后再细分

这里提供写的脚本:搭建的一个flask进行分类

# -*- coding: utf-8 -*-
from flask import Flask, jsonify, request, send_from_directory, render_template
import osapp = Flask(__name__)
IMAGE_FOLDER = 'data'
CLASSIFY_FOLDER = 'classify'# 获取图片列表
@app.route('/api/images', methods=['GET'])
def get_images():images = [f for f in os.listdir(IMAGE_FOLDER) if f.endswith('.png')]return jsonify(images)# 处理分类请求
@app.route('/api/classify', methods=['POST'])
def classify_image():data = request.jsonimage_name = data['image']classification = data['classification']classify_folder = os.path.join(os.getcwd(), CLASSIFY_FOLDER)target_folder = os.path.join(classify_folder, classification)if not os.path.exists(target_folder):os.makedirs(target_folder)source_path = os.path.join(IMAGE_FOLDER, image_name)target_path = os.path.join(target_folder, image_name)os.rename(source_path, target_path)return jsonify({'message': 'success'})# 提供图片文件
@app.route('/images/<filename>')
def send_image(filename):#当前文件夹img_path = os.path.join(os.getcwd(), IMAGE_FOLDER)return send_from_directory(img_path, filename)@app.route('/')
def index():return render_template('demo.html')if __name__ == '__main__':app.run(debug=True)

效果如下:输入类别即可

image-20240531163359049

最后在进行细分,我也不知道咋起的名字了,反正这几天打标签人都傻了,红红火火恍恍惚惚哈哈哈哈哈哈哈。

image-20240531160739860

完成细分后进行训练集,测试集,验证集进行划分:

import os
import shutil
from pathlib import Path
from random import shuffle# 定义路径
base_dir = Path(r"D:\data\魔方细分\classify")
train_dir = base_dir / "train"
test_dir = base_dir / "test"
val_dir = base_dir / "val"
for directory in [train_dir, test_dir, val_dir]:directory.mkdir(exist_ok=True)# 遍历前所以文件夹
folders = [f for f in base_dir.iterdir() if f.is_dir()][:-1]
for class_dir in folders:images = list(class_dir.glob('*'))shuffle(images)total_images = len(images)train_count = int(total_images * 0.85)test_count = int(total_images * 0.14)val_count = total_images - train_count - test_count  # 剩余的分配给验证集train_images = images[:train_count]test_images = images[train_count:train_count + test_count]val_images = images[train_count + test_count:](train_dir / class_dir.name).mkdir(exist_ok=True)(test_dir / class_dir.name).mkdir(exist_ok=True)(val_dir / class_dir.name).mkdir(exist_ok=True)for img in train_images:shutil.move(str(img), str(train_dir / class_dir.name / img.name))for img in test_images:shutil.move(str(img), str(test_dir / class_dir.name / img.name))for img in val_images:shutil.move(str(img), str(val_dir / class_dir.name / img.name))shutil.rmtree(class_dir)print("数据集划分完成!")

最后开始分类训练:

from ultralytics import YOLO# Load a model
model = YOLO("yolov8n-cls.yaml")  # build a new model from YAML
model = YOLO("yolov8n-cls.pt")  # load a pretrained model (recommended for training)
model = YOLO("yolov8n-cls.yaml").load("yolov8n-cls.pt")  # build from YAML and transfer weights# Train the model
results = model.train(data="mnist160", epochs=100, imgsz=64)

分类训练没有标签,直接根据文件夹来的,所有是没有yaml文件和标签文件的。他会自动识别你的所有种类进行训练。

训练结果还不错:

image-20240531164200826

image-20240531163817561

三、孪生训练

看了下时间快下班了,大家可以参考一下这个

https://github.com/bubbliiiing/Siamese-pytorch

https://github.com/MgArcher/Text_select_captcha

下面是复制的:


问题拆解

对于点选式验证码的问题,我们可以将其拆解为两个小问题:

1、确定需要点击的字的数量和位置: 对于点选式验证码,准确识别和定位需要点击的字的数量和位置是解决问题的关键。 其中,一种常见的目标检测算法是 YOLO,通过标注数据集和训练模型,可以实现对需要点击的字进行准确识别和定位。本项目采用的是 yolov5 模型,该模型在目标检测方面表现出色,具有高速和较高的准确性。

2、对点击的字进行排序: 在确定出需要点击的字的位置后,需要按照一定的规则对这些字进行排序。采用传统的方案是通过识别图片中的文字,然后按照文字位置进行排序,但这种方法训练困难。因此,本项目采用了图片匹配模型,使用 Siamese 孪生网络对需要点击的字与预先准备好的字库中的字进行匹配,找到最佳匹配的字,并按照一定的规则进行排序。Siamese 孪生网络在图像匹配方面表现优异,能够有效地提高排序的准确性和稳定性。

  • 部分训练集

    百度网盘链接:https://pan.baidu.com/s/1IYfxVpanXyqVQ8ZFVOskrg 提取码:sp97

  • 训练模型

训练代码在下方参考文档中

yolov5训练过程:

训练流程一般包括如下几个步骤:获取训练数据集、数据预处理、模型选择、设置损失函数、反向传播和更新权值等。

对于 YOLO 模型的训练流程,可以参考下方参考文档中的文档。基本流程是,首先下载训练数据集,数据集应该包含带有标注的图像和对应的标注数据。然后使用标注工具对图像进行标注,标注工具可以在 GitHub 上找到。标注的数据应该包括目标的类别和位置信息。

img

yolo标注结果

如图所示,可以对背景图中的文字进行 char 类别的标注,对需要检测的文字进行 target 类别的标注。在训练时,模型会学习如何从图像中定位和识别目标文本。

接下来是选择合适的模型。YOLO 系列模型有多个版本,可以根据不同的需求选择适合的版本。选择好模型后,需要设置损失函数和训练参数,进行模型训练。在训练过程中,需要采用反向传播算法计算损失函数的梯度,并更新权值,以提高模型的预测准确度。本项目使用的预训练模型是yolov5s6

训练结束后,可以将模型保存成 ONNX 格式,以便在推理时进行加载和使用。

img

yolo检测结果

Siamese训练过程:

在使用孪生网络进行图像检索任务的训练前,需要对数据集进行准备。与其他模型不同,孪生网络的训练需要用到正负样本对,因此需要对数据集中的每张图像都生成一些与之匹配和不匹配的样本对。

具体实现时,一般采用已经训练好的检测模型来生成样本对。

具体操作流程如下:首先,使用检测模型对数据集中的图像进行检测,截取出每个目标的图像片段;然后,把该图像片段分别与数据集中的其他目标进行匹配和不匹配的组合,形成匹配和不匹配的样本对;最后,根据样本对的匹配情况对其进行标注,将匹配和不匹配的样本对分别放到不同的文件夹中,按照类别和顺序标注好,方便后续使用。

如下图所示,每张图像都会对应一个匹配和不匹配的样本对,每个样本对包含两张图像,分别作为孪生网络的输入。

img

孪生网络标注结果

训练数据准备好后,具体训练过程可参考下方参考文档中的文档。

同样的,训练结束后,可以将模型保存成 ONNX 格式,以便在推理时进行加载和使用。

img img img img

孪生网络标注结果

如图所示,孪生网络输出的结果可以给出背景图中的目标与右下角的目标最相似的结果,而左下角的目标则可以通过按照左坐标进行排序来得到。由此,可以方便地得到背景图中所有目标的顺序。

  • 推理部署

推理部署过程是将 YOLO 和 Siamese 模型都转换为 ONNX 模型,以便在 CPU 上使用模型,并提高部署难度和运行速度。通过模型转换,可以将模型从原有的深度学习框架中的特定格式转换成 ONNX 格式,使得模型可以在多个平台上使用,并且可以在不同的编程语言之间轻松交互。

onnx介绍:

  ONNX,即开放神经网络交换格式(Open Neural Network Exchange),是一个可以让不同深度学习框架之间互相转换和
使用模型的开放标准。它由 Facebook 和 Microsoft 共同开发,旨在为深度学习模型的部署和迁移提供更加方便和灵活的解决方案。
ONNX 支持包括 PyTorch、TensorFlow、CNTK 和 MXNet 等在内的多个深度学习框架,可以将这些框架训练出的模型转换成
ONNX 格式,从而可以被其他框架或应用所使用。ONNX 的主要优点包括:互操作性好:ONNX 支持多个深度学习框架之间的模型转换,使得它们可以互相使用和部署,从而减少了开发和部署的难度和成本;高效性能:ONNX 可以在多种硬件和软件平台上运行,并提供了 C++和 Python 接口,可以大幅提高模型执行的效率和速度;易于扩展:ONNX 的架构简单清晰,可以轻松地添加新的层次和类型,方便应对不断升级变化的深度学习技术和需求。总之,ONNX 是一个方便快捷的深度学习模型转换和交换标准,可以帮助开发者更加轻松地将深度学习模型进行部署和迁移。

在将模型转换为 ONNX 格式后,对代码进行编译也是必不可少的一步。通过编译,可以将 Python 代码转换成机器语言代码,进一步提高模型的运行效率和速度。同时,也可以减少代码的存储空间,使得模型能够更快地在 CPU 上加载和运行。

四、搭建部署自己的接口

编写docker一键部署,有需要可联系我

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/20391.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

scButterfly:单细胞跨模态翻译

技术限制导致了高噪声的多模态数据。尽管已经提出了计算方法来跨模态翻译单细胞数据&#xff0c;但是这些方法的泛化性仍然受到制约。scButterfly是一种基于双重对齐变分自编码器和数据增强方案的多功能单细胞跨模态翻译方法。通过对多个数据集进行全面的实验&#xff0c;证明了…

工业安全智勇较量,赛宁网安工业靶场决胜工业网络攻防对抗新战场

2024年1月30日&#xff0c;工信部发布《工业控制系统网络安全防护指南》&#xff08;工信部网安〔2024〕14号&#xff09;&#xff0c;围绕安全管理、技术防护、安全运营、责任落实四方面提出安全防护要求&#xff0c;强调聚焦安全薄弱关键环节&#xff0c;强化技术应对策略&am…

大学生社团活动平台系统基于springboot+vue的社团管理系统java项目sprignboot项目

文章目录 大学生社团活动平台一、项目介绍二、部分功能截图三、部分代码展示四、底部获取项目源码&#xff08;9.9&#xffe5;带走&#xff09; 大学生社团活动平台 一、项目介绍 基于springbootvue的前后端分离大学生社团活动平台 系统角色 : 学生、社长、管理员 1、学生…

FENDI CLUB精酿啤酒中原麦汁浓度的高低有何区别?

关于精酿啤酒&#xff0c;有两个关键数据&#xff0c;一个是原麦汁浓度&#xff0c;一个是酒精度。酒精度无非是含酒精的高低&#xff0c;但原麦汁浓度又是什么呢&#xff1f;另外精酿啤酒中原麦汁浓度有高有低&#xff0c;究竟有哪些区别呢&#xff1f; 原麦汁浓度是指啤…

息壤,让全网算力随愿可得

【全球云观察 &#xff5c; 科技热点关注】 当下的AIGC时代&#xff0c;算力领域面临的最大挑战是什么&#xff1f; 对于这个问题&#xff0c;仁者见仁&#xff0c;智者见智。但答案中最吸引业界眼球的莫过于&#xff0c;算力调度。为什么呢&#xff1f; 「因时而生」&#xf…

2006NOIP普及组真题 4. 数列

线上OJ&#xff1a; 【06NOIP普及组】数列 思考&#xff1a; 这道题大概率是一道可以使用“瞪眼法”找到规律的题目。我们尝试把数据补充的更多&#xff0c;以便于寻找规律 当 k3 时&#xff0c;k的幂次为1, 3, 9, 27, 81… 从上述推理中&#xff0c;我们发现要输出的幂次和中…

纯js仿淘宝多图片封面图插件模板/带视频,带放大镜,带前后端完整代码PHP

功能预览,他依赖jq插件,请自已引入 类似这样 <script type"text/javascript" src"/Application/Admin/Static/js/jquery-2.0.3.min.js"></script>一,前端模板代码 <!--多图功能--><style> charset "utf-8"; .wrap_imgs…

Javaweb基础之工程路径

大家好&#xff0c;这里是教授.F 引入&#xff1a; 工程路径有一个知识点需要注意&#xff1a;就是相对路径。所谓相对路径就是依赖当前位置&#xff1a; 相对路径的定位依赖于当前位置或参考位置。 使用相对路径来解决&#xff0c; 一个非常重要的规则&#xff1a;页面所有的…

H6922 2.8C-40V (最低启动电压2.5V)升压BOOST恒压芯片 5V12V24V升压IC

H6922升压BOOST恒压芯片是一款2.8C-40V &#xff08;最低启动电压2.5V&#xff09;升压BOOST恒压芯片 5V12V24V升压IC 首先&#xff0c;H6922的宽输入电压范围&#xff08;2.8-40V&#xff09;和低启动电压&#xff08;最低2.5V&#xff09;使其能够适应不同复杂的电源环境。无…

[书生·浦语大模型实战营]——训练自己的小助手认知+应用部署到 OpenXLab+复现多模态微调

1.训练自己的小助手认知 微调后的回答&#xff1a; 微调前的回答&#xff1a; 2.应用部署到 OpenXLab 上传的自我认知模型 应用部署在OpenXLab&#xff08;比上次部署方便不少&#xff0c;文档写的更清楚了&#xff0c;棒棒&#xff09;,链接如下应用链接 3.复现多模态…

普通人想自学Python?没弄清楚这些,我劝你还是算了吧......

自学Python&#xff0c;为何你值得一试&#xff1f; 在这个瞬息万变的时代&#xff0c;我们常常听到这样的声音&#xff1a;“自学Python&#xff1f;一般人我还是劝你算了吧。” 这样的言论&#xff0c;仿佛是一堵高墙&#xff0c;阻挡着那些怀揣梦想、渴望探索的普通人。然…

谷粒商城实战(031 业务-秒杀功能2)

Java项目《谷粒商城》架构师级Java项目实战&#xff0c;对标阿里P6-P7&#xff0c;全网最强 总时长 104:45:00 共408P 此文章包含第315p-第p318的内容 秒杀上架 定时上架功能 EnableAsync 异步 EnableScheduling 定时调度 Configuration 配置类 创建上架定时任务类和方法 …

408数据结构-图的存储与基本操作 自学知识点整理

前置知识&#xff1a;图的基本概念 图的存储必须完整、准确地反映顶点集和边集的信息。根据不同图的结构和算法&#xff0c;采用不同的存储方式将对程序的效率产生相当大的影响&#xff0c;因此选取的存储结构应适合于待求解的问题。 图的存储 邻接矩阵法 所谓邻接矩阵存储&a…

了解m4s格式

正常在hls V7 和 DASH中都会使用m4s存放数据。他们使用fmp4的方式来存放信息&#xff1a; fmp4格式 &#xff1a; 一、hls V7介绍 1. 包含的文件&#xff1a; 2. prog_index.m3u8中 指明了 init.mp4与 上面各个.m4s文件的关系&#xff0c;具体内容为&#xff1a; 其中init.mp…

[数据集][图像分类]轮胎纹理识别裂纹和正常轮胎分类数据集1028张2类别

数据集类型&#xff1a;图像分类用&#xff0c;不可用于目标检测无标注文件 数据集格式&#xff1a;仅仅包含jpg图片&#xff0c;每个类别文件夹下面存放着对应图片 图片数量(jpg文件个数)&#xff1a;1028 分类类别数&#xff1a;2 类别名称:["cracked","norma…

容器技术基础理论与常用命令:必知必会,效率翻倍!

如何利用容器技术提升你的工作效率&#xff1f;掌握基础理论和常用命令是必不可少的&#xff0c;本文将为你全面介绍容器技术&#xff0c;并教你必知必会的技能&#xff0c;让你工作、学习效率翻倍&#xff0c;对于网络安全工作者也是必不可少的技能&#xff01; 0. 引言 学习…

【Mac版】Java生成二维码

软件版本 IntelliJ IDEA&#xff1a;2023.2 JDK&#xff1a;17 Tomcat&#xff1a;10.1.11 Maven&#xff1a;3.9.3 技术栈 servlet谷歌的&#xff1a;zxing 生成普通的黑白二维码在二维码中间添加一个小图标 github开源项目&#xff1a;qrcode qrcode开源项目的内部是基于z…

一些关于深度聚类以及部分对比学习的论文阅读笔记

目录 资料SwAV问题方法方法的创新点为什么有效有什么可以借鉴的地方聚类Multi-crop 代码 PCL代码 Feature Alignment and Uniformity for Test Time Adaptation代码 SimSiam 资料 深度聚类算法研究综述(很赞&#xff0c;从聚类方法和深度学习方法两个方面进行了总结&#xff0…

STL中stack的使用

目录 一、stack类介绍和使用 stack类介绍 stack类定义 stack类常见构造函数 stack数据操作 empty()函数 top() pop() 和 push() 函数 size()函数 swap()函数 一、stack类介绍和使用 stack类介绍 1.stack是一种容器适配器&#xff0c;专门用在具有后进先出操作的上下…

Python 关于字符串格式化

在Python中&#xff0c;字符串格式化有以下几种方法&#xff1a; 1.可以使用字符串的str.center(width), str.ljust(width), 和 str.rjust(width)方法来实现字符串的居中、左对齐和右对齐操作。 居中对齐&#xff1a; text "Python" centered_text text.center(10…