关于图像分类任务中划分数据集,并且生成分类类别的josn字典文件

1. 前言

在做图像分类任务的时候,数据格式是文件夹格式,相同文件夹下存放同一类型的类别

不少网上的数据,没有划分数据集,虽然代码简单,每次重新编写还是颇为麻烦,这里记录一下

如下,有的数据集这样摆放:

可以看出这是个三分类任务,不过没有划分测试集、验证集

代码存放位置:和数据集dataset 同一路径

2. 完整代码

如下:

import random
import os
import shutil
from tqdm import tqdm
import jsondef split_data(root, test_rate, flag=True):# 待分类数据的当前目录classes_directory = [i for i in os.listdir(root) if os.path.isdir(os.path.join(root, i))]# 建立生成后的目录,方便拷贝for i in classes_directory:os.makedirs(os.path.join('./data/train', i))  # 训练集os.makedirs(os.path.join('./data/test', i))  # 测试集# 是否生成类别的 json 字典文件,默认生成if flag:class_indices = dict((k, v) for v, k in enumerate(classes_directory))json_str = json.dumps(dict((val, key) for key, val in class_indices.items()), indent=4)with open('class_indices.json', 'w') as json_file:json_file.write(json_str)# 遍历每个文件夹下的文件for cla in classes_directory:cla_path = os.path.join(root, cla)  # 每个文件夹的路径images_path = [os.path.join(root, cla, i) for i in os.listdir(cla_path)]# 按比例随机采样测试集样本test_split_path = random.sample(images_path, k=int(len(images_path) * test_rate))# 划分数据for i in tqdm(images_path, desc=cla):if i in test_split_path:shutil.copy(i, os.path.join('./data/test', cla))else:shutil.copy(i, os.path.join('./data/train', cla))if __name__ == '__main__':rawDataSet = './dataset'  # 原始数据的路径if os.path.exists('./data'):  # 如果之前有,那么删除shutil.rmtree('./data')os.makedirs('./data/train')os.makedirs('./data/test')# 划分数据split_data(root=rawDataSet, test_rate=0.2)

运行代码过程:

运行结果:

生成的json文件:

3. 代码介绍

首先,rawDataSet 传入的是待划分的数据集根目录,这里会将之前划分的删掉,这样每次生成的结果不一样。训练集和测试集的比例为0.2

这里按照本人平时的习惯,划分好的目录结构如下

--data-train- 不同类别的文件夹

--data-test- 不同类别的文件夹

接下来这部分是读取每个子文件夹,或者说分类的classes(因为分类任务的文件夹就是class)

这里根据子文件夹名生成对应的json字典文件

划分数据,测试集会根据总数据的个数 * 划分比例 (test_rate)

遍历全部的数据,如果目标在测试集,那么就是测试集数据;否则为训练数据

如果是目标检测或者分割,数据和标签是分开的单独文件,划分的过程类似,后续会看着写写看

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/602442.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大语言模型的幻觉:解析、成因及解决方法

目录 前言1 大语言模型的幻觉现象解析1.1 输入冲突幻觉(Input-conflicting)1.2 上下文冲突幻觉(Context-conflicting)1.3 事实冲突幻觉(Fact-conflicting) 2 幻觉产生的原因2.1 数据偏差和模型缺陷2.2 知识…

“人家赚那么多”系列03:如何慢速练习?

01 慢速练习 慢速练习是学习和发展中常用的基本技巧。 比如说,当你初学吉他时,开始时肯定是以比预期速度慢得多的节奏,逐段逐段地演奏,随着每次的重复,逐渐增加速度,直到完全达到正确的速度。 回想学习英语…

基于SpringBoot的在线考试系统绿色

文章目录 项目介绍主要功能截图:部分代码展示设计总结项目获取方式🍅 作者主页:超级无敌暴龙战士塔塔开 🍅 简介:Java领域优质创作者🏆、 简历模板、学习资料、面试题库【关注我,都给你】 🍅文末获取源码联系🍅 项目介绍 基于SpringBoot的在线考试系统绿色,java…

如何发布自己的golang库

如何发布自己的golang库 1、在 github/gitee 上创建一个 public 仓库,仓库名与 go 库名一致,然后将该仓库 clone 到本地。 本文这里使用 gitee。 $ git clone https://gitee.com/zsx242030/goutil.git2、进入项目文件夹,进行初始化。 $ go…

uniapp微信小程序投票系统实战 (SpringBoot2+vue3.2+element plus ) -后端鉴权拦截器实现

锋哥原创的uniapp微信小程序投票系统实战: uniapp微信小程序投票系统实战课程 (SpringBoot2vue3.2element plus ) ( 火爆连载更新中... )_哔哩哔哩_bilibiliuniapp微信小程序投票系统实战课程 (SpringBoot2vue3.2element plus ) ( 火爆连载更新中... )共计21条视频…

不给病毒留空子:保护您的数据免受.mallox勒索病毒威胁

尊敬的读者: 在数字时代,勒索病毒成为网络安全的一大威胁,而.mallox 勒索病毒以其狡猾和高度破坏性而备受关注。本文将深入介绍.mallox 勒索病毒的特征、威胁以及如何恢复被加密的数据,并提供一系列有效的预防措施。 在面对被勒索…

离线部署的MinIO

网络有不同的部分,例如 DMZ、公共、私有、堡垒等。这实际上取决于您的组织和网络要求。在部署应用程序时,任何应用程序,我们都需要考虑类型以及它是否需要位于网络的特定部分。 例如,如果要部署数据库,则不希望它位于…

CSS基础笔记-03选择器

CSS基础笔记系列 《CSS基础笔记-01CSS概述》《CSS基础笔记-02动画》 前言 在前面两篇博客中,我实际上已经使用过了选择器。但到底什么是选择器、有什么作用,我反而不能表达出来。因此,决定记录了我的学习和思考。 什么是选择器 selector…

计算机毕业设计 SpringBoot的一站式家装服务管理系统 Javaweb项目 Java实战项目 前后端分离 文档报告 代码讲解 安装调试

🍊作者:计算机编程-吉哥 🍊简介:专业从事JavaWeb程序开发,微信小程序开发,定制化项目、 源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事,生活就是快乐的。 🍊心愿:点…

前端axios封装和跨域问题

项目背景:uniappvue3tsvitepiniavant 1. 安装axios npm i axios2. 封装axios 创建一个名为http.ts的文件 import { ref } from "vue"; import axios from "axios";// 创建一个可以同步访问的 token 变量 export const token ref(null);// …

blender Principled BSDF

Principled BSDF是一种基于物理的着色器,它使用金属工作流,而不是镜面工作流。金属工作流假设金属材质没有漫反射分量,只有镜面反射分量,而非金属材质有漫反射和镜面反射分量。Metallic属性用于控制材质是金属还是非金属&#xff…

深入浅出 Zookeeper 中的 ZAB 协议

本文主要内容如下: ZAB 协议的全称是 Zookeeper Atomic Broadcase,原子广播协议。 作用:通过这个 ZAB 协议可以进行集群间主备节点的数据同步,保证数据的一致性。 在讲解 ZAB 协议之前,我们必须要了解 Zookeeper 的各…

在oracle中如何删除表中数据

oracle数据库,mysql数据库都是drop命令>truncate命令>delete命令,他们的执行方式、效率和结果各有不同。下面我们就来看看吧 一、drop命令 语句drop table 表名 说明: 1.用drop删除表数据,不但会删除表中的数据&#xff0c…

解决Canvas画图清晰度问题

最近在开发Web端远程桌面的时候遇到的一个问题,解决记录一下,分享给各位有需要用到的朋友。 先吹下水:远程桌面的连接我们是通过Websocket连接后,后端不断返回远程端的界面二进制数据流,我接收到之后转为图像&#xf…

window服务器thinkphp队列监听服务

经常使用linux的同学们应该对使用宝塔来做队列监听一定非常熟悉,但对于windows系统下,如何去做队列的监听?是一个很麻烦的事情。 本文将通过windows系统的服务来实现队列的监听。 对于thinkphp6 queue如何使用,不再赘述。其它系…

HDU 2841:Visible Trees ← 容斥原理

【题目来源】http://acm.hdu.edu.cn/showproblem.php?pid2841【题目描述】 There are many trees forming a m * n grid, the grid starts from (1,1). Farmer Sherlock is standing at (0,0) point. He wonders how many trees he can see. If two trees and Sherlock are in…

Windows系统如何使用VNC远程连接Deepin桌面【内网穿透】

文章目录 1. 安装x11vnc2. 本地远程连接测试3. Deepin安装Cpolar4. 配置公网远程地址5. 公网远程连接Deepin桌面6. 固定连接公网地址7. 固定公网地址连接测试 x11vnc是一种在Linux系统中实现远程桌面控制的工具,它的原理是通过X Window系统的协议来实现远程桌面的展…

跟随chatgpt从零开始安装git(Windows系统)

为什么我们要安装Git?Git有什么用? 1. 版本控制:Git 可以追踪代码的所有变化,记录每个提交的差异,使您能够轻松地回溯到任何历史版本或比较不同版本之间的差异。 2. 分支管理:通过 Git 的分支功能&#xff…

C++ Qt开发:Charts与数据库组件联动

Qt 是一个跨平台C图形界面开发库,利用Qt可以快速开发跨平台窗体应用程序,在Qt中我们可以通过拖拽的方式将不同组件放到指定的位置,实现图形化开发极大的方便了开发效率,本章将重点介绍Charts组件与QSql数据库组件的常用方法及灵活…

wordpress个人博客/杂志主题Pin Premium

Pin Premium WordPress主题是针对博主的时尚且自适应的Pinterest风格主题。使用HTML5和CSS3技术创建,带有有效代码(两个演示),完全响应,在所有移动设备上看起来完美,可在任何设备和 PC 上轻松使用。 响应式设计针对平板电脑和智能…