关于图像分类任务中划分数据集，并且生成分类类别的josn字典文件

1. 前言

在做图像分类任务的时候，数据格式是文件夹格式，相同文件夹下存放同一类型的类别

不少网上的数据，没有划分数据集，虽然代码简单，每次重新编写还是颇为麻烦，这里记录一下

如下，有的数据集这样摆放：

可以看出这是个三分类任务，不过没有划分测试集、验证集

代码存放位置：和数据集dataset 同一路径

2. 完整代码

如下：

import random
import os
import shutil
from tqdm import tqdm
import jsondef split_data(root, test_rate, flag=True):# 待分类数据的当前目录classes_directory = [i for i in os.listdir(root) if os.path.isdir(os.path.join(root, i))]# 建立生成后的目录，方便拷贝for i in classes_directory:os.makedirs(os.path.join('./data/train', i))  # 训练集os.makedirs(os.path.join('./data/test', i))  # 测试集# 是否生成类别的 json 字典文件，默认生成if flag:class_indices = dict((k, v) for v, k in enumerate(classes_directory))json_str = json.dumps(dict((val, key) for key, val in class_indices.items()), indent=4)with open('class_indices.json', 'w') as json_file:json_file.write(json_str)# 遍历每个文件夹下的文件for cla in classes_directory:cla_path = os.path.join(root, cla)  # 每个文件夹的路径images_path = [os.path.join(root, cla, i) for i in os.listdir(cla_path)]# 按比例随机采样测试集样本test_split_path = random.sample(images_path, k=int(len(images_path) * test_rate))# 划分数据for i in tqdm(images_path, desc=cla):if i in test_split_path:shutil.copy(i, os.path.join('./data/test', cla))else:shutil.copy(i, os.path.join('./data/train', cla))if __name__ == '__main__':rawDataSet = './dataset'  # 原始数据的路径if os.path.exists('./data'):  # 如果之前有，那么删除shutil.rmtree('./data')os.makedirs('./data/train')os.makedirs('./data/test')# 划分数据split_data(root=rawDataSet, test_rate=0.2)

运行代码过程：