第一种:从huggingface官网加载:
from datasets import load_dataset
dataset = load_dataset(path='squad', split='train')
path
等于相关数据集的名字就能下载并加载相关数据集
第二种:从本地加载数据集
用path参数指定数据集格式
json格式,path="json"
csv格式, path="csv"
纯文本格式, path="text"
dataframe格式, path="panda"
图片,path="imagefolder"
然后用data_files指定文件名称,data_files可以是字符串,列表或者字典,data_dir指定数据集目录。如下case:
from datasets import load_dataset
dataset = load_dataset('csv', data_files='my_file.csv')
dataset = load_dataset('csv', data_files=['my_file_1.csv', 'my_file_2.csv', 'my_file_3.csv'])
dataset = load_dataset('csv', data_files={'train':['my_train_file_1.csv','my_train_file_2.csv'],'test': 'my_test_file.csv'})
Tips:
huggingface的load_dataset()函数返回的数据是字典类型的dataset
形如:
Dataset({features: ['label', 'text'],num_rows: 100
})
取数据用:
dataset["input_ids"]