前言
如果你对这篇文章感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。
表格数据
- Sklearn 提供了 13 个表格型数据,且数据处理接口统一;
- LIBSVM 提供了 131 个表格型数据,整体数据格式比较统一;
- UCI 提供了 565 个表格型数据,但未提供统一的数据集处理接口;
- 或许可使用该仓库的代码进行统一处理:ucimlrepo
- OpenML 提供了 5393 个表格型数据,且数据可按照下述代码统一处理:
import openmlopenml.config.apikey = "your api key"dataset_id = 43466
dataset = openml.datasets.get_dataset(dataset_id, download_all_files=False)
X, y, _, _ = dataset.get_data(target=dataset.default_target_attribute)print(dataset.description)
print(X.shape, X.columns)
print(len(y), y.name)
图像数据
- torchvision 提供了大量图像数据集,包括 37 个图像分类数据集;
- huggingface 包含大量图像数据集,其中图像分类至少有 636 个,并提供了统一的数据集调用接口;
- deeplake 提供了 1262 个图像数据集,有统一的数据集下载接口;
- UCI 中包含 4 个较小的图像数据集。