uci数据集_干货收藏！三大领域常用十大开源数据集

全文共1144字，预计学习时长2分钟

机器学习的研究与实现离不开大数据。知晓通用的开源数据集，一方面可以验证自己算法，另一方面也可以与其他算法进行比较。本文介绍了计算机视觉、自然语言处理和语音识别三大领域的十个开源数据集以供你参考，绝对值得收藏！

计算机视觉

MNIST

MNIST 数据集来自美国国家标准与技术研究所，National Institute of Standards and Technology (NIST)。训练集 (training set) 由来自250个不同人手写的数字构成，其中 50% 是高中学生，50% 来自人口普查局 (the Census Bureau) 的工作人员。测试集(test set) 也是同样比例的手写数字数据。

链接：http://pjreddie.com/projects/mnist-in-csv/

CIFAR 10

CIFAR-10数据集由10个类的60000个32x32彩色图像组成，每个类有6000个图像。有50000个训练图像和10000个测试图像。数据集分为五个训练批次和一个测试批次，每个批次有10000个图像。测试批次包含来自每个类别的恰好1000个随机选择的图像。训练批次以随机顺序包含剩余图像，但一些训练批次可能包含来自一个类别的图像比另一个更多。总体来说，五个训练集之和包含来自每个类的5000张图像。

链接：https://www.cs.toronto.edu/~kriz/cifar.html

ImageNet

图像处理界最有名的图像数据集之一，一般情况下只用子数据集就可以。ImageNet数据集是为了促进计算机图像识别技术的发展而设立的一个大型图像数据集。其图片数量最多，分辨率最高，含有的类别更多，有上千个图像类别。每年ImageNet的项目组织都会举办一场ImageNet大规模视觉识别竞赛，从而会诞生许多图像识别模型。

链接：http://image-net.org/

Visual Genome

非常详细的视觉知识库，并带有100K图像的深字幕。相较于ImageNet数据集，这个数据集每张图片所包含的信息更加丰富，将对象、属性之间的关系做注解，是这套数据集的核心。Visual Genome数据集采用了微软COCO的图片库，用极丰富的细节对这十万张图片做了注解。

链接：http://visualgenome.org/

NLP

WikiText

WikiText 英语词库数据（The WikiText Long Term Dependency Language Modeling Dataset）是一个包含1亿个词汇的英文词库数据，这些词汇是从Wikipedia的优质文章和标杆文章中提取得到，包括WikiText-2和WikiText-103两个版本，相比于著名的 Penn Treebank (PTB) 词库中的词汇数量，前者是其2倍，后者是其110倍。每个词汇还同时保留产生该词汇的原始文章，这尤其适合当需要长时依赖(longterm dependency)自然语言建模的场景。

链接：http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/

SQuAD

SQuAD 是斯坦福大学于2016年推出的数据集，一个阅读理解数据集，给定一篇文章，准备相应问题，需要算法给出问题的答案。此数据集所有文章选自维基百科，数据集的量为当今其他数据集(例如，WikiQA)的几十倍之多。一共有107,785问题，以及配套的 536 篇文章。

链接：https://rajpurkar.github.io/SQuAD-explorer/

UCI’s Spambase

来自UCI的经典垃圾电子邮件数据集。这是一个大型垃圾邮件数据集，用于垃圾邮件过滤。

链接：https://archive.ics.uci.edu/ml/datasets/Spambase

语音

LibriSpeech

该数据集是包含大约1000小时的英语语音的大型语料库。这些数据来自LibriVox项目的有声读物。它已被分割并正确对齐，如果你正在寻找一个起点，请查看已准备好的声学模型，这些模型在http://kaldi-asr.org和语言模型上进行了训练，适合评估。

链接：http://www.openslr.org/12/

2000 HUB5 English