前言
数据集相对于机器学习而言是至关重要的,可以说好的数据集是成功的一半。但是,我们很难找到一个特定的数据集来解决各种机器学习问题,甚至是进行实验。因而找到合适的数据集是一件很难的事情,接下来我们就盘点一下一些优质的数据集资源,或许会帮到你哦。
Kaggle Datasets
每个dataset都是一个小型社区,您可以在其中讨论数据、查找一些公共代码或在内核中创建自己的项目。它们包含大量的实际数据集,这些数据集具有各种形状、大小和许多不同的格式。您还可以看到与每个数据集关联的“内核”,其中许多不同的数据科学家提供了笔记本来分析数据集。有时候你可以在自己笔记本上想到一些算法来解决这个特定数据集中的预测问题。
https://www.kaggle.com/datasets
Amazon Datasets
该数据源包含不同领域的许多数据集,如:(公共交通、生态资源、卫星图像等)。它也有一个搜索框,以帮助您找到您正在寻找的数据集,它也有数据集描述和使用的所有数据集的例子,这是非常有用的,易于使用!
这些数据集存储在Amazon Web Services (AWS)资源中,比如Amazon S3——云中的一个高度可伸缩的对象存储服务。如果您正在使用AWS进行机器学习实验和开发,这将非常方便,因为数据集的传输非常快,因为它是AWS网络的本地数据集
https://registry.opendata.aws/?source=post_page
UCI ML Repository
加州大学信息与计算机科学学院的另一个巨大的数据库,包含了100多个数据集。它根据机器学习问题的类型对数据集进行分类。您可以为单变量和多变量时间序列数据集、分类、回归或推荐系统找到数据集。UCI中的一些数据集已经被清理并准备好使用。
https://archive.ics.uci.edu/ml/index.php
Google数据集搜索引擎
在2018年末,谷歌尽其所能,推出了另一项伟大的服务。它是一个工具箱,可以按名称搜索数据集。他们的目标是统一成千上万个不同的数据集存储库,使数据集可被发现。干得好,谷歌。
https://toolbox.google.com/datasetsearch?source=post_page
Microsoft Datasets
2018年7月,微软与外部研究界共同宣布启动“微软研究院开放数据”
https://msropendata.com/?source=post_page
Awesome公共数据库
这是一个按主题组织的数据集的伟大来源,如生物学、经济学、教育学等。这里列出的大多数数据集都是免费的,但是在使用任何数据集之前,您应该始终检查许可要求。
https://github.com/awesomedata/awesome-public-datasets?source=post_page
计算机视觉数据集
如果您正在从事图像处理、计算机视觉或深度学习,那么这应该是您的实验数据来源。
视觉数据包含少量的大型数据集,可用于构建计算机视觉(CV)模型。您可以通过特定的CV主题来查找特定的数据集,如语义分割、图像标题、图像生成,甚至可以通过解决方案(自动驾驶汽车数据集)来查找数据集。
https://www.visualdata.io/?source=post_page
Lionbridge AI Datasets
https://lionbridge.ai/datasets/?source=post_page
总而言之,似乎有一个全球性的方向,就是让越来越多的数据可用,让研究和机器学习社区更容易获得。这些新数据集的社区将继续增长,使数据更容易访问,以便众包和计算机科学社区能够继续快速创新,为生活带来更多创造性的解决方案。