机器学习数据集哪里找:最佳数据集来源盘点

很难找到一个特定的数据集来解决对应的机器学习问题,这是非常痛苦的。下面的网址列表不仅包含用于实验的大型数据集,还包含描述、使用示例等,在某些情况下还包含用于解决与该数据集相关的机器学习问题的算法代码。

1 -Kaggle数据集

网址:https//www.kaggle.com/datasets 

这是我最喜欢的数据集网站之一。每个数据集都有对应的一个小型社区,你可以在其中讨论数据、查找公共代码或在内核中创建自己的项目。该网站包含大量形状、大小、格式各异的真实数据集。你还可以看到与每个数据集相关的“内核”,其中许多不同的数据科学家提供了笔记来分析数据集。有时在某些特定的数据集中,你可以从笔记中找到相应的算法,解决预测问题。

2 -亚马逊数据集

网址:https//registry.opendata.aws 

该数据源包含多个不同领域的数据集,如:公共交通、生态资源、卫星图像等。它也有一个搜索框来帮助你找到你正在寻找的数据集,另外它还有数据集描述和使用示例,这是非常简单、实用的!

3- UCI机器学习库

网址:https//archive.ics.uci.edu/ml/datasets.html 

 

这是加州大学信息与计算机科学学院的一个数据库,包含了100多个数据集。它根据机器学习问题的类型对数据集进行分类。你可以找到单变量、多变量、分类、回归或者是推荐系统的数据集。UCI的某些数据集已经更新完毕并准备使用。

4-谷歌的数据集搜索引擎

网址:https://toolbox.google.com/datasetsearch 

 

 在2018年末,谷歌做了他们最擅长的事情,推出了另一项伟大的服务。它是一个可以按名称搜索数据集的工具箱。谷歌的目标是统一成千上万个不同的数据集存储库,使这些数据能够被发现。

5 -微软数据集

网址:https//msropendata.com 

2018年7月,微软与外部研究社区共同宣布推出“微软研究开放数据”。

它在公共云中包含一个数据存储库,用于促进全球研究社区之间的协作。另外它还提供了一组在已发表的研究中使用的、经过整理的数据集。

6-Awesome公共数据集

网址:https//github.com/awesomedata/awesome-public-datasets 

这是一个按照主题分类的,由社区公开维护的一系列数据集清单,比如生物学、经济学、教育学等。这里列出的大多数数据集都是免费的,但是在使用任何数据集之前,你应该检查相应的许可要求。

7 -政府数据集

政府的相关数据集也很容易找到。许多国家为了提高知名度,向公众分享了各种数据集。例如:

欧盟开放数据门户欧洲政府数据集

新西兰政府数据集

印度政府数据集

8-计算机视觉数据集

网址:https//www.visualdata.io 

如果你从事图像处理、计算机视觉或者是深度学习,那么这应该是你的实验获取数据的重要来源之一。

该数据集包含一些可以用来构建计算机视觉(CV)模型的大型数据集。你可以通过特定的CV主题查找特定的数据集,如语义分割、图像标题、图像生成,甚至可以通过解决方案(自动驾驶汽车数据集)查找特定的数据集。

综上所述,从我所观察到的情况来看,越来越多的用于研究机器学习的各种数据集变得更容易获取,维护这些新数据集的社区,也将不断地发展,使计算机科学社区能够继续快速创新,为生活带来更多创造性的解决方案。

 

原文链接
本文为云栖社区原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/519891.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机常用工具软件教案,常用工具软件教案.doc

文档介绍:课题:网络遨游——网络软件教学目的熟练掌握下载软件的使用方法。熟练掌握邮件处理软件的使用方法。熟练掌握FTP工具软件的使用方法。熟练掌握搜索引擎的使用方法。熟练掌握网络加速软件的使用方法。教学重点、难点熟练掌握迅雷、Foxmail、百度搜索引擎等网…

腾讯游戏与NVIDIA合作发布START云游戏服务

腾讯游戏和NVIDIA于今日宣布了一项将电脑游戏带入云端的合作。 NVIDIA的GPU技术为腾讯游戏的START云游戏服务赋力,该服务已从今年初开始进入测试阶段。START使游戏玩家可以随时随地,即使是在配置不足的设备上也能玩AAA游戏。腾讯游戏计划将扩展其云游戏…

pandas指南:做更高效的数据科学家

Python是开源的,所以有很多开源固有的问题。如果你是Python新手,很难知道针对特定任务的包哪个是最好的。你需要有经验的人来告诉你。今天我要告诉你们的是:在数据科学中,有一个软件包是你们绝对需要学习的,那就是pand…

java实现zip压缩文件(同一文件夹下的多个文件夹打成一个zip包)

这2个工具类都推荐使用统一个场景的不通过写法 推荐第一种 package com.gblfy.test;import java.io.BufferedInputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.util.zip.CRC32; import java.util.zip.Checke…

计算机操作与规范,电脑操作基本知识(精华版)

一、快速操作规程操作五招1、按“Alt”键然后用鼠标双击文件或文件夹即可快速打开其属性。2、双击程序窗口的标题栏,窗口可在最大化与常规之间快速变换3、按键(或)即可快速把文件或文件夹不用进“回收站”而直接删除。4、用鼠标左键拖动文件到桌面,即可在…

一位技术校招生在支付宝的成长笔记

哪有那么多的“逆袭”,唯有努力与坚持,机会就会在前方。 鲁直,1989年生,本科毕业于浙江工业大学,之后被校招进阿里巴巴。虽然,今年刚刚30岁,但他已是蚂蚁金服SOFA中间件开源负责人。 看到这个开…

NVIDIA向交通运输行业开源其自动驾驶汽车深度神经网络

NVIDIA今日宣布,在NVIDIA GPU Cloud (NGC)容器注册上,向交通运输行业开源NVIDIA DRIVE™自动驾驶汽车开发深度神经网络。 NVIDIA DRIVE已成为自动驾驶汽车开发的行业标准,并且被汽车制造商、卡车制造商、自动驾驶出租车公司、软件公司和大学…

java.sql.SQLException: ORA-01691: Lob 段 SONARQUBE2.SYS_LOB0000119128C00008$$ 无法通过 128 (在表空间 USERS 中

文章目录一、场景浮现1. 问题详情2. 问题描述3. 问题原因二、解决方案2.1. 查看表空间的名字及文件在哪2.2. 查询表空间使用情况2.3. 解决方法一、场景浮现 1. 问题详情 2. 问题描述 java.sql.SQLException: ORA-01691: Lob 段 SONARQUBE2.SYS_LOB0000119128C00008$$ 无法通过…

计算机2级什么时间考,全国计算机2级考试什么时间出成绩单

2019-06-20 01:27齐新伟查分时间有关成绩查询的具体事宜:1、全国计算机等级考试的成绩将在考后约45-90天内得到成绩(不同地区公布成绩的时间将有所差异),查询方法有声讯电话(快、收费)、考点成绩单报送(慢、免费)、网上查询(部分省市开通,快&…

开发函数计算的正确姿势 —— 安装第三方依赖

前言 首先介绍下在本文出现的几个比较重要的概念: 函数计算(Function Compute): 函数计算是一个事件驱动的服务,通过函数计算,用户无需管理服务器等运行情况,只需编写代码并上传。函数计算准备计算资源&am…

终于等到你!阿里正式向 Apache Flink 贡献 Blink 源码

阿里妹导读:如同我们去年12月在 Flink Forward China 峰会所约,阿里巴巴内部 Flink 版本 Blink 将于 2019 年 1 月底正式开源。今天,我们终于等到了这一刻。 阿里资深技术专家大沙,将为大家详细介绍本次开源的Blink主要功能和优化…

Oracle 表空间常用sql

--查询表空间使用情况 select a.tablespace_name,a.bytes / 1024 / 1024 "sum MB",(a.bytes - b.bytes) / 1024 / 1024 "used MB",b.bytes / 1024 / 1024 "free MB",round(((a.bytes - b.bytes) / a.bytes) * 100, 2) "used%"from (se…

五省竞赛计算机作品,关于征集2017年华北五省(市、自治区)及港澳台大学生计算机应用大赛河北赛区竞赛作品的通知...

原标题:关于征集2017年华北五省(市、自治区)及港澳台大学生计算机应用大赛河北赛区竞赛作品的通知学校各单位、各位老师们:为深入贯彻落实《国家中长期教育改革和发展规划纲要》(2010-2020年)和教育部《关于全面提高高等教育质量的若干意见》(教高[2012]…

Auto-Keras与AutoML:入门指南

在本教程中,你将学习如何使用Auto-Keras(Google的AutoML的开源替代品)来实现自动化机器学习和深度学习。 目前来说,深度学习从业者在数据集上训练神经网络时,主要正在尝试优化和平衡两个目标: 1.定义适合…

java实现遍历文件夹下的文件及文件夹

package com.gblfy.test;import java.io.File; import java.util.ArrayList; import java.util.LinkedList; import java.util.List;/*** 文件常用工具类** author gblfy* description FileUtil* date 2020/07/03 17:05*/ public class FileUtil {/*** 遍历目录下面的文件夹和文…

TensorFlow 2.0深度强化学习指南

在本教程中,我将通过实施Advantage Actor-Critic(演员-评论家,A2C)代理来解决经典的CartPole-v0环境,通过深度强化学习(DRL)展示即将推出的TensorFlow2.0特性。虽然我们的目标是展示TensorFlow2.0,但我将尽…

互联网诞生记: 浪成于微澜之间

戳蓝字“CSDN云计算”关注我们哦!作者 | 老姜出品 | CSDN云计算(ID:CSDNcloud)“我早就预言了互联网。1975年,所有的技术都已经准备好了;1985年,所有的技术都应该很平常了;而直到199…

20丨8年哈工程计算机专业录取分数线多少,双一流211大学 哈尔滨工程大学2020年各省各专业录取分数线...

哈尔滨工程大学是国家重点大学,也是国家211、双一流大学,其最早前身是中国人民解放军军事工程学院(哈军工),后面的陆续建设也是保留并深入发展了军工相关专业,目前以该类专业为优势和特色。2020年高考哈尔滨工程大学面向全国各省市…

java 批量为图片添加图标水印和文字水印

需求,给指定目录下面以.jpg结尾的文件,添加图标水印和文字水印 文章目录一、基础版本二、升级版本三、依赖一、基础版本 package com.gblfy.util;import com.sun.image.codec.jpeg.JPEGCodec; import com.sun.image.codec.jpeg.JPEGImageEncoder;import…

“有趣”的投影:当PCA失效时怎么办?

目前,大多数的数据科学家都比较熟悉主成分分析 (Principal Components Analysis,PCA),它是一个探索性的数据分析工具。可以这样简要的描述:研究人员经常使用PCA来降低维度,希望在他们的数据中找出有用的信息&#xff0…