机器学习之必知开源数据集

之前看到的不错的文章,玩机器学习数据是关键,有了这些东西,你就不必再为没有数据而苦恼。
转自:https://www.toutiao.com/i6432197108580745730/

  • 目录
    • UCI
    • GoogleTrends
    • Kaggle
    • AWS公用数据集
    • Imagenet
    • MINIST
    • /r/数据集
    • 其他数据集

目录

机器学习的研究与实现,离不开大数据。知晓通用的开源数据集,一方面可以验证自己算法,而另一方面也可以与其他算法进行比较。

不少开源工具和框架都会含有默认的数据集,使学习者能很快上手。比如scikit-learn就直接支持iris、digits等数据集,通过datasets.load_iris()、datasets.load_digits()就可以直接载入数据进行分析。

除了工具默认支持的数据集外,还有很多知名的开源数据集,供机器学习相关人员使用。

UCI

UCI肯定是最知名的开源数据集(库)之一,它是加州大学欧文分校所维护的一个数据集(库),里面包含373个数据集,并且还在持续增长。数据集的类别也很丰富多样并且归类清晰,有专门针对聚类的数据集,专门针对回归研究的数据集;从数据类型纬度,有文本类型的,有时序相关类型的。
这里写图片描述

同时其数据的获取也很简单,直接点击需要的数据集,进入下载页面直接压在压缩包,解压即可使用。数据一般按照特定格式组织成文本形式。

在UCI项目中,最常用的数据集包括iris、wine、soybean、zoo:

  • iris,鸢尾数据集,其包含3个类,每个类50个元素,每个元素有5个属性,用来代表不同的鸢尾花
  • wine,酒水数据库,其中包含3个类,共178个元素,每个元素有3个属性,常用于聚类研究
  • soybean,大豆疾病数据集,其中包含4个类,共47个元素,但每个元素有35个属性
  • zoo,动物园数据集,其中包含7个类,共101个元素,每个元素16个属性

项目地址:http://archive.ics.uci.edu/ml/index.php

GoogleTrends

GoogleTrends开源出来的数据集不一定是非常知名、用途广泛的数据集,但是由于其数据来源于互联网,具有很强的时间感,社会属性,并且也能很快检测算法的准确性,毕竟互联网数据的产生速度要远远大于传统数据。
这里写图片描述

该数据集中数据组织形式也非常直接,csv文件,这样无论是人工查看,还是程序处理都非常方便,毕竟现在绝大多数框架都支持直接载入csv文件。

项目地址:http://googletrends.github.io/data/

Kaggle

Kaggle本身是为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。而各种机器学习竞赛中用到的数据集则可以在改平台上下载,这对于验证、对比自身算法的优劣大有裨益。
这里写图片描述

其中覆盖了分类、回归、排名、推荐系统以及图像分析等各个非常使用的领域,但是不好之处在于有些数据集是收费的。

项目地址:https://www.kaggle.com/competitions

AWS公用数据集

这个数据集是AWS集成的,必须通过AWS API访问的数据集,其中包含了人类基因组项目、Common Crawl网页语料库、维基百科数据和Google BooksNgrams等形形色色的数据集。

使用该数据库最大问题是它默认支持的格式是通过AWS相关的操作,包括建实例等,对于离线分析,或者不想购买云资源的用户来说,不那么方便直接。

项目地址:https://aws.amazon.com/cn/public-datasets/

Imagenet

Imagenet是图像领域最出名的数据集之一,各种图像处理相关的算法都会在该数据集上验证其先进性,也有各种研究人员针对该数据集做研究以及优化。
这里写图片描述

在深度学习异常火爆的当下,Imagenet也起了非常大的推动作用。深度学习领域大牛Hilton的论文《ImageNet Classification with Deep Convolutional Neural Networks》,其使用的就是Imagenet数据集,后来者们也都纷纷使用该数据集进行算法的研究和优化。

该数据集有1400W图片,涵盖有丰富的类别,带标注数据也超过百万,这使得该数据集在图像处理,定位,检测等研究工作中占据很大的地盘,其机会成为了目前深度学习图像领域算法性能检验的标准数据库。

项目地址:http://image-net.org/download

MINIST

深度学习领域的“Hello World!”,入门必备!MNIST是一个手写数字数据库,它有60000个训练样本集和10000个测试样本集,每个样本图像的宽高为28*28。此数据集是以二进制存储的,不能直接以图像格式查看,不过很容易找到将其转换成图像格式的工具。最早的深度卷积网络LeNet便是针对此数据集的,当前主流深度学习框架几乎无一例外将MNIST数据集的处理作为介绍及入门第一教程,其中Tensorflow关于MNIST的教程非常详细。

这里写图片描述
项目地址:http://yann.lecun.com/exdb/mnist/

/r/数据集

Reddit的/r/数据集是一个大伙分享、请求的数据集平台,在此平台上能分享、下载甚至讨论大量的数据集,从普通数据集到用于深度分析的数据集,不一而足。

项目地址:https://www.reddit.com/r/datasets/

其他数据集

麻省理工大学人脸识别,http://vis-www.cs.umass.edu/fddb/

歌曲数据库,http://labrosa.ee.columbia.edu/millionsong/

图像处理COCO,http://mscoco.org/

视频数据集youtube,https://research.google.com/youtube8m/

此外,还有大量的针对某个领域的数据集,比如图像分隔、地质数据、政府数据等等,不一而足。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/456648.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《计算机科学概论》—第3章3.3节文本表示法

本节书摘来自华章出版社《计算机科学概论》一书中的第3章,第3.3节文本表示法,作者[美]内尔黛尔(Nell Dale)约翰路易斯(John Lewis),更多章节内容可以访问云栖社区“华章计算机”公众…

经典技术面试指南

目录计算机基础知识数据结构算法操作系统计算机网络数据库海量数据处理C语言基础Java基础Java高级Java Web设计模式知识的综合能力工具使用项目相关技术热情表达能力思考方式其他推荐阅读 目录 最近看到一份不错的面试总结,也是每位程序猿都应该掌握的基础&#x…

Linux 共享内存详解一

共享内存段被多个进程附加的时候,如果不是所有进程都已经调用shmdt,那么删除该共享内存段时,会出现一个临时的不完整的共享内存段(key值是0),无法彻底删除。只有当所有进程都调用shmdt,这个临时…

Storm编程模型总结

目录前言:1、Storm编程模型2、对应的的WordCount案例总结: 目录 前言: 对于Storm的编程模型有必要做一个详细的介绍(配合WC案例来介绍) 1、Storm编程模型 上图中组件的解释: DataSource:外…

13_观察者模式

【观察者模式】 也叫作发布/订阅模式,使用较为频繁。 定义了对象间一种一对多的依赖关系,当一个对象改变状态时,则所有依赖于它的对象都会得到通知并被自动更新。 观察者模式由以下几个角色组成: * Subject 被观察者 定义被观察者…

《黑客秘笈——渗透测试实用指南》—第2章2.3节 外部或内部的主动式信息收集...

本节书摘来自异步社区《黑客秘笈——渗透测试实用指南》一书中的第2章2.3节 外部或内部的主动式信息收集,作者【美】Peter Kim(彼得 基姆),更多章节内容可以访问云栖社区“异步社区”公众号查看。 2.3 外部或内部的主动式信息收集黑客秘笈——…

Storm集群的安装及简单使用

目录前言:1、集群部署的基本流程2、Storm常用操作命令(了解)3、Storm集群的进程及日志熟悉(知道对应的日志的位置出了问题知道去哪找原因)4、Storm源码目录分析(重要)总结: 目录 前…

Storm的通信机制

目录前言:1、Worker进程间通信原理2、Worker进程间技术(Netty、ZeroMQ)3、Worker 内部通信技术(Disruptor)总结: 目录 前言: 这篇文章,博客主要介绍下Storm中Worker进程间和进程内部通信的原理和技术。整篇内容仅供了解&#x…

Storm程序的并发机制原理总结

文章目录目录前言:1、概念2、配置并行度总结:目录 前言: 为了在以后的实践中提高Storm程序执行的效率,我们还是有必要了解下对应的Storm程序的并发机制。(哈哈,虽然以博主小菜鸟的水平还没有接触到这种提…

★数学上最大的数是多少?

数学上最大的数是多少? 怪罗科普 收藏(282)| 阅读(117678)人类已经使用数长达千年之久。普遍认为,数的概念最先源于史前人类开始使用手指进行计数。这最终演变成符号语言,然后在沙子、墙壁和木头等物体上作标记。 我们已经向前发展了一大步&…

Storm任务提交过程及目录树介绍

目录前言:1、Storm 任务提交的过程2、Storm相关的目录树总结: 目录 前言: 对于任何一个组件来说,了解它相关的任务提交的过程是非常有必要的(毕竟生产中遇到一些Bug时,你如果知道内部执行的过程&#xf…

《Adobe InDesign CS6中文版经典教程》—第1课1.5节修改文档的缩放比例

本节书摘来自异步社区《Adobe InDesign CS6中文版经典教程》一书中的第1课1.5节修改文档的缩放比例,作者【美】Adobe公司,更多章节内容可以访问云栖社区“异步社区”公众号查看。 1.5 修改文档的缩放比例Adobe InDesign CS6中文版经典教程InDesign中的控件让用户能…

大数据之Kafka入门简介

目录前言:1、Kafka是什么2、JMS是什么3、Kafka核心组件(重点)总结: 目录 前言: 作为流式计算中的一个组件,对于它的组成以及运行的原理,学习者也需要相关的了解。以下主要简单介绍了kafka是什…

oracle的安装与plsql的环境配置

1,首先得有oracle的安装包和plsql的安装包,安装包地址可见百度云 http://pan.baidu.com/s/1miTqhmg 2.解压下来进入0817账套,找到set.exe文件,双击安装即可 注意的是安装的时候有两个目录是要自己创建的,否则安装不成功…

如何在Docker容器中运行GUI程序

如何在Docker容器中运行GUI程序 各位,今天我们将学习如何在Docker之中运行GUI程序。我们可以轻易地在Docker容器中运行大多数GUI程序且不出错。Docker是一个开源项目,提供了一个打包、分发和运行任意程序的轻量级容器的开放平台。它没有语言支持、框架或…

【python】Get与Post的区别?(面试官最想听到的答案)

GET和POST是HTTP请求的两种基本方法,要说它们的区别,接触过WEB开发的人都能说出一二。 最直观的区别就是GET把参数包含在URL中,POST通过request body传递参数。 你可能自己写过无数个GET和POST请求,或者已经看过很多权威网站总结出…

大数据之Kafka内部原理详细介绍

目录前言:1、Kafka整体结构2、Consumer与topic关系3、Kafka消息的分发4、Consumer的负载均衡5、kafka文件存储机制总结: 目录 前言: 本篇文章所介绍的内容还是以了解为主,主要目的还是为了对Kafka有一个更深入的理解。主要介绍…

JS与APP原生控件交互

“热更新”、“热部署”相信对于混合式开发的童鞋一定不陌生,那么APP怎么避免每次升级都要在APP应用商店发布呢?这里就用到了混合式开发的概念,对于电商网站尤其显得重要,不可能每次发布一个活动,都要发布一个现版本&a…

《脱颖而出——成功网店经营之道》一2.6 连横:返利模式的应用及分销

本节书摘来异步社区《脱颖而出——成功网店经营之道》一书中的第2章,第2.6节,作者: 何小健 责编: 赵轩, 更多章节内容可以访问云栖社区“异步社区”公众号查看。 2.6 连横:返利模式的应用及分销 脱颖而出——成功网店…

大数据之Spark集群安装及简单使用

目录1、Spark集群安装1.1. 安装 2、启动Spark Shell2.1、启动spark shell2.2、在spark shell中编写WordCount程序 目录 1、Spark集群安装 1.1. 安装 1.1.1. 机器部署 准备两台以上Linux服务器,安装好JDK1.7 1.1.2. 下载Spark安装包 下载地址:ht…