机器学习之必知开源数据集

之前看到的不错的文章,玩机器学习数据是关键,有了这些东西,你就不必再为没有数据而苦恼。
转自:https://www.toutiao.com/i6432197108580745730/

  • 目录
    • UCI
    • GoogleTrends
    • Kaggle
    • AWS公用数据集
    • Imagenet
    • MINIST
    • /r/数据集
    • 其他数据集

目录

机器学习的研究与实现,离不开大数据。知晓通用的开源数据集,一方面可以验证自己算法,而另一方面也可以与其他算法进行比较。

不少开源工具和框架都会含有默认的数据集,使学习者能很快上手。比如scikit-learn就直接支持iris、digits等数据集,通过datasets.load_iris()、datasets.load_digits()就可以直接载入数据进行分析。

除了工具默认支持的数据集外,还有很多知名的开源数据集,供机器学习相关人员使用。

UCI

UCI肯定是最知名的开源数据集(库)之一,它是加州大学欧文分校所维护的一个数据集(库),里面包含373个数据集,并且还在持续增长。数据集的类别也很丰富多样并且归类清晰,有专门针对聚类的数据集,专门针对回归研究的数据集;从数据类型纬度,有文本类型的,有时序相关类型的。
这里写图片描述

同时其数据的获取也很简单,直接点击需要的数据集,进入下载页面直接压在压缩包,解压即可使用。数据一般按照特定格式组织成文本形式。

在UCI项目中,最常用的数据集包括iris、wine、soybean、zoo:

  • iris,鸢尾数据集,其包含3个类,每个类50个元素,每个元素有5个属性,用来代表不同的鸢尾花
  • wine,酒水数据库,其中包含3个类,共178个元素,每个元素有3个属性,常用于聚类研究
  • soybean,大豆疾病数据集,其中包含4个类,共47个元素,但每个元素有35个属性
  • zoo,动物园数据集,其中包含7个类,共101个元素,每个元素16个属性

项目地址:http://archive.ics.uci.edu/ml/index.php

GoogleTrends

GoogleTrends开源出来的数据集不一定是非常知名、用途广泛的数据集,但是由于其数据来源于互联网,具有很强的时间感,社会属性,并且也能很快检测算法的准确性,毕竟互联网数据的产生速度要远远大于传统数据。
这里写图片描述

该数据集中数据组织形式也非常直接,csv文件,这样无论是人工查看,还是程序处理都非常方便,毕竟现在绝大多数框架都支持直接载入csv文件。

项目地址:http://googletrends.github.io/data/

Kaggle

Kaggle本身是为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。而各种机器学习竞赛中用到的数据集则可以在改平台上下载,这对于验证、对比自身算法的优劣大有裨益。
这里写图片描述

其中覆盖了分类、回归、排名、推荐系统以及图像分析等各个非常使用的领域,但是不好之处在于有些数据集是收费的。

项目地址:https://www.kaggle.com/competitions

AWS公用数据集

这个数据集是AWS集成的,必须通过AWS API访问的数据集,其中包含了人类基因组项目、Common Crawl网页语料库、维基百科数据和Google BooksNgrams等形形色色的数据集。

使用该数据库最大问题是它默认支持的格式是通过AWS相关的操作,包括建实例等,对于离线分析,或者不想购买云资源的用户来说,不那么方便直接。

项目地址:https://aws.amazon.com/cn/public-datasets/

Imagenet

Imagenet是图像领域最出名的数据集之一,各种图像处理相关的算法都会在该数据集上验证其先进性,也有各种研究人员针对该数据集做研究以及优化。
这里写图片描述

在深度学习异常火爆的当下,Imagenet也起了非常大的推动作用。深度学习领域大牛Hilton的论文《ImageNet Classification with Deep Convolutional Neural Networks》,其使用的就是Imagenet数据集,后来者们也都纷纷使用该数据集进行算法的研究和优化。

该数据集有1400W图片,涵盖有丰富的类别,带标注数据也超过百万,这使得该数据集在图像处理,定位,检测等研究工作中占据很大的地盘,其机会成为了目前深度学习图像领域算法性能检验的标准数据库。

项目地址:http://image-net.org/download

MINIST

深度学习领域的“Hello World!”,入门必备!MNIST是一个手写数字数据库,它有60000个训练样本集和10000个测试样本集,每个样本图像的宽高为28*28。此数据集是以二进制存储的,不能直接以图像格式查看,不过很容易找到将其转换成图像格式的工具。最早的深度卷积网络LeNet便是针对此数据集的,当前主流深度学习框架几乎无一例外将MNIST数据集的处理作为介绍及入门第一教程,其中Tensorflow关于MNIST的教程非常详细。

这里写图片描述
项目地址:http://yann.lecun.com/exdb/mnist/

/r/数据集

Reddit的/r/数据集是一个大伙分享、请求的数据集平台,在此平台上能分享、下载甚至讨论大量的数据集,从普通数据集到用于深度分析的数据集,不一而足。

项目地址:https://www.reddit.com/r/datasets/

其他数据集

麻省理工大学人脸识别,http://vis-www.cs.umass.edu/fddb/

歌曲数据库,http://labrosa.ee.columbia.edu/millionsong/

图像处理COCO,http://mscoco.org/

视频数据集youtube,https://research.google.com/youtube8m/

此外,还有大量的针对某个领域的数据集,比如图像分隔、地质数据、政府数据等等,不一而足。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/456648.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PHP中header函数的用法及其注意重点是什么呢

1、使用header函数进行跳转页面; header(Location:.$url);  其中$url就是将要跳转的url了。 这种用法的注意事项有以下几点: •Location和":"之间不能有空格,否则会出现错误(注释:我刚测试了,在…

《计算机科学概论》—第3章3.3节文本表示法

本节书摘来自华章出版社《计算机科学概论》一书中的第3章,第3.3节文本表示法,作者[美]内尔黛尔(Nell Dale)约翰路易斯(John Lewis),更多章节内容可以访问云栖社区“华章计算机”公众…

习题

# -*- coding: utf-8 -*- # Time : 2019/08/08 17:38 # Author : Liu # File : zuoye.py# 一、 # 将此功能定义成一个函数, # 电脑随机生成1~100随机数,用户输入一个数字,电脑提示用户大或者小,猜错,继续提示&a…

经典技术面试指南

目录计算机基础知识数据结构算法操作系统计算机网络数据库海量数据处理C语言基础Java基础Java高级Java Web设计模式知识的综合能力工具使用项目相关技术热情表达能力思考方式其他推荐阅读 目录 最近看到一份不错的面试总结,也是每位程序猿都应该掌握的基础&#x…

Linux 共享内存详解一

共享内存段被多个进程附加的时候,如果不是所有进程都已经调用shmdt,那么删除该共享内存段时,会出现一个临时的不完整的共享内存段(key值是0),无法彻底删除。只有当所有进程都调用shmdt,这个临时…

python 魔术方法

python 魔术方法 常用魔术方法 魔术方法就是一个类的特殊方法,和普通方法唯一的不同时,普通方法需要调用!而魔术方法由系统自动调用。 1.__init__ 初始化魔术方法 触发时机:初始化对象时触发(不是实例化触发&#xf…

Storm ack和fail机制再论

之前对这个的理解有些问题,今天用到有仔细梳理了一遍,记录一下 首先开启storm tracker机制的前提是, 1. 在spout emit tuple的时候,要加上第3个参数messageid 2. 在配置中acker数目至少为1 3. 在bolt emit的时候,要加…

Storm编程模型总结

目录前言:1、Storm编程模型2、对应的的WordCount案例总结: 目录 前言: 对于Storm的编程模型有必要做一个详细的介绍(配合WC案例来介绍) 1、Storm编程模型 上图中组件的解释: DataSource:外…

13_观察者模式

【观察者模式】 也叫作发布/订阅模式,使用较为频繁。 定义了对象间一种一对多的依赖关系,当一个对象改变状态时,则所有依赖于它的对象都会得到通知并被自动更新。 观察者模式由以下几个角色组成: * Subject 被观察者 定义被观察者…

【python】内建异常类的层次

内建异常类的层次 BaseException-- SystemExit-- KeyboardInterrupt-- GeneratorExit-- Exception-- StopIteration-- StopAsyncIteration-- ArithmeticError| -- FloatingPointError| -- OverflowError| -- ZeroDivisionError-- AssertionError-- AttributeError-- …

《黑客秘笈——渗透测试实用指南》—第2章2.3节 外部或内部的主动式信息收集...

本节书摘来自异步社区《黑客秘笈——渗透测试实用指南》一书中的第2章2.3节 外部或内部的主动式信息收集,作者【美】Peter Kim(彼得 基姆),更多章节内容可以访问云栖社区“异步社区”公众号查看。 2.3 外部或内部的主动式信息收集黑客秘笈——…

Storm集群的安装及简单使用

目录前言:1、集群部署的基本流程2、Storm常用操作命令(了解)3、Storm集群的进程及日志熟悉(知道对应的日志的位置出了问题知道去哪找原因)4、Storm源码目录分析(重要)总结: 目录 前…

【python】错误、异常和文件---复习笔记

错误、异常和文件 1. 异常处理 错误指的是代码有语法问题,无法解释运行,必须改正后才能运行 如果代码没有语法问题,可以运行,但会出运行时的错误,例如除零错误,下标越界等问题,这种在运行期间…

关于使用百度ueditor时的一些问题

本来这些问题直接在百度贴吧里回答不就完事了,可是好死不死的,百度贴吧里老出现 未知错误&#xff0c;错误号&#xff1a;230274 看来还是算了,自己做一个随笔记录一下好了 关于我们获取里面的内容时,老是会有一个<p>来包着,而且还老是多出来一个<br/> 这边是这么处…

Storm的通信机制

目录前言&#xff1a;1、Worker进程间通信原理2、Worker进程间技术(Netty、ZeroMQ)3、Worker 内部通信技术(Disruptor)总结&#xff1a; 目录 前言&#xff1a; 这篇文章&#xff0c;博客主要介绍下Storm中Worker进程间和进程内部通信的原理和技术。整篇内容仅供了解&#x…

《Windows PowerShell实战指南(第2版)》——1.4 搭建自己的实验环境

本节书摘来自异步社区《Windows PowerShell实战指南&#xff08;第2版&#xff09;》一书中的第1章&#xff0c;第1.4节&#xff0c;作者&#xff1a;【美】Don Jones&#xff08;道琼斯&#xff09; , Jeffery Hicks&#xff08;杰弗瑞希克斯&#xff09;著&#xff0c;更多章…

已解决]求问not 1 or 0 and 1 or 3 and 4 or 5 and 6 or 7 and 8 and 9为什么不等于0呢???

not 1 or 0 and 1 or 3 and 4 or 5 and 6 or 7 and 8 and 9 ----> (not 1&#xff09;)or (0 and 1) or (3 and 4) or (5 and 6) or (7 and 8 and 9) ----> 0 or 0 or 4 or 6 or 9 ----> 0 or 4 or 6 or 9 ----> 4 or 6 or 9 4

C#外围工具资源

1、MATH.NET数学库:可以用于 矩阵计算方程求根插值拟合。。。2、转载于:https://www.cnblogs.com/liq07lzucn/p/6227443.html

Storm程序的并发机制原理总结

文章目录目录前言&#xff1a;1、概念2、配置并行度总结&#xff1a;目录 前言&#xff1a; 为了在以后的实践中提高Storm程序执行的效率&#xff0c;我们还是有必要了解下对应的Storm程序的并发机制。&#xff08;哈哈&#xff0c;虽然以博主小菜鸟的水平还没有接触到这种提…

《无线网络:理解和应对互联网环境下网络互连所带来的挑战》——第2章 无线生态系统 2.1无线标准化过程...

本节书摘来自华章出版社《无线网络&#xff1a;理解和应对互联网环境下网络互连所带来的挑战》一书中的第2章&#xff0c;第2.1节&#xff0c;作者&#xff1a;&#xff08;美&#xff09;杰克L.伯班克&#xff08;Jack L. Burbank&#xff09;等著&#xff0c;更多章节内容可以…