机器学习模型开发必读:开源数据库最全盘点

机器学习模型开发必读:开源数据库最全盘点

开发 AI 和机器学习系统从来没有像现在这样方便。类似于 TensorFlow、Torch 和 Spark 这样的开源工具,在 AI 开发者群体中已是无处不在。再加上亚马逊 AWS、Google Cloud 等云服务带来的海量计算能力,将来使用笔记本电脑来训练 ML 模型或许不再难以想象。

公众对 AI 的遐想,总忽视了数据的角色。但海量被标记、注解过的数据,是当下 AI 革命当之无愧的主要推手之一。业内研究团队和公司机构,均明白“数据民主化”的意义——使任何开发者都能获取高质量的数据来训练、测试模型,是加速 AI 技术发展的必要措施。

但就雷锋网所知,大多数涉及机器学习和 AI 的产品依赖于专有数据库( proprietary datasets)。它们大多是不被公开的,以保护知识产权以及防范安全风险。

即便你幸运地找到了相关公共数据库,判断后者的价值和可靠程度,又是一项让很多开发者头痛的问题。对于概念论证是如此;对于潜在的产品或者特性验证同样如此——在收集你的专有数据之前,决定该验证需要何种数据集。

有经验的开发者都知道,机器学习系统在样本数据集上展示出的优异性能,并不能保证其实际效果。许多 AI 从业人员似乎已经忘记了,数据采集和标记才是开发 AI 解决方案最难的一环。标准的数据集,可被用作验证集,或作为开发更偏向私人订制方案的起始点。

本周,Vai Technologies 的创始人、前斯坦福 SLAC 实验室 CNN 算法架构师 Luke de Oliveira,和其他几名机器学习专家谈到了这个问题。雷锋网(公众号:雷锋网)了解到,他们最后决定做一张表单,把 AI 领域含金量最高的开源数据库罗列出来,与大家分享。

计算机视觉

机器学习模型开发必读:开源数据库最全盘点

MNIST

标签:学术基准 经典 较旧

合理性测试(sanity check)最常用的数据库。规格为 25x25、中心的、B&W 手写数字。用 MNIST 测试非常容易,但不要因为你的模型在 MNIST 运行良好,就认为它事实上可用。

地址:https://pjreddie.com/projects/mnist-in-csv/

CIFAR 10 & CIFAR 100

标签:经典 较旧

32x32 彩色图像。虽然用得人比以前少了很多,但仍然能用它做有趣的合理性测试。

地址:https://www.cs.toronto.edu/~kriz/cifar.html

ImageNet

标签:实用 学术基准 经典

这个用不着介绍,新算法的首选图像数据集。Luke de Oliveira 表示,许多图像 API 公司从 REST 交互界面搞来的标记,与 ImageNet 1000 目录中的 WordNet 层级很接近,让人怀疑。

地址:http://image-net.org/

LSUN

标签:无

场景理解,许多其它附加任务(比如房间布局预估,显着性预测 “saliency prediction”),以及与之关联的竞赛。

地址:http://lsun.cs.princeton.edu/2016/

PASCAL VOC

标签:学术基准

一般性的图像分割和分类。对于创建现实世界中的图像注解并不是十分有用,但作为基准很不错。

地址:http://host.robots.ox.ac.uk/pascal/VOC/

SVHN

标签:学术基准

谷歌街景视图中的住宅号。可以把它当做野生的递归( recurrent) MNIST。

地址:http://ufldl.stanford.edu/housenumbers/

MS COCO

标签:无

 一般性的图像理解/说明,有相关竞赛。

地址:http://mscoco.org/

Visual Genome

标签:实用

非常细致的视觉知识库,对超过十万张图像有深度注解。

地址:http://visualgenome.org/

Labeled Faces in the Wild

标签:实用 学术基准 经典 较旧

修剪过的面部区域(使用 Viola-Jones),用一个 name identifier 做过标记。其中每一个展示的人在数据集中有两个图像,这是作为他的子集。开发者经常用它来训练面部匹配系统。

地址:http://vis-www.cs.umass.edu/lfw/

自然语言

机器学习模型开发必读:开源数据库最全盘点

Text Classification Datasets

标签:实用 学术基准

来自论文 Zhang et al., 2015。这是有八个文字分类数据集组成的大型数据库。对于新的文字分类基准,它是最常用的。样本大小为 120K 到 3.6M,包括了从二元到 14 阶的问题。来自 DBPedia, Amazon, Yelp, Yahoo!,搜狗和 AG 的数据集。

地址:https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M

WikiText

标签:实用 学术基准

源自高品质维基百科文章的大型语言建模语料库。Salesforce MetaMind 维护。

地址:http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/

Question Pairs

标签:实用

Quora 发布的第一个数据集,包含副本/语义近似值标记。

地址:https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

SQuAD

标签:实用 学术基准

斯坦福的问答社区数据集——适用范围较广的问题回答和阅读理解数据集。每一个回答都被作为一个 span,或者一段文本。

地址:https://rajpurkar.github.io/SQuAD-explorer/

CMU Q/A Dataset

标签:无

人工创建的仿真陈述问题/回答组合,还有维基百科文章的难度评分。

地址:http://www.cs.cmu.edu/~ark/QA-data/

Maluuba Datasets

标签:实用

为 NLP 研究人工创建的复杂数据集。

地址:https://datasets.maluuba.com/

Billion Words

标签:实用 学术基准

大型、通用型建模数据集。时常用来训练散布音(distributed)的词语表达,比如 word2vec 或  GloVe。

地址:http://www.statmt.org/lm-benchmark/

Common Crawl

标签:实用 学术基准

PB(拍字节)级别的网络爬虫。最经常被用来学习词语嵌入。可从 Amazon S3 免费获取。对于 WWW 万维网的信息采集,是一个比较有用的网络数据集。

地址:http://commoncrawl.org/the-data/

bAbi

标签:学术基准 经典

Facebook AI Research (FAIR) 推出的合成阅读理解和问题回答数据集。

地址:https://research.fb.com/projects/babi/

The Children's Book Test

标签:学术基准

Project Gutenberg(一项正版数字图书免费分享工程)儿童图书里提取的成对数据(问题加情境,回答)基准。对问答、阅读理解、仿真陈述(factoid)查询比较有用。

地址:https://research.fb.com/projects/babi/

Stanford Sentiment Treebank

标签:学术基准 经典 较旧

标准的情绪数据集,对每一句话每一个节点的语法树,都有细致的情感注解。

地址:http://nlp.stanford.edu/sentiment/code.html

20 Newsgroups

标签:经典 较旧

一个较经典的文本分类数据集。通常作为纯粹分类或者对 IR / indexing 算法验证的基准,在这方面比较有用。

地址:http://qwone.com/~jason/20Newsgroups/

Reuters

标签:经典 较旧

较老的、基于纯粹分类的数据集。文本来自于路透社新闻专线。常被用于教程之中。

地址:https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection

 IMDB

标签:经典 较旧

较老的、相对比较小的数据集。用于情绪分类。但在文学基准方面逐渐失宠,让位于更大的数据集。

地址:http://ai.stanford.edu/~amaas/data/sentiment/

UCI’s Spambase

标签:经典 较旧

较老的、经典垃圾邮件数据集,源自于 UCI Machine Learning Repository。由于数据集的管理细节,在学习私人订制垃圾信息过滤方面,这会是一个有趣的基准。

地址:https://archive.ics.uci.edu/ml/datasets/Spambase

语音

机器学习模型开发必读:开源数据库最全盘点

大多数语音识别数据库都是专有的——这些数据对其所有公司而言有巨大价值。绝大部分该领域的公共数据集已经很老了。

2000 HUB5 English

标签:学术基准 较旧

只包含英语的语音数据。最近一次被使用是百度的深度语音论文。

地址:https://catalog.ldc.upenn.edu/LDC2002T43

LibriSpeech

标签:学术基准

有声图书数据集,包含文字和语音。接近 500 个小时的清楚语音,来自于多名朗读者和多个有声读物,根据图书章节来组织。

地址:http://www.openslr.org/12/

VoxForge

标签:实用 学术基准

带口音英语的清晰语音数据集。如果你需要有强大的不同口音、语调识别能力,会比较有用。

地址:http://www.voxforge.org/

TIMIT

标签:学术基准 经典

只含英语的语音识别数据集。

地址:https://catalog.ldc.upenn.edu/LDC93S1

CHIME

标签:实用

含大量噪音的语音识别挑战杯数据集。它包含真实、模拟和清晰的录音:真实,是因为该数据集包含四个说话对象在四个不同吵闹环境下接近 9000 段的录音;模拟,是通过把多个环境与语音结合来生成;清晰,是指没有噪音的清楚录音。

地址:http://spandh.dcs.shef.ac.uk/chime_challenge/data.html

TED-LIUM

标签:无

TED 演讲的音频转录。包含 1495 场 TED 演讲,以及它们的完整字幕文本。

地址:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus

推荐和排名系统

机器学习模型开发必读:开源数据库最全盘点

Netflix Challenge

标签:经典 较旧

第一个 Kaggle 模式的数据挑战。由于盗版问题只能获得非官方版本。

地址:http://www.netflixprize.com/

MovieLens

标签:实用 学术基准 经典

不同大小的电影点评数据——一般作为协同过滤的基准。

地址:https://grouplens.org/datasets/movielens/

Million Song Dataset

标签:无

Kaggle 上的大型、富含原数据的开源数据集。对于试验混合推荐系统有价值。

地址:https://www.kaggle.com/c/msdchallenge

Last.fm

标签:实用

音乐推荐数据集,并关联相关社交网络和其他元数据。对混合系统有用处。

地址:http://grouplens.org/datasets/hetrec-2011/

网络和图

机器学习模型开发必读:开源数据库最全盘点

Amazon Co-Purchasing 和 Amazon Reviews

标签:学术基准

从亚马逊“买了这个的用户还买了XXX”功能抓取的数据,还有相关商品的评价数据。对于试验网络中的推荐系统有价值。

地址:http://snap.stanford.edu/data/#amazon

http://snap.stanford.edu/data/amazon-meta.html

Friendster 社交网络数据集

标签:无

在成为游戏网站之前,Friendster 发布了 103,750,348 名用户朋友名单的匿名数据。

地址:https://archive.org/details/friendster-dataset-201107

地理空间数据

机器学习模型开发必读:开源数据库最全盘点

OpenStreetMap

标签:实用

整个地球的矢量数据,处于免费协议下。它的旧版本包含美国人口统计部门的 TIGER 数据。

地址:http://wiki.openstreetmap.org/wiki/Planet.osm

Landsat8

标签:实用

整个地球表面的卫星拍照,每隔几周更新一次。

地址:https://landsat.usgs.gov/landsat-8

NEXRAD

标签:实用

多普勒天气雷达对美国大气情况的扫描。

地址:https://www.ncdc.noaa.gov/data-access/radar-data/nexrad

后话

人们经常认为,能在一个数据集上解决问题,就等同于有了一个能用的产品。开发者可以使用这些数据集作为验证集,或用作概念论证;但别忘了测试,或创建模拟产品运行的原型机。获取更新、更真实的数据来改善模型非常关键。雷锋网了解到,成功的数据驱动型公司,往往擅长收集新的专有数据,以及改善产品性能增强竞争优势。而这往往是竞争对手难以直接 copy 的。






本文作者:三川
本文转自雷锋网禁止二次转载,原文链接

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/288712.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

离散数学4

离散数学4:析取范式与合取范式 命题公式的两种规范表示方法,能表达真值表所能提供的一切信息。 命题变项及其否定统称作文字。仅由有限个文字构成的析取式叫简单析取式,仅由有限个文字构成的合取式叫简单合取式。 (析取式就是由∨…

linux c之遍历字符串数组

1 问题 比如我们要遍历字符串数组&#xff0c;我们的思路一般是先求字符串数组的长度&#xff0c;然后再用for循环便利&#xff0c;其实没必要这样&#xff0c;我们直接在 字符串数组后面加上个NULL就行再去遍历 2 代码实现 #include <stdio.h>int main() {static con…

php之clone 复制对象以及__clone魔术方法

如果错误和不足请给予指出&#xff0c;谢谢~ (⊙&#xff3f;⊙) 在开始使用clone之前我们下先看以下一个小例子&#xff1a; <?php //首先定义一个test一个类 class Testclass {//成员变量是$value1public $value1; } //随后new一个obj1 $obj1 new Testclass(); //复…

java语言中的浮点型数据分为,Java语言中的浮点型数据根据数据存储长度和数值精度的不同,进一步分为float型和double型,其中dou...

Java语言中的浮点型数据根据数据存储长度和数值精度的不同&#xff0c;进一步分为float型和double型&#xff0c;其中dou更多相关问题【单选题】下列因素中不是经济中内在稳定器的是【单选题】外在时滞是以下哪两者之间的时间&#xff1a;【单选题】当经济中存在失业时&#xf…

python查看图片的源代码_python实现图片筛选程序

今天因工作需要写了个小程序&#xff0c;用于在图片集中自动抽取需要的照片。该程序只是实现了基本功能&#xff0c;还有很多需要完善的地方&#xff0c;展示出来算是给自己鼓鼓气吧。该程序应用有一定特殊条件&#xff0c;因我选择的图片集是工业生产过程中自动拍摄生成的&…

C#中使用WeiFenLuo.WinFormsUI.Docking.dll实现窗口停靠效果

很酷的效果&#xff0c;很值得好好去学习的哈。 重置工具箱&#xff1a; 新建一个WinForm程序,项目名称为TestDockPanelControl。选中Form1窗体后选择工具箱--->>新建个添加选项卡命名为WeiFenLuo--->>右键--->>选择项--->>浏览--- >>weiFenLuo.…

使用aspnetcore前后端分离开发,你一定要知道这个。

前言用过Vue单页面应用开发的&#xff0c;一定都知道Vue-router这个路由组件&#xff0c;它支持hash和history两种模式。HTML5 History 模式vue-router 默认 hash 模式 —— 使用 URL 的 hash 来模拟一个完整的 URL&#xff0c;于是当 URL 改变时&#xff0c;页面不会重新加载。…

Atitit. 木马病毒的外部class自动加载机制------加载class的方法总结

Atitit. 木马病毒的外部class自动加载机制------加载class的方法总结 Atitit.java load class methods 1. 动态加载jar文件和class文件。 1 2. 使用Class静态方法 Class.forName 1 2.1. 使用ClassLoader 1 2.2. 3. 直接new 2 3. Ref 2 1. 动态加载jar文件和class文件。 完成…

剑指offer之找到链表里面包含环的入口节点

1 问题 剑指offer之找到链表里面包含环的入口节点&#xff0c;比如 // node7<-node6 <-node5// | |//head->node1->node2->node3->node4 环的入口节点是node2 2 代码实现 #include <stdio.h> #include <s…

Visual Studio 2015专业版创建Win32控制台应用程序,C,C++源文件

原配的Visual Studio 2015专业版不像之前的版本,在新建项目里面是找不到Win32模板的,那么怎么才能新建Win32项目和Win32控制台应用程序呢?今天我就带大家做一简单介绍。 先看如下图所示: 解决: 1、添加的办法是点击上图所示的新建项目界面的Visual C++下面的Windows,再…

php 序列化对象

习惯性借用手册里面的介绍&#xff1a; 所有php里面的值都可以使用函数serialize()来返回一个包含字节流的字符串来表示。unserialize()函数能够重新把字符串变回php原来的值。序列化一个对象将会保存对象的所有变量&#xff0c;但是不会保存对象的方法&#xff0c;只会保存类…

php html标签自定义属性,详解H5的自定义属性data-*

HTML5 增加了一项新功能是 自定义数据属性 &#xff0c;也就是 data-* 自定义属性。在HTML5中我们可以使用以 data- 为前缀来设置我们需要的自定义属性&#xff0c;来进行一些数据的存放当然高级浏览器下可通过脚本进行定义和数据存取。在项目实践中非常有用。例如&#xff1a;…

cdoj 1131 男神的礼物 区间dp

男神的礼物 Time Limit: 20 Sec Memory Limit: 256 MB 题目连接 http://acm.uestc.edu.cn/#/problem/show/1131 Description Lweb学长是集训队里公认的男神。有一天他要给美美的学姐姐准备礼物。Lweb学长可是会魔法的哟。为了准备一份礼物&#xff0c;男神要加工n份材料。每一次…

如何为同一 DTO 属性指定 2 个名称

前言我们在《实现DDD领域驱动设计》中谈到过输出 DTO 的最佳实践&#xff0c;其中一条是&#xff1a;保持输出 DTO 数量最少&#xff0c;尽可能重用。但是&#xff0c;对于 2 个不同接口输出的同一 DTO 属性&#xff0c;客户端可能需要对应不同的名称&#xff0c;比如&#xff…

HDU 4777 Rabbit Kingdom 树状数组

分析&#xff1a;找到每一个点的左边离他最近的不互质数&#xff0c;记录下标(L数组)&#xff0c;右边一样如此&#xff08;R数组&#xff09;&#xff0c;预处理 这个过程需要分解质因数O&#xff08;n*sqrt(n)) 然后离线&#xff0c;按照区间右端点排序 然后扫一遍&#xff0…

按一行一行的方法将一个文本文件复制到另一个文件中_命令行技巧:分割文件内容...

(给Linux爱好者加星标&#xff0c;提升Linux技能)英文&#xff1a;Stephen Snow&#xff0c;翻译&#xff1a;Linux中国/MjSevenlinux.cn/article-10809-1.htmlFedora 发行版是一个功能齐全的操作系统&#xff0c;有出色的图形化桌面环境。用户可以很容易地通过单击动作来完成任…

java:遍历

import java.util.ArrayList;import java.util.Iterator;import java.util.List;/*** 遍历数组四种方法*/class Test {/*** 注&#xff1a;Iterator 迭代器*/public static void main(String[] args) {Test1 t new Test1();Test1 t1 new Test1();List list new ArrayList();…

谷歌浏览器之如何调试页面js

1 问题 谷歌浏览器如果调试页面js 2 举例子 比如我们需要调试www.baidu.com这个页面&#xff0c;我们需要先按下F12&#xff0c;然后再去点击Source,然后在找到相应的js文件&#xff0c;在左边进行打上断点&#xff0c;然后我们再刷新页面&#xff0c;然后我们在右边可以看到…

Matlab 2016b+TimeSat 3.1中文经典安装及使用教程(附下载地址)

本教程为博主刘一哥GIS原创,坚决打击侵权行为,严禁抄袭!!! 目录 一、Matlab2016b下载及安装 二、TimeSat 3.1软件安装 三、TimeSat 3.1软件的使用和说明详解

对象比较 ===三个等于号

可能这是我博客里面最短的博文了。 有关三个等于号的用法。。。 我在这个分类里只是记录一下php中少见的东西&#xff0c;或者说是php中书上不是太过详细介绍的东西。 那么我在这里直接引用php手册里面的内容吧&#xff0c;很简单&#xff1a;当使用比较运算符&#xff08;&…