机器学习数据集汇总(附下载地址)

大学公开数据集

(Stanford)69G大规模无人机(校园)图像数据集【Stanford】
cvgl.stanford.edu/proje

人脸素描数据集【CUHK】
mmlab.ie.cuhk.edu.hk/ar

自然语言推理(文本蕴含标记)数据集【NYU】
nyu.edu/projects/bowman

Berkeley图像分割数据集BSDS500【Berkeley】
www2.eecs.berkeley.edu/

宠物图片(分割)数据集【Oxford】
robots.ox.ac.uk/~vgg/da

发布ADE20K场景感知/解析/分割/多目标识别数据集【MIT】
groups.csail.mit.edu/vi

多模态二元行为数据集【GaTech】
cbi.gatech.edu/mmdb/

计算机视觉/图像/视频数据集

Fashion-MNIST风格服饰图像数据集【肖涵】
github.com/zalandoresea

大型(50万)LOGO标志数据集
data.vision.ee.ethz.ch/

4D扫描(60fps移动非刚性物体3D扫描)数据集【D-FAUST】
dfaust.is.tue.mpg.de

基于MNIST的视觉计数合成数据集Counting MNIST
fomoro.com/tools/counti

YouTube MV视频数据集【Keunwoo Choi】
github.com/keunwoochoi/

计算机视觉合成数据集/工具大列表【unrealcv】
github.com/unrealcv/syn

动物属性标记数据集【ChristophH. Lampert/Daniel Pucher/JohannesDostal】
cvml.ist.ac.at/AwA2/

日本漫画数据集Manga109
dl.acm.org/citation.cfm?

俯拍舞蹈视频数据集
homepages.inf.ed.ac.uk/

Pixiv(着色)图片数据集【Jerry Li】
github.com/jerryli27/pi

e-VDS视频数据集
engineering.purdue.edu/

Quick, Draw!简笔画涂鸦数据集
github.com/googlecreati

简笔画涂鸦数据集【hardmaru】
github.com/hardmaru/ske

服饰人像生成模型(&Chictopia10K[HumanParsing]时尚人像解析数据集)【Christoph Lassner/Gerard Pons-Moll/Peter V. Gehler】
files.is.tue.mpg.de/cla

COCO像素级标注数据集
github.com/nightrome/co

大规模街道级图片(分割)数据集【Peter Kontschieder】
blog.mapillary.com/prod

大规模日语图片描述数据集
github.com/STAIR-Lab-CI

Cityscapes街景语义分割数据集(50城30类5k细标20k粗标图片及标记视频)
github.com/mcordts/city

(街头)时尚服饰数据集(2000+标注图片)
github.com/bearpaw/clot

PyTorch实现的VOC2012数据集Pixel-wise目标分割【BodoKaiser】
github.com/bodokaiser/p

Twenty Billion Neurons对象复杂运动与交互视频数据集【Nikita Johnson】
re-work.co/blog/the-som

文本/评价/问答/自然语言数据集

(20万)英文笑话数据集【TaivoPungas】
github.com/taivop/joke-

机器学习保险行业问答开放数据集【HainWang】
github.com/shuzi/insura

保险行业问答(QA)数据集【Minwei Feng】
github.com/shuzi/insura

Stanford NLP发布新的多轮、跨域、任务导向对话数据集【Mihail Eric】
github.com/keunwoochoi/

实体/名词语义关系标记数据集【David S. Batista】
github.com/davidsbatist

NLVR:自然语言基础数据集(对象分组、数量、比较及空间关系推理)
lic.nlp.cornell.edu/nlv

2.8万文章/10万问题大规模(英语考试)阅读理解数据集
github.com/qizhex/RACE_

错误拼写数据集
dcs.bbk.ac.uk/~ROGER/co

文本简化数据集
cs.pomona.edu/~dkauchak

英语词/句/语义框架框架标注数据集FrameNet
framenet.icsi.berkeley.edu

(又一个)自然语言处理(NLP)数据集列表【Nicolas Iderhoff】
github.com/niderhoff/nl

跨语种/多样式/多粒度文本相似性检测数据集
github.com/FerreroJerem

Quora数据集:400000行潜在重复问题
qim.ec.quoracdn.net/quo

文本分类数据集
disi.unitn.it/moschitti

Frames:Maluuba对话数据集
datasets.maluuba.com/Fr

跨域(Amazon商品评论)情感数据集
cs.jhu.edu/~mdredze/dat

语义网机器学习系统评价/基准数据集集合
dws.informatik.uni-mannheim.de

其它数据集

数据科学/机器学习数据集汇总
elitedatascience.com/da

CORe50:连续目标识别数据集【VincenzoLomonaco&DavideMaltoni】
vlomonaco.github.io/cor

(Matlab)数据集统计分布自动发现【Isabel Valera】
proceedings.mlr.press/v

(建筑物)损害评估数据集【tsunami】
github.com/faiton713/AB

IndieWeb社交图谱数据集【IndieWeb】
indiemap.org

DeepMind开源环境/数据集/代码集合【DeepMind】
deepmind.com/research/o

鸟叫声数据集【xeno-canto】
xeno-canto.org

Wolfram数据集仓库
datarepository.wolframcloud.com

大型音乐分析数据集FMA
github.com/mdeff/fma

(300万)Instacart在线杂货购物数据集【Jeremy Stanley】
tech.instacart.com/3-mi

用于欺诈检测的合成财务数据集【TESTIMON】
kaggle.com/ntnu-testimo

NSynth:大规模高质量音符标记音频数据集
magenta.tensorflow.org/

LIBSVM格式分类/回归/多标签/字符串数据集
csie.ntu.edu.tw/~cjlin/

笔记本电脑用logistic回归拟合100G数据集【DmitriySelivanov】
dsnotes.com/post/2017-0

StackExchange近似/重复问题数据集
nlp.cis.unimelb.edu.au/

2010-2017最全KDD CUP赛题回顾及数据集
suo.im/2kRoQ1

食谱数据集:带有评级、营养及类别信息的超过2万种食谱【HugoDarwood】
kaggle.com/hugodarwood/

奥斯卡数据集【Academy of Motion Picture Arts and Sciences】
kaggle.com/theacademy/a

计算医疗库:(TensorFlow)大型医疗数据集分析与机器学习建模【AkshayBhat】
github.com/AKSHAYUBHAT/

聚类数据集
cs.joensuu.fi/sipu/data

官方开放气候数据集
pan.baidu.com/s/1i52Xar

全球恐怖袭击事件数据集【START Consortium】
kaggle.com/START-UMD/gt

七个机器学习时序数据集
machinelearningmastery.com

大型众包关系数据库自然语言查询语义解析数据集(8万+查询样本)
t.cn/RNMr09n

赛马赔率数据集
t.cn/RNf0tXN

新的YELP数据集:包含470万评论和15.6万商家
t.cn/RNG6JYi

JMIR数据集专刊《JMIR Data》
t.cn/RCIhmvS

日文木版印刷文字识别数据集
t.cn/RCZPfYB

多模态二元行为数据集
t.cn/RCzFn1g

机器学习论文/数据集/工具集锦(日文)
t.cn/RKV7x2A

机器学习公司的十大数据搜集策略
t.cn/R54rtvd

NLP数据集加载工具集
t.cn/RaYwYXl

日语相似词数据集
t.cn/RaVFV35

大规模人本完形填空(多选阅读理解)数据集
t.cn/Rac2Pey

高质量免费数据集列表
t.cn/R6B1aqa

《数据之美》自然语言数据集/代码
t.cn/hBOTM4

微软数据集MS MARCO,阅读理解领域的「ImageNet」
t.cn/RIMqGBK

AI2科学问答数据集(多选)
t.cn/RI5liwJ

常用图像数据集大全

(分类,跟踪,分割,检测等)
搜狗实验室数据集:
sogou.com/labs/dl/p.htm

互联网图片库来自sogou图片搜索所索引的部分数据。其中收集了包括人物、动物、建筑、机械、风景、运动等类别,总数高达2,836,535张图片。对于每张图片,数据集中给出了图片的原图、缩略图、所在网页以及所在网页中的相关文本。200多G
imageclef.org/

IMAGECLEF致力于位图片相关领域提供一个基准(检索、分类、标注等等) Cross Language Evaluation Forum (CLEF) 。从2003年开始每年举行一次比赛.
staff.science.uva.nl/~x

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479480.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

提供一个Android原生的Progress——SwipeToRefreshLayout下拉刷新时的等待动画

先来上个图看看效果: 这里我为什么要单独把这个拿出来呢,因为最近才开始接触Android最新的东西,也就是5.0以上的东西,发现Android提供的SwipeToRefreshLayout是没有上拉加载更多的,在网上找了不少第三方提供加载更多的…

tensorflow2.0 Dataset创建和使用

一、创建Dataset # 可以接收一个numpy.ndarray、tuple、dict dataset tf.data.Dataset.from_tensor_slices(np.arange(10).reshape((5,2))) dataset tf.data.Dataset.from_tensor_slices(([1,2,3,4,5,6],[10,20,30,40,50,60])) dataset tf.data.Dataset.from_tensor_slices…

导师实验室对学生影响有多大?

读博士导师非常重要,比你们想象得还要更重要。一个优秀的导师不仅在科研帮上很多忙,而且让你懂得怎么做科研,更重要的他教会你怎么做一个合格的学者。 跟这种导师工作,你会发现科研其实是一件非常有趣的事情,它带来的乐…

论文浅尝 | 使用孪生BERT网络生成句子的嵌入表示

论文笔记整理:吴杨,浙江大学计算机学院,知识图谱、NLP方向。https://www.ctolib.com/https://arxiv.org/abs/1908.10084动机谷歌的 BERT 预训练模型,已经能够在两个句子的语义相似度匹配等需要输入一对句子的任务上取得了非常好的…

美团点评效果广告实验配置平台的设计与实现

一. 背景 效果广告的主要特点之一是可量化,即广告系统的所有业务指标都是可以计算并通过数字进行展示的。因此,可以通过业务指标来表示广告系统的迭代效果。那如何在全量上线前确认迭代的结果呢?通用的方法是采用AB实验(如图1&…

LeetCode 832. 翻转图像(异或^)

文章目录1. 题目2. 解题1. 题目 给定一个二进制矩阵 A,我们想先水平翻转图像,然后反转图像并返回结果。 水平翻转图片就是将图片的每一行都进行翻转,即逆序。例如,水平翻转 [1, 1, 0] 的结果是 [0, 1, 1]。 反转图片的意思是图…

MVP模式在Android中的应用之图片展示选择功能的框架设计

前言:虽然安卓出现的时间比其它平台软件比较晚,但是在我们的安卓开发中,一样可以使用我们所熟知的设计模式来给它一个合理、完善的结构,这样,才可以使我们在平常开发的时候减少冗余代码的发生,真正的提高效…

2020年8个效率最高的爬虫框架

一些较为高效的Python爬虫框架。分享给大家。 1.Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。 …

抑制过拟合之正则化与Dropout

避免过拟合: 1、增大数据集合 – 使用更多的数据,噪声点比减少(减少数据扰动所造成的影响) 2、减少数据特征 – 减少数据维度,高维空间密度小(减少模型复杂度) 3、正则化 / dropout / 数据增强…

谈谈神经网络的大规模训练优化

文 | 立交桥跳水冠军源 | 知乎大规模神经网络训练一般会涉及到几百个分布式节点同时工作,模型的参数量以及运算量往往很大,作者认为在这个task下当前的工作主要归结为以下三种:对通信本身的优化,神经网络训练通信的优化&#xff0…

LeetCode 1108. IP 地址无效化

文章目录1. 题目2. 解题1. 题目 给你一个有效的 IPv4 地址 address,返回这个 IP 地址的无效化版本。 所谓无效化 IP 地址,其实就是用 “[.]” 代替了每个 “.”。 示例 1:输入:address "1.1.1.1" 输出:&…

Android NDK开发入门学习笔记(图文教程,极其详尽)

以前也简单用过JNI,但是只是简单用一下,好多都不明白。最近在看源码部分,有涉及到JNI调用的,所以这次打算彻底把它搞定。 先普及一下JNI的调用关系:JAVA------------------------>JNI----------------------------…

论文浅尝 | 利用问题生成提升知识图谱问答

论文笔记整理:谭亦鸣,东南大学博士生,研究方向为知识库问答。来源:NLPCC2019链接:http://tcci.ccf.org.cn/conference/2019/papers/183.pdf本文提出了一种利用问题生成提升知识图谱问答模型性能的方法(一个…

顶会论文:基于神经网络StarNet的行人轨迹交互预测算法

1.背景 民以食为天,如何提升超大规模配送网络的整体配送效率,改善数亿消费者在”吃“方面的体验,是一项极具挑战的技术难题。面向未来,美团正在积极研发无人配送机器人,建立无人配送开放平台,与产学研各方共…

python操作mysql数据库实现增删改查

python操作mysql数据库实现增删改查 Python 标准数据库接口为 Python DB-API,Python DB-API为开发人员提供了数据库应用编程接口。 Python 数据库接口支持非常多的数据库,你可以选择适合你项目的数据库: GadFlymSQLMySQLPostgreSQLMicrosoft …

tf2: Gradients do not exist for variables when minimizing the loss.

WARNING:tensorflow:Gradients do not exist for variables when minimizing the loss. 情况一 该变量没有参与最后loss的计算 (1)如果直接没有参与计算,其实很好就能找出来,删掉无用变量即可; (2&#xff…

LeetCode 654. 最大二叉树(递归)

文章目录1. 题目2. 解题1. 题目 给定一个不含重复元素的整数数组。一个以此数组构建的最大二叉树定义如下: 二叉树的根是数组中的最大元素。 左子树是通过数组中最大值左边部分构造出的最大二叉树。 右子树是通过数组中最大值右边部分构造出的最大二叉树。 通过给…

Probe:Android线上OOM问题定位组件

配送骑手端App是骑手用于完成配送履约的应用,帮助骑手完成接单、到店、取货及送达,提供各种不同的运力服务,也是整个外卖闭环中的重要节点。由于配送业务的特性,骑手App对于应用稳定性的要求非常高,体现App稳定性的一个…

Android中使用官方提供好的功能使用说明(比如系统图库获取),也作为延生学习的学习文档

这篇文章最核心的就是去学习如何学习Android,如何去使用Android文档。 我们一般在刚开始接触开发的时候,如果遇到无法解决的问题,常常会百度,或者google去寻找答案,比如有个需求是获取系统中的图片,你可能…

再介绍一篇Contrastive Self-supervised Learning综述论文

文 | 黄浴源 | 知乎之前已经介绍过三篇自监督学习的综述:《怎样缓解灾难性遗忘?持续学习最新综述三篇!》。这是最近2020年10月arXiv上的又一篇论文"A Survey On Contrastive Self-supervised Learning"。论文地址:https…