机器学习深度学习用得到的数据集

以下是一些常见的机器学习数据集下载渠道:

  1. Google 数据集搜索引擎:可以通过文本搜索数据集,并能按日期、数据格式和使用权限等进行过滤。地址:https://datasetsearch.research.google.com/
  2. Kaggle:这是世界领先的数据科学平台,拥有大量数据集,还允许用户发布数据集及与其他数据科学家交流和竞争。地址:https://www.kaggle.com/datasets
  3. UCI 机器学习存储库:加州大学尔湾分校提供的数据库,有 550 多个数据集,可按问题类型(如分类、回归和聚类等)进行筛选。地址:UCI Machine Learning Repository
  4. 亚马逊数据集:包含来自不同领域的数据集,具有一些较大型的数据集。地址:Registry of Open Data on AWS
  5. 微软数据集:在公共云中提供数据存储库以促进全球研究社区协作,并提供已用于发表研究的整理数据集。地址:https://azure.microsoft.com/en-us/services/open-datasets/catalog/?q+
  6. 数据世界(data.world):与 Google 数据集搜索引擎类似,搜索深度较好,能显示数据集及可能包含所需数据的子文件。地址:The Data Catalog Platform | data.world
  7. 欧洲核子研究组织开放数据门户:提供有关最小物理量(粒子物理学)的数据。地址:CERN Open Data Portal
  8. Lionbridge AI 数据集:Lionbridge 公司的网站上展示了各种数据集,还有相关文章介绍,例如用于机器学习的气候变化数据集、免费数据集等。地址:https://lionbridge.ai/datasets/
  9. Awesome 公共数据集(https://github.com/awesomedata/awesome-public-datasets):这是一个由社区公开维护的按主题分类的数据集清单,涵盖了生物学、经济学、教育学等多个领域,其中多数数据集免费,但使用前需检查许可要求。
  10. 计算机视觉数据集(VisualData - Search Engine for Computer Vision Datasets):如果你从事图像处理、计算机视觉或深度学习工作,这里有许多可用于构建计算机视觉模型的数据集,能通过特定的计算机视觉任务查找相应数据集。

还有一些其他途径可以获取数据集,比如:

  • 企业产生的用户数据:如百度指数(百度指数)、阿里指数(https://alizs.taobao.com/TBI )等。
  1. Kaggle:拥有各种有趣的数据集,涵盖多个领域。链接为:https://www.kaggle.com/
  2. UCI 机器学习库:是较为古老的数据集源之一,有大量用户贡献的数据集,多数较为干净,可直接下载且无需注册。链接为:http://mlr.cs.umass.edu/ml/
  3. AI Studio 数据集:百度的人工智能学习与实训社区提供的开放数据集。链接为:开放数据集-飞桨AI Studio星河社区
  4. 天池数据集:阿里系唯一对外开放数据分享平台。链接为:天池数据集_阿里系唯一对外开放数据分享平台-阿里云天池
  5. Papers With Code 数据集:可以找到与相关论文对应的数据集。链接为:Machine Learning Datasets | Papers With Code
  6. Graviti Open Datasets:提供公开数据集下载,包括图像识别、NLP 等领域的数据集。链接为:https://gas.graviti.cn/open-datasets
  7. Huggingface 数据集:链接为:https://huggingface.co/datasets
  8. CLUE 数据集:https://www.cluebenchmarks.com/dataSet_search.html
  9. VisualData:分好类的计算机视觉数据集,可以进行搜索。链接为:VisualData - Search Engine for Computer Vision Datasets

一些具体的数据集如下:

  • ImageNet:知名的图像数据集,李飞飞参与创建,对计算机视觉领域影响深远。链接为:ImageNet
  • MS COCO:也是知名的计算机视觉数据集。链接为:http://mscoco.org/
  • 斯坦福狗子数据集:包含20580张狗子的图片,涉及120个不同品种。链接为:Stanford Dogs dataset for Fine-Grained Visual Categorization
  • 安然数据集:来自安然高级管理层的电子邮件数据。链接为:Enron Email Dataset
  • 亚马逊评论:包含约3500万条亚马逊上18年来的评论,包括产品和用户信息、评级及文本审核等数据。链接为:SNAP: Web data: Amazon reviews
  • 20 万英文笑话数据集:GitHub - taivop/joke-dataset: A dataset of 200k English plaintext jokes.
  • Berkeley 图像分割数据集 BSDS500:UC Berkeley Computer Vision Group - Contour Detection and Image Segmentation - Resources
  • ADE20K 场景感知/解析/分割/多目标识别数据集:ADE20K dataset


  •  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/43993.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PHP禁止IP访问和IP段访问(代码实例)

PHP禁止IP和IP段访问 实现IP限制是Web开发中常见的需求之一&#xff0c;它可以用于限制特定IP地址的访问权限。在PHP中&#xff0c;我们可以通过一些方法来实现IP限制。 <?//禁止某个IP$banned_ip array ("127.0.0.1",//"119.6.20.66","192.168.…

C#中简单Socket编程

C#中简单Socket编程 Socket分为面向连接的套接字(TCP套接字)和面向消息的套接字(UDP 套接字)。我们平时的网络编程是对Socket进行操作。 接下来&#xff0c;我用C#语言来进行简单的TCP通信和UDP通信。 一、TCP通信 新建项目SocketTest&#xff0c;首先添加TCP通信的客户端代…

71.WEB渗透测试-信息收集- WAF、框架组件识别(11)

免责声明&#xff1a;内容仅供学习参考&#xff0c;请合法利用知识&#xff0c;禁止进行违法犯罪活动&#xff01; 内容参考于&#xff1a; 易锦网校会员专享课 上一个内容&#xff1a;70.WEB渗透测试-信息收集- WAF、框架组件识别&#xff08;10&#xff09;-CSDN博客 如果有…

[数仓]十、离线数仓(安全集群实战)

第1章 概述 Hadoop启用Kerberos安全认证之后,之前的非安全环境下的全流程调度脚本和即席查询引擎均会遇到认证问题,故需要对其进行改进。 第2章 数仓全流程 2.1 改动说明 此处统一将数仓的全部数据资源的所有者设为hive用户,全流程的每步操作均认证为hive用户。 2.2 改…

RT2-使用NLP的方式去训练机器人控制器

目标 研究在网络数据上训练的视觉语言模型也可以直接结合到端到端的机器人控制中&#xff0c;提升泛化性以及获得突出的语义推理&#xff1b;使得单个的端到端训练模型可以同时学习从机器人观测到动作的映射&#xff0c;这个过程可以受益于基于网络上的语言和视觉语言数据的预训…

【工具分享】FOFA——网络空间测绘搜索引擎

文章目录 FOFA介绍FOFA语法其他引擎 FOFA介绍 FOFA官网&#xff1a;https://fofa.info/ FOFA&#xff08;Fingerprinting Organizations with Advanced Tools&#xff09;是一款网络空间测绘的搜索引擎&#xff0c;它专注于帮助用户收集和分析互联网上的设备和服务信息。FOFA…

提高LabVIEW软件的健壮性

提高LabVIEW软件的健壮性&#xff0c;即增强其在各种操作条件下的可靠性和稳定性&#xff0c;是开发过程中非常重要的一环。健壮的软件能够在面对意外输入、极端环境和系统故障时依然表现出色&#xff0c;确保系统的连续性和可靠性。以下是详细的方法和策略&#xff0c;从多个角…

如何在 CentOS 上配置本地 YUM 源

引言 CentOS 作为一个流行的企业级 Linux 发行版&#xff0c;依赖 YUM&#xff08;Yellowdog Updater, Modified&#xff09;来管理软件包。YUM 源&#xff08;Repository&#xff09;是软件包存储和分发的中心&#xff0c;它们通常位于互联网上。然而&#xff0c;在某些情况下…

Linux驱动开发-03字符设备驱动框架搭建

一、字符设备驱动开发步骤 驱动模块的加载和卸载&#xff08;将驱动编译模块&#xff0c;insmod加载驱动运行&#xff09;字符设备注册与注销&#xff08;我们的驱动实际上是去操作底层的硬件&#xff0c;所以需要向系统注册一个设备&#xff0c;告诉Linux系统&#xff0c;我有…

快速入门,springboot知识点汇总

学习 springboot 应该像学习一门编程语言一样&#xff0c;首先要熟练掌握常用的知识&#xff0c;而对于不常用的内容可以简单了解一下。先对整个框架和语言有一个大致的轮廓&#xff0c;然后再逐步补充细节。 前序: Spring Boot 通过简化配置和提供开箱即用的特性&#xff0c…

SQL 字段类型-上

定义方式 use xxxx; 使用xxxx数据库后 create table table_name {username char(20)/*数据类型*/ null/*属性*/,password varchar(10) not null; 字段名... } 整型数据 和高级语言一样可以用 int unsigned 修饰无符号放在后面 数据类型关键字描述迷你整型tinyint使用1…

Java:解锁Lambda表达式的魔法——从零开始的函数式编程之旅

解密Java Lambda&#xff1a;从初识到精通&#xff0c;解锁编程新境界 引言&#xff1a;迎接函数式编程的曙光 自Java 8发布以来&#xff0c;函数式编程的概念如同一股清风&#xff0c;吹进了Java程序员的世界。其中&#xff0c;最引人瞩目的便是Lambda表达式。Lambda表达式的…

dify/api/models/tools.py文件中的数据表

源码位置&#xff1a;dify/api/models/tools.py ToolBuiltinProvider 表结构 字段英文名数据类型字段中文名字备注idStringUUIDIDUUID生成tenant_idStringUUID租户ID可为空user_idStringUUID用户ID非空providerString提供者非空encrypted_credentialsText加密凭证可为空creat…

在 Qt6 中,QList 和 QVector 统一 成qlist了吗?

是的&#xff0c;在 Qt6 中&#xff0c;QList 和 QVector 已经被统一了。具体来说&#xff0c;QList 现在基本上就是 QVector 的一个别名。这一改变意味着 QList 和 QVector 具有相同的性能和行为特性。 在 Qt5 中&#xff0c;QList 有自己的内部实现&#xff0c;对小型对象&a…

第三期书生大模型实战营 第1关 Linux 基础知识

第三期书生大模型实战营 第1关 Linux 基础知识 第三期书生大模型实战营 第1关 Linux 基础知识InternStudio开发机创建SSH密钥配置通过本地客户端连接远程服务器通过本地VSCode连接远程服务器运行一个Python程序总结 第三期书生大模型实战营 第1关 Linux 基础知识 Hello大家好&a…

cesium 雷达扫描

cesium 雷达扫描 (下面附有源码) 实现思路 1、通过改变圆型材质来实现效果, 2、用了模运算和步进函数(step)来创建一个重复的圆形图案 3、当纹理坐标st落在垂直或水平的中心线上时,该代码将改变透明度和颜色,以突出显示这些线 示例代码 <!DOCTYPE html> <ht…

成为编程大佬!!——数据结构与算法(1)——算法复杂度!!

前言&#xff1a;解决同一个程序问题可以通过多个算法解决&#xff0c;那么要怎样判断一个算法的优劣呢&#xff1f;&#x1f914; 算法复杂度 算法复杂度是对某个程序运行时的时空效率的粗略估算&#xff0c;常用来判断一个算法的好坏。 我们通过两个维度来看算法复杂度——…

Maven在Windows中的配置方法

本文介绍在Windows电脑中&#xff0c;下载、配置Maven工具的详细方法。 Maven是一个广泛使用的项目管理工具&#xff0c;主要针对Java项目&#xff0c;但也可以用于其他类型的项目&#xff1b;其由Apache软件基金会维护&#xff0c;旨在简化和标准化项目构建过程&#xff0c;依…

数字经济时代,你有数商吗?

引言&#xff1a;随着科技的飞速发展&#xff0c;我们正步入一个全新的数字经济时代。在这个时代里&#xff0c;数据成为了新的石油&#xff0c;是推动经济增长和社会进步的关键要素。而在这个数据洪流中&#xff0c;一个新兴的概念——“数商”&#xff0c;正逐渐进入公众的视…

白骑士的C++教学基础篇 1.3 控制流

系列目录 上一篇&#xff1a;白骑士的C教学基础篇 1.2 C基础语法 在编程中&#xff0c;控制流是指控制代码执行顺序的结构和语句。C 提供了多种控制流语句&#xff0c;使开发者能够根据条件执行不同的代码块&#xff0c;或者重复执行代码块。本篇博客将介绍 C 中的控制流&…