【sklearn实战】datasets数据集简介

一 sklearn.datasets数据集

sklearn.datasets 中主要包含了4类数据集。

1.1 Toy datasets(玩具数据集)

scikit-learn 内置的一些小型标准数据集,不需要从某个外部网站下载任何文件,用datasets.load_xx()加载。比如:鸾尾花、波士顿房价等数据集。

Toy datasets 通过 sklearn.datasets.load_<name> 加载对应的数据集。

1.2 Real world datasets(真实世界数据集)

这些数据集通常需要通过sklearn.datasets.fetch_<name>函数从网络上下载,它们是近年来真实收集的数据,适用于更复杂的机器学习任务。例如,新闻组(20 Newsgroups)数据集,这是一个用于文本分类的大型数据集。

1.3 Generated datasets(生成数据集)

sklearn.datasets 还提供了一系列函数来生成人工数据集,如make_classificationmake_regression等。这些函数可以根据用户指定的参数生成用于分类、回归等任务的数据集。

1.4 Loading other datasets(加载其它的数据集)

sklearn.datasets 还提供了一些加载其它数据集的方法,例如:

  • Sample Images(样本图片):一些用于图像处理和计算机视觉任务的数据集,如Olivetti人脸识别数据集等。
  • 可以加载SVMLight或LibSVM格式的数据集,这些格式常用于机器学习竞赛和研究中。
  • 从OpenML下载数据:OpenML是一个用于机器学习数据和实验的公共存储库。通过sklearn.datasets.fetch_openml()函数,可以从OpenML下载各种数据集。
  • 从外部加载数据集
    • kaggle:https://www.kaggle.com
    • 天池:https://tianchi.aliyun.com/dataset
    • 飞桨:https://aistudio.baidu.com/aistudio/datasetoverview
    • 讯飞:http://challenge.xfyun.cn/
    • 搜狗实验室:http://www.sogou.com/labs/resource/list_pingce.php
    • DC竞赛:https://www.pkbigdata.com/common/cmptIndex.html
    • DF竞赛:https://www.datafountain.cn/dataset
    • Google数据集:https://toolbox.google.com/datasetsearch
    • 微软数据集:https://msropendata.com/
    • 科赛网:https://www.kesci.com/home/dataset
    • COCO是一个可用于object detection, segmentation and caption的大型数据集。
    • ImageNet——图像总数约1,500,000; 每个都有多个边界框和相应的类标签。大小:约150GB
    • Yelp Reviews——由数百万用户评论、商业类型和来自多个大型城市的超过20万张照片组成。这在全球都是一个常用的NLP挑战级数据集。大小:2.66 GB JSON,2.9 GB SQL and 7.5 GB Photos(全部已压缩);数量:5,200,000条评论,174,000条商业类型,20万张图片和11个大型城市

建议除了玩具数据集和生成数据集以外,都在网上下载后用pandas导入。

例如,导入iris文件:

import pandas as pd
import seaborn as sns  # 基于matplotlib和pandas的画图库 
import matplotlib.pyplot as pltdata = pd.read_csv("/path/to/iris.csv", encoding='gbk')  # 我把数据集列名改成了中文 所以用gbk解码
sns.relplot(x='petal_width', y='sepal_length', hue="species", data=data)  # seaborn库这里不做过多介绍
plt.rcParams['font.sans-serif'] = ['SimHei']  # 步骤一(替换sans-serif字体)
# plt.rcParams['axes.unicode_minus'] = False  # 步骤二(解决坐标轴负数的负号显示问题)
plt.show()

值得注意的是,sklearn.datasets 中的数据集主要是为了方便教学和入门学习而提供的。在实际应用中,可能需要使用更大规模、更复杂的数据集来训练模型。此外,随着时间的推移,sklearn 库可能会更新和添加新的数据集,因此建议查阅最新的官方文档以获取最准确的信息。

二 数据返回类型

both loaders and fetchers functions return a Bunch object holding at least two items: an array of shape n_samples * n_features with key data (except for 20newsgroups) and a numpy array of length n_samples, containing the target values, with key target. The datasets also contain a full description in their DESCR attribute and some contain feature_names and target_names.

  • data:特征数据数组,是 [n_samples * n_features] 的二维 numpy.ndarray 数组
  • target:标签数组,是 n_samples 的一维 numpy.ndarray 数组
  • DESCR:数据描述
  • feature_names:特征名,新闻数据,手写数字、回归数据集没有
  • target_names:标签名,回归数据集没有

例如:

from sklearn.datasets import load_iris
iris = load_iris()
print(iris.keys())  # 查看键(属性) dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])
print(iris.data[:5]) # 获取特征值
print(iris.target[:5]) # 获取目标值
print(iris.DESCR) # 获取数据集描述
print(iris.data.shape,iris.target.shape)  # 查看数据的形状 (150, 4) (150,)
print(iris.feature_names)  # 查看有哪些特征 这里共4种:['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
print(iris.target_names) # target name:['setosa' 'versicolor' 'virginica']

It’s also possible for almost all of these function to constrain the output to be a tuple containing only the data and the target, by setting the return_X_y parameter to True.

例如:

from sklearn.datasets import load_iris
data, target = load_iris(return_X_y=True)

The dataset generation functions return a tuple (X, y) consisting of a n_samples * n_features numpy array X and an array of length n_samples containing the targets y.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/49852.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AJAX(1)

什么是AJAX? AJAX是异步的JavaScript和XML。简单来说&#xff0c;就是使用XMLHttpRequest对象与服务器通信。它可以使用JSON,XML,HTML和text文本等格式发送和接收数据。AJAX最吸引人的就是它异步的特性&#xff0c;也就是说它可以在不重新刷新页面的情况下与服务器通信&#…

打包团队,招机器视觉工程师整个团队,缺陷检测经验更佳,BOSS半导体大厂背景,不愁订单,现精耕于半导体,PCB,PCBA视觉检测

打包团队&#xff0c;招机器视觉工程师整个团队&#xff0c;缺陷检测经验更佳&#xff0c;BOSS半导体大厂背景&#xff0c;不愁订单&#xff0c;现精耕于半导体&#xff0c;PCB&#xff0c;PCBA视觉检测 视觉人机器视觉 视觉人机器视觉教学 2024年07月28日 00:21 江苏 苏州大视…

C#:通用方法总结—第6集

大家好&#xff0c;今天继续介绍我们的通用方法系列。 下面是今天要介绍的通用方法&#xff1a; &#xff08;1&#xff09;这个通用方法为SW查找草图数量 /// <summary> /// 查找草图数量 /// </summary> /// <param name"doc2"></param>…

书生大模型实战营--L1关卡-OpenCompass 评测 InternLM-1.8B 实践

一、使用 OpenCompass 评测 internlm2-chat-1.8b 模型在 MMLU 数据集上的性能 1、使用lmdeploy部署 internlm2-chat-1.8b模型 2、根据OpenCompass官网教程安装并下载数据集 opencompass/README_zh-CN.md at main open-compass/opencompass GitHub 注意&#xff1a; pyhton…

JAVAWeb实战(前端篇)

项目实战一 0.项目结构 1.创建vue3项目&#xff0c;并导入所需的依赖 npm install vue-router npm install axios npm install pinia npm install vue 2.定义路由&#xff0c;axios&#xff0c;pinia相关的对象 文件&#xff08;.js&#xff09; 2.1路由(.js) import {cre…

当全球银行系统“崩溃”时会发生什么?

有句名言&#xff1a;“当美国打喷嚏时&#xff0c;世界就会感冒……”换句话说&#xff0c;当人们对美国及其经济稳定性的信心下降时&#xff0c;其他经济体&#xff08;以及黄金、白银和股票等资产&#xff09;的价值往往会下降。 与任何其他资产类别一样&#xff0c;加密货…

超详细-数据结构-二叉树概念及结构,堆的概念及结构以及堆的代码的c语言实现

本篇博客将详细讲述二叉树的概念&#xff0c;堆的概念及结构以及堆的代码实现&#xff0c;以及二叉树&#xff0c;堆的相关应用。Top K 问题&#xff0c;堆排序的实现以及二叉树链式结构的实现将在之后的博客更新。你可在目录中找到你想重点阅读的内容。堆的完整代码实现在文章…

如何撤销/回滚远程修改

1. git revert 通过git revert commit_id&#xff0c;撤销指定commit&#xff0c;然后push到远程分支&#xff0c;即可撤销指定commit的修改&#xff0c;并新增一个revert的提交记录。 2. 撤销HEAD的修改并删除提交记录 git reset --hard HEAD^ # 撤销最近一次的修改 git pu…

【秋招笔试题】方程

解析&#xff1a;暴力枚举。建议用Python的eval函数,C手写略麻烦。 #include <iostream> #include <string> #include <vector> #include <sstream>using namespace std;long long stringResult(const string &expr) {vector<string> plusP…

文字改视频技术——Rerender A Video

Rerender A Video 的实现技术结合了深度学习、计算机视觉、图像处理、GPU 加速和云计算等多种先进技术&#xff0c;旨在提供高效、优质的视频渲染和增强功能。以下是详细说明&#xff0c;特别突出风格迁移技术的解释。 一、Rerender A Video 介绍 Rerender A Video 利用深度学…

visual studio性能探测器使用案列

visual studio性能探测器使用案列 在visual studio中&#xff0c;我们可以使用自带的工具对项目进行性能探测&#xff0c;具体如下 1.选择性能探查器 Vs2022/Vs2019中打开方式&#xff1a; Vs2017打开方式&#xff1a; 注意最好将解决方案配置为&#xff1a;Release Debu…

昇思25天学习打卡营第22天|CycleGAN图像风格迁移互换

相关知识 CycleGAN 循环生成网络&#xff0c;实现了在没有配对示例的情况下将图像从源域X转换到目标域Y的方法&#xff0c;应用于域迁移&#xff0c;也就是图像风格迁移。上章介绍了可以完成图像翻译任务的Pix2Pix&#xff0c;但是Pix2Pix的数据必须是成对的。CycleGAN中只需…

如何获得某个Window画面所属包名packageName和用户userId

在安卓上获得某个Window画面所属包名packageName和用户userId的方法 1&#xff0c;用到的工具如下&#xff1a; adb androidSDK里的monitor工具 adb shell dumpsys window animator adb shell dumpsys window命令 jdk 1.8已在安卓14模拟器上测试通过。 以AOSP的launcher中的m…

【.NET 6 实战--孢子记账--从单体到微服务】--开发环境设置

在这一小节&#xff0c;我们将设置开发环境。 一、安装SDK 咱们的项目使用的是 .NET6&#xff0c;开发前我们需要从官网上下载.NET6 SDK&#xff08;点击下载&#xff09;&#xff0c;这里要注意的是我们需要下载.NET6 SDK&#xff0c;而不是 .NET6 Runtiem 。SDK 包含 Runti…

C++静态成员变量和静态成员函数

演示代码如下&#xff1a; #include<iostream> using namespace std;class Person { public://静态成员函数 所有对象共享一个函数&#xff0c;且只能调用静态成员变量 ******static void func(){m_A 300;cout << "静态成员函数调用" << endl;}/…

【MySQL进阶之路 | 高级篇】简述Bin Log日志

1. 日志类型 MySQL有不同类型的日志文件&#xff0c;用来存储不同类型的日志&#xff0c;分为二进制日志、错误日志、通用查询日志和慢查询日志&#xff0c;这也是常用的4种。MySQL 8又新增两种支持的日志:中继日志和数据定义语句日志。使用这些日志文件&#xff0c;可以查看M…

openFeign实现服务间调用

以两个模块&#xff08;batch&#xff0c;business&#xff09;为例子&#xff0c;期望实现batch调用business中的hello接口 在主程序batch中引入pom文件 <!--远程调用openfeign--><dependency><groupId>org.springframework.cloud</groupId><arti…

STK 12.9 feature highlights

STK 12.9 feature highlights The workflow for viewing, adding, deleting, and modifying an object’s active Access Constraints has been completely revamped. Using the “Active Constraints” panel in an object’s Properties Browser, you can view all active A…

Linux网络工具“瑞士军刀“集合

一、背景 平常我们在进行Linux服务器相关运维的时候&#xff0c;总会遇到一些网络相关的问题。我们可以借助这些小巧、功能强悍的工具帮助我们排查问题、解决问题。 下面结合之前的一些使用经验为大家介绍一下一些经典应用场景下&#xff0c;这个网络命令工具如何使用的。例如怎…

游泳馆押金原路退回源码解析

<dl class"list "><dd class"address-wrapper dd-padding"><div class"address-container"><cyberdiv style"color:#f0efed;font-size:14px;float:right;position:absolute;right:10px;top: 2px;">●●●<…