Scikit-learn内置的数据集

数据集是我们学习和研究机器学习不可或缺的基础,Scikit-learn库内置了丰富的数据集资源,非常适合初学者用来练习和验证机器学习算法的效果。

一、鸢尾花数据集

鸢尾花数据集(Iris Dataset)是机器学习领域中最著名的数据集之一,常被用于分类问题的演示和算法的测试。

数据集概览:

  • 样本数量:150个样本

  • 特征数量:4个特征,花瓣长度(Sepal Length)、花瓣宽度(Sepal Width)、花萼长度(Petal Length)、花萼宽度(Petal Width)

  • 标签数量:3个标签类别,鸢尾草(Iris Setosa)、蝴蝶花(Iris Versicolour)、维吉尼亚鸢尾(Iris Virginica)

数据集的应用:

  • 作为机器学习入门教学的实例数据集。

  • 测试分类算法的性能,如K近邻(KNN)、支持向量机(SVM)、决策树、随机森林等。

  • 进行数据可视化和降维的练习,例如使用散点图矩阵展示特征之间的关系,或使用PCA(主成分分析)进行数据降维。

在Scikit-learn中加载鸢尾花数据集的代码如下:

from sklearn.datasets import load_iris# 加载鸢尾花数据集
iris = load_iris()# 查看特征名称
print("特征名称:", iris.feature_names)# 查看类别名称
print("标签名称:", iris.target_names)# 显示数据集的形状
print("\n特征集形状:", iris.data.shape)# 显示目标数据的形状
print("标签集形状:", iris.target.shape)# 查看数据特征
print("\n前几个特征数据:\n", iris.data[:5])# 查看目标标签
print("前几个标签数据:\n", iris.target[:5])
  • 输出结果:

图片

二、手写数字数据集

手写数字数据集(Digits Dataset)是一个在机器学习和计算机视觉领域中非常流行的数据集,特别是在进行数字识别任务时。这个数据集包含了1797个8x8像素的灰度手写数字图像,每个图像都是一个介于0到9之间的数字。

数据集概览:

  • 样本数量:1797个样本。

  • 图像大小:8x8像素。

  • 标签数量:10个(0到9的每个数字)。

  • 颜色空间:灰度图像,即每个像素点只有一个灰度值。

数据集的应用:

  • 分类任务:手写数字数据集通常用于监督学习中的分类任务,特别是多类分类。

  • 数据可视化:由于图像大小较小,可以用于展示数据的分布和形态。

  • 模型训练和测试:用于训练和测试不同的图像识别和分类算法。

在Scikit-learn中加载手写数字数据集的代码如下:

from sklearn.datasets import load_digits# 加载手写数字数据集
digits = load_digits()# 获取特征数据和目标数据
X_digits = digits.data
y_digits = digits.target# 特征数据是8x8的像素值数组
# 目标数据是对应的数字标签,从0到9# 显示特征名称
print("特征名称:", digits.feature_names)# 显示目标名称
print("标签名称:", digits.target_names)# 显示数据集的形状
print("\n特征数据形状:", X_digits.shape)# 显示目标数据的形状
print("标签数据形状:", y_digits.shape)print("\n前几个样本图像:")# 显示前几个图像
import matplotlib.pyplot as pltfig, axes = plt.subplots(1, 10, figsize=(10, 3))
for i, ax in enumerate(axes):ax.imshow(X_digits[i].reshape(8, 8), cmap=plt.cm.binary, interpolation='nearest')ax.text(0.5, 0.5, str(y_digits[i]), color='red', fontweight='bold',verticalalignment='center', horizontalalignment='center')ax.axis('off')
plt.show()
  • 输出结果:

图片

三、葡萄酒数据集

葡萄酒数据集(Wine Dataset)是另一个在机器学习中常用的数据集,特别是在进行分类任务时。这个数据集最初由意大利伊斯普拉的C.N.R.研究所的Forina等人收集,用于化学和生物指标的分析。

数据集概览:

  • 样本数量:178个样本。

  • 特征数量:13个化学指标,包括酒精含量、苹果酸含量、柠檬酸含量、残留糖量、氯化物含量、游离硫、总硫、硫酸盐、密度、pH值和色度等。

  • 标签数量:3个葡萄酒类别,基于葡萄酒的类型或品种。

数据集的应用:

  • 分类任务:葡萄酒数据集通常用于分类任务,特别是多类分类问题。

  • 模型训练和测试:用于训练和测试不同的分类算法,如决策树、随机森林、支持向量机等。

在Scikit-learn中加载葡萄酒数据集的代码如下:

from sklearn.datasets import load_wine# 加载葡萄酒数据集
wine = load_wine()# 获取特征数据和目标数据
X_wine = wine.data
y_wine = wine.target# 显示特征名称
print("特征名称:", wine.feature_names)# 显示目标名称
print("标签名称:", wine.target_names)# 显示数据集的形状
print("\n特征数据形状:", X_wine.shape)# 显示目标数据的形状
print("标签数据形状:", y_wine.shape)# 显示前几个样本的数据和标签
print("\n前几个样本的特征数据:\n", X_wine[:5])
print("对应的标签数据:\n", y_wine[:5])
  • 输出结果:

图片

四、乳腺癌数据集

乳腺癌数据集(Breast Cancer Dataset)是一个重要的医学数据集,用于通过计算机辅助诊断来提高乳腺癌的诊断率。

数据集概览:

  • 样本数量:569个样本,其中良性样本357个,恶性样本212个。

  • 特征数量:30个数值型特征,这些特征描述了乳腺肿瘤的不同测量值,如肿瘤的半径、纹理、周长、面积、平滑度、紧密度、凹陷度、凹陷点数、对称性以及分形维数等 。

  • 标签数量:2个标签,代表肿瘤的良性(benign)或恶性(malignant)状态,通常用"M"和"B"表示,其中"M"代表恶性,"B"代表良性 。

数据集的应用:

  • 该数据集被用来训练和测试不同的机器学习模型,如LDA和XGBoost算法,以构建乳腺癌预测模型 。

在Scikit-learn中加载乳腺癌数据集的代码如下:

from sklearn.datasets import load_breast_cancer# 加载乳腺癌数据集
breast_cancer = load_breast_cancer()# 查看特征名称
print("特征名称:", breast_cancer.feature_names)# 查看目标名称
print("标签名称:", breast_cancer.target_names)# 查看数据集的形状
print("\n特征数据形状:", breast_cancer.data.shape)# 查看标签数据的形状
print("标签数据形状:", breast_cancer.target.shape)# 显示前几个样本的数据和标签
print("\n前几个样本的特征数据:\n", breast_cancer.data[:5])
print("对应的目标标签(房价中位数):\n", breast_cancer.target[:5])
  • 输出结果:

图片

五、加州房价数据集

加州房价数据集(California Housing Dataset)是一个基于1990年加州人口普查数据构建的回归数据集。

数据集概览:

  • 样本数量:20,640个样本。

  • 特征数量:9个特征值,分别为经度(longitude)、纬度(latitude)、住房中位年龄(housing_median_age)、房间总数(total_rooms)、卧室总数(total_bedrooms,存在一些缺失值)、人口数(population)、家庭数(households)、收入中位数(median_income)和海洋接近度(ocean_proximity,一个分类特征)。

  • 标签类别:房价中位数(median_house_value),以100,000美元为单位。

数据集的应用:

  • 通常用于回归任务,预测房屋价格。

在Scikit-learn中加载葡萄酒数据集的代码如下:

from sklearn.datasets import fetch_california_housing# 加载加州房价数据集
california_housing = fetch_california_housing()# 显示特征名称
print("特征名称:", california_housing.feature_names)# 显示目标变量名称
print("标签名称:", california_housing.target_names)# 显示数据集的形状
print("\n特征数据形状:", california_housing.data.shape)# 显示目标数据的形状
print("标签数据形状:", california_housing.target.shape)# 显示前几个样本的数据和标签
print("\n前几个样本的特征数据:\n", california_housing.data[:5])
print("对应的目标标签(房价中位数):\n", california_housing.target[:5])
  • 输出结果:

图片

总结

Scikit-learn内置的各种数据集为你的数据分析和机器学习项目提供强大支持。赶快动手尝试Scikit-learn内置数据集,开启你的机器学习之旅吧!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/51028.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【每日一篇】使用图神经网络进行交通速度预测的上下文感知知识图谱框架【为了自己方便读论文】

Context-aware knowledge graph framework for traffic speed forecasting using graph neural network 论文链接: https://arxiv.org/abs/2407.17703 翻译: 摘要 人类流动在空间和时间上受到城市环境的密切影响,构成了理解交通系统的重…

MarkTool之UDP

UDP客户端,主要作用是与UDP服务端连接进行数据通讯 1、连接参数有4个,绑定IP和Port,服务端IP和Port 2、接收数据和发送数据的参数设置,有16进制,有字符,有原始数据,都可进行选择 3、定时发送&a…

理解常见开源协议的区别

本文将介绍几种常见的开源许可证,包括GPL、LGPL、MIT、Apache、BSD 和 木兰协议(Mulan PSL),并详细解释它们的区别。 1. GPL (GNU General Public License) GPL 是最著名和最常用的开源许可证之一,由自由软件基金会 …

泰安网站建设有几大特点

泰安网站建设的特点可以分为以下几个方面: 一、突出地域特色。泰安是山东省的一个地级市,具有悠久的历史和深厚的文化底蕴。在网站建设过程中,泰安的特色文化和旅游资源应得到充分的展示。可以通过优美的图片、详细的介绍和生动的文字&#x…

【Python 基础】字典和结构化数据 -1

字典和结构化数据 在本文中,我将介绍字典数据类型,它提供了一种灵活的访问和组织数据的方式。然后,结合字典与关于列表的知识,你将学习如何创建一个数据结构,对井字棋盘建模。 字典数据类型 像列表一样,“字典”是许多值的集合。但不像列表的下标,字典的索引可以使用…

【STM32】SysTick定时器

SysTick定时器 前言一、介绍最大计时时间 固件库函数体现用途 总结 前言 参考一下猫咪博主的文章,作为补充学习⇨【STM32】Systick滴答定时器 当然我主要还是跟着金善愚老师学的,我觉得他真的有种高中班主任的亲切感。那个1812的名号往那里一放&#x…

【vluhub】elasticsearch漏洞

Elasticsearch介绍 是Apache旗下的一个开源的、分布式、RESTful的搜索和分析引擎,适用于java语言项目 默认端口9200 kali中搭建ElasticHD, 即可未授权绕过ES可视化界面 直通车 https://github.com/360EntSecGroup-Skylar/ElasticHD/releases/download/1.4/elas…

Csrf复习(pikachu靶场和防御手段)

CSRF漏洞简介 CSRF又称跨站请求伪造,是指攻击者在用户登录的状态下(浏览器保存了用户的cookie)通过伪造恶意url诱导用户点击,借助用户的cookie网站权限(冒充用户身份来进行非法操作,对于服务器来说是合法的…

视觉SLAM第二讲

SLAM分为定位和建图两个问题。 定位问题 定位问题是通过传感器观测数据直接或间接求解位置和姿态。 通常可以分为两类:基于已知地图的定位和基于未知地图的定位。 基于已知地图的定位 利用预先构建的地图,结合传感器数据进行全局定位。SLAM中的全局…

如何利用开源Bug管理系统提高团队效率

国内外主流的10款开源bug管理系统对比:PingCode、Worktile、Trac、WebIssues、MantisBT、Bugzilla 、Fossil、The Bug Genie、TestLink 、OpenProject。 在软件开发的复杂世界中,Bug管理可能是一个令人头疼的问题,尤其是当工具不足以捕捉和解…

这才是做项目的正确打开方式

基于大数据的推荐机制,对于没有接触到信息的人而言,会认为获取行业外的信息会很困难,对于已经接触到信息的人而言,又会出现选择困难症。当系统对你锁定标签后,就会频繁的给你推荐跟标签对应的信息,信息一多…

【传知代码】智慧医疗:纹理特征VS卷积特征(论文复现)

在这个无处不在的技术革新的时代,计算机视觉和机器学习成为了医疗领域中不可或缺的力量。在这篇文章中,我们将探讨两种突出的技术:纹理特征和卷积特征。它们如何在医学影像分析中竞争与协作,为医生提供更深入、更精确的诊断信息&a…

iOS基础---常用三方库:Masonry、SDWebImage

系列文章目录 iOS基础—多线程:GCD、NSThread、NSOperation iOS基础—Category vs Extension iOS基础—常用三方库:Masonry、SDWebImage 文章目录 系列文章目录一、Masonry1.Masonry简介2.使用示例3.源码剖析 二、SDWebImage1.SDWebImage简介2.主要功能…

不同WEB下的的ApplicationContext的选择

依赖 ApplicationContext类型选择 默认情况下,spring通过选择的web端的框架来选择使用哪个ApplicationContext子类,默认情况下我们一般使用spring mvc框架,这个时候AC的实现类为 org.springframework.boot.web.servlet.context.AnnotationC…

在 LCD 上显示 png 图片-I.MX6U嵌入式Linux C应用编程学习笔记基于正点原子阿尔法开发板

在 LCD 上显示 png 图片 PNG 简介 无损压缩:PNG 使用 LZ77 派生算法进行无损压缩,确保图像质量不受损,且压缩比高 体积小:通过高压缩比,PNG 文件体积小,适合网络传输 索引彩色模式:PNG-8 格式…

计划外投料

计划外领料通过A07 R10发料/其他,进行计划外投料。移动类型仍然是261。 在科目分配页签。维护计划外投料的工单号。 在实际业务中,有的企业也会单独复制出一个移动类型。进行区分。 在COOIS中,有张表可以看出物料是计划内投料还是计划外。 …

MySQL查询执行(三):显示随机消息

假设有如下表结构&#xff1a; -- 创建表words CREATE TABLE words (id int(11) NOT NULL AUTO_INCREMENT,word varchar(64) DEFAULT NULL,PRIMARY KEY (id) ) ENGINEInnoDB;--数据生成存储过程 delimiter ;; create procedure idata() begindeclare i int;set i0;while i<…

[工具]GitHub + PicGo 搭建免费博客图床

文章目录 起因GitHub新建GitHub仓库新建token授予picgo权限 PicGOPicGO上传失败原因 起因 还是觉得个人博客记录最好还是不要money&#x1f625;&#xff0c;所以还是想白嫖&#xff0c;找到了GitHub PicGO的方式&#xff0c;记录一下。 GitHub 过程和搭建博客链接类似&…

DDOS攻击学习 - kali初学

文章目录 本地ssh配置nmap(网络连接的工具)nmap -sP IP地址nmap -p 1-65535 -A IP地址主机发现Ping扫描端口扫描时序扫描常用扫描方式指纹识别与探测全端口版本探测防火墙/IDS逃逸报文分段信息收集IP信息收集WHOIS查询数据库渗透测试MySQL列举数据库列举MySQL变量发起请求目录扫…

PostgreSQL的pg-collector工具

PostgreSQL的pg-collector工具 pg-collector 是一个用于 PostgreSQL 数据库的监控和数据收集工具。它主要用于收集 PostgreSQL 实例的性能指标、查询统计和日志信息&#xff0c;以便进行数据库性能分析和故障排查。通过收集这些数据&#xff0c;管理员可以更好地了解数据库的运…