[Python] 机器学习 - 常用数据集(Dataset)之鸢尾花(Iris)数据集介绍,数据可视化和使用案例

鸢(yuān)尾花(Iris)数据集介绍

鸢【音:yuān】尾花(Iris)是单子叶百合目花卉,是一种比较常见的花,而且鸢尾花的品种较多,在某个公园里你可能不经意间就能碰见它。

鸢尾花数据集最初由Edgar Anderson 测量得到,而后在著名的统计学家和生物学家R.A Fisher于1936年发表的文章「The use of multiple measurements in taxonomic problems」中被使用,用它作为线性判别分析(Linear Discriminant Analysis)的一个例子,证明分类的统计方法。该数据集是在机器学习领域一个常用的数据集。

数据中的两类鸢尾花记录结果是在加拿大加斯帕半岛上,在同一天的同一个时间段,使用相同的测量仪器,在相同的牧场上由同一个人测量出来的。这是一份有着70年历史的数据,虽然老,但是却很经典,详细数据集可以在UCI 数据库(http://archive.ics.uci.edu/ml/datasets/Iris) 中找到。

http://archive.ics.uci.edu/static/public/53/iris.zip

Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa(山鸢尾),Versicolour(杂色鸢尾),Virginica(维吉尼亚鸢尾))三个种类中的哪一类。

鸢尾花(iris)数据集,它共有4个属性列和一个品种类别列:sepal length(萼片长度)、sepal width(萼片宽度)、petal length(花瓣长度)、petal width (花瓣宽度),单位都是厘米。3个品种类别是Setosa、Versicolour、Virginica,样本数量150个,每类50个。

本文主要通过Jupyter Notebook对鸢尾花数据集(Iris)进行读取,显示数据,并对数据可视化,最后使用该数据集来应用于K近邻算法线性回归分析。

1)读取数据包括scikit-learn库引入和读取.csv文件保存的数据集。

2)显示数据包括显示具体数据、查看整体数据信息、描述性统计。

3)数据可视化包括散点图、直方图、KDE图、箱线图等。

4)应用该数据集于scikit-learn的K近邻算法进行线性回归分析。

读取数据

from sklearn import datasets
import pandas as pdiris_datas = datasets.load_iris()iris_df = pd.DataFrame(iris_datas.data, columns=['Sepal Length', 'Sepal Width', 'Petal Length', 'Petal Width'])# 它是一个很小的数据集,仅有150行,5列。该数据集的四个特征(1~4)列属性的取值都是数值型的,
# 他们具有相同的量纲,不需要你做任何标准化的处理,
# 第五列为通过前面四列所确定的鸢尾花所属的类别名称。
iris_csv_url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"  
names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class'] 
iris_csv_df = pd.read_csv(iris_csv_url, names=names)

显示数据

基本数据信息

# 四列数据分别为
# 列1 - Sepal Length Cm: 花萼长度, 单位cm;
# 列2 - Sepal Width Cm: 花萼宽度, 单位cm;
# 列3 - Petal Length Cm: 花瓣长度, 单位cm
# 列4 - Petal Width Cm; 花瓣宽度, 单位cm
iris_datas.data[0:10]

iris_df.head()

iris_datas.data.shape
iris_df.shape

# Sepa Length Cm: 花萼长度, 单位cm;
# Sepal Width Cm: 花萼宽度, 单位cm;
# Petal Length Cm: 花瓣长度, 单位cm
# Petal Width Cm; 花瓣宽度, 单位cm
iris_datas.feature_names
iris_datas.target[0:5]
iris_datas.target.shape
iris_datas.target_names

print(iris_datas.DESCR)

iris_csv_df.head()

 

查看数据整体信息

iris_df.info()

查看描述性统计

iris_df.describe()iris_df.describe().T  

数据可视化

花萼长度与宽度分布 / 花瓣长度与宽度分布(用颜色和形状区分类型)

from collections import Counter, defaultdict
import matplotlib.pyplot as plt
import numpy as np 
plt.rcParams['font.sans-serif'] = ['SimHei']  # 支持中文字体style_lst = ['o', '^', 's']       # 三个分类设置点的不同形状,不同形状默认颜色不同
data = iris_datas.data
labels = iris_datas.target_names
print('labels:', labels)
cls_dict = defaultdict(list)  # 使用默认字典来进行分类,每个分类的数据放到一个单独的列表中
for i, d in enumerate(data):cls_dict[labels[int(i/50)]].append(d) # 一共3个种类,每一种类有50个样本集# print('col_dict:\n', col_dict)
for col in [0, 2]: # 一共4列; 1,2列为一组(花萼的长与宽);3,4列为一组(花瓣的长和宽)cls_list = []for i, (cls, cls_ds) in enumerate(cls_dict.items()):# 共3个分类draw_data = np.array(cls_ds)plot = plt.plot(draw_data[:, col], draw_data[:, col+1], style_lst[i])cls_list.append(cls)plt.legend(cls_list)plt.title('鸢尾花花瓣的长度和宽度') if col==2 else plt.title('鸢尾花花萼的长度和宽度')plt.xlabel('花瓣的长度(cm)') if col==2 else plt.xlabel('花萼的长度(cm)')plt.ylabel('花瓣的宽度(cm)') if col==2 else plt.ylabel('花萼的宽度(cm)')plt.show()

[Python] 内置类defaultdict(默认字典)介绍和使用场景(案例)-CSDN博客 

 数据直方图

iris_csv_df.hist() #数据直方图histograms

散点图(这里不区分是哪个类型)

x轴表示sepal-length花萼长度,y轴表示sepal-width花萼宽度

iris_csv_df.plot(x='sepal-length', y='sepal-width', kind='scatter')

x轴表示patal-length花瓣长度,y轴表示patal-width花瓣宽度

iris_csv_df.plot(x='petal-length', y='petal-width', kind='scatter')

KDE图

KDE图也被称作密度图(Kernel Density Estimate,核密度估计)。

KDE可以理解为是对直方图的加窗平滑。通过KDE分布图,可以查看并对训练数据集和测试数据集中特征变量的分布情况。[Python] KDE图[作密度图(Kernel Density Estimate,核密度估计)]介绍和使用场景(案例)-CSDN博客

plt.rcParams['axes.unicode_minus'] = False  # 避免 UserWarning: Glyph 8722 (\N{MINUS SIGN}) missing from current font.
iris_csv_df.plot(kind='kde') 

与对应的直方图进行对比一下: 

iris_csv_df.plot(kind='hist') 

箱线图

kind='box’绘制箱图,包含子图且子图的行列布局layout为2*2,子图共用x轴、y轴刻度标签为False。

iris_csv_df.plot(kind='box', subplots=True, layout=(2,2), sharex=False, sharey=False)

根据iris数据集使用K近邻算法进行线性回归

[Python] scikit-learn - K近邻算法介绍和使用案例-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/646766.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Springboot,使用sharedingjdbc 分库分表,最佳实践。

一、简介 Apache ShardingSphere 是一套开源的分布式数据库解决方案组成的生态圈,它由 JDBC、Proxy 和 Sidecar(规划中)这 3 款既能够独立部署,又支持混合部署配合使用的产品组成。 它们均提供标准化的数据水平扩展、分布式事务和…

我在代码随想录|写代码Day17之二叉树-222.完全二叉树的节点个数,110.平衡二叉树,257. 二叉树的所有路径

学习目标: 博主介绍: 27dCnc 专题 : 数据结构帮助小白快速入门 👍👍👍👍👍👍👍👍👍👍👍👍 ☆*: .。. o(≧▽≦)…

数学建模绘图

注意:本文章旨在记录观看B站UP数模加油站之后的笔记文章,无任何商业用途~~ 必备网站 以下网站我都试过,可以正常访问 配色(取色)网站: Color Palettes Generator and Color Gradient Tool Python&#x…

Pandas ------ 通过 np.array 函数去掉数据中的 index

Pandas ------ 通过 np.array 函数去掉数据中的 index 引言正文 引言 在做 pandas 数据处理的时候遇到了一个问题,获取到的数据总是会带有 dateframe 的格式,即总会有 index 显示出来。为了去掉这些显示,我们可以使用 np.array() 函数进行数…

python Django入门

1.创建Django项目 方式一:进入到指定要存放项目的目录,执行*django-admin startproject “projectname”* 来创建一个名方式二:使用Pycharm专业版创建Django项目 创建项目后,默认的目录结构: manage.py:是Django用于管理本项目的命令行工具&#xff0c…

HarmonyOS鸿蒙学习基础篇 - Text文本组件

该组件从API Version 7开始支持。后续版本如有新增内容,则采用上角标单独标记该内容的起始版本。 Text文本组件是可以显示一段文本的组件。该组件从API Version 7开始支持,从API version 9开始,该接口支持在ArkTS卡片中使用。 子组件 可…

KG110写频 AT28C64芯片替换

上一个文章写了写频计算公式 https://blog.csdn.net/firseve/article/details/135743549 没想到就几天好多人给点赞,这个中继现在还有很多人在使用么?谁能给解个惑 今天搜了下这个中继设备,默认原机器使用的芯片是 2716 2732 (2…

php怎么输入一个变量,http常用的两种请求方式getpost(ctf基础)

php是网页脚本语言,网页一般支持两种提交变量的方式,即get和post get方式传参 直接在网页URL的后面写上【?a1027】,如果有多个参数则用&符号连接, 如【?a10&b27】 post方式传参 需要借助插件,ctfer必备插…

自学C语言-6

第6章 选择结构程序设计 顺序结构程序设计最简单,但通常无法解决生活中的选择性问题。选择结构程序设计需要用到一些条件判断语句,可实现的程序功能更加复杂,程序的逻辑性与灵活性也更加强大。 本章致力于使读者掌握使用if语句进行条件判断的…

OpenHarmony开发——GN快速上手

背景 最近在研究鸿蒙操作系统的开源项目OpenHarmony,该项目使用了GNNinja工具链进行配置,编译,于是开始研究GN如何使用。 本文的所有信息均来自GN官网和本人个人体会。 GN快速入门 使用GN GN的主要功能是根据配置文件(.gn, BU…

交换机跨VLAN交换数据ip跳转分析(不一定对)

在网上看到这样一个实验: 交换机1、交换机2分别连接到一台防火墙上,要求使VLAN 2、VLAN3、VLAN5、VLAN6中的终端可互相访问。 拓补 参考链接 【数通网络交换基础梳理2】三层设备、网关、ARP表、VLAN、路由表及跨网段路由下一跳转发原理_网管型交的机…

DC60V降压恒流 3A电流 直播美颜补光灯专用降压IC

DC60V降压恒流3A电流直播美颜补光灯专用降压IC 随着直播行业的兴起,美颜补光灯成为了直播中不可或缺的设备之一。然而,不同的直播设备和场景需要不同的灯光效果,因此需要一款能够提供稳定、高质量照明的补光灯。其中,DC60V降压恒流…

CentOS7自动备份数据库到git

虽然数据库没什么数据,但是有就是珍贵的啦,为了服务器什么的无了,所以还是要自动备份一下比较好。 Open备忘第一页 步骤 在Gitee(github)上创建一个私有仓库Gitee(github)配置好服务器的ssh在服…

论文阅读:Vary-toy论文阅读笔记

目录 引言整体结构图方法介绍训练vision vocabulary阶段PDF数据目标检测数据 训练Vary-toy阶段Vary-toy结构数据集情况 引言 论文:Small Language Model Meets with Reinforced Vision Vocabulary Paper | Github | Demo 说来也巧,之前在写论文阅读&…

微信小程序开发如何实现圆形按钮/圆角按钮

圆形按钮&#xff1a; 显示&#xff1a; 实现 .wxml <view style"width: 100%;height:200rpx;display: flex; align-items: center;justify-content: center;"><view style"width:20px; height:20px; border-radius: 50%; background-color: red; t…

134. 加油站 - 力扣(LeetCode)

题目描述 在一条环路上有 n 个加油站&#xff0c;其中第 i 个加油站有汽油 gas[i] 升。 你有一辆油箱容量无限的的汽车&#xff0c;从第 i 个加油站开往第 i1 个加油站需要消耗汽油 cost[i] 升。你从其中的一个加油站出发&#xff0c;开始时油箱为空。 给定两个整数数组 gas 和…

SHA加密在实际应用中的优势与局限

SHA加密算法简介 SHA&#xff08;Secure Hash Algorithm&#xff09;加密算法是一种单向加密算法&#xff0c;常用于加密数据的完整性校验和加密签名。它是由美国国家安全局&#xff08;NSA&#xff09;设计并广泛应用于各种安全场景。SHA加密算法具有较高的安全性和可靠性&…

线性代数速通

二---矩阵 逆矩阵 抽象矩阵求逆 数字型矩阵求逆 二阶矩阵求逆秒杀 解矩阵方程 方阵 伴随矩阵 三---向量组的线性相关性 线性表示 数字型向量组 线性相关性判断 抽象型向量组 线性相关性判断 向量组的秩与极大无关组 四---线性方程组 齐次方程组 基础解系 通解 非齐…

定制工厂实时数据采集系统 优秀智能制造信息系统服务

工业数据采集是指通过传感器、仪表等设备将工业生产过程中的各种数据进行采集和记录,以便进行数据分析、监控和优化。但现状却是引入的各自动化设备、仪器等各自为政&#xff0c;或者进显示检测数据&#xff0c;难以实现数据连通&#xff0c;难以统一处理&#xff0c;定制的数据…

并查集与图

并查集与图 一、并查集概念实现原理代码实现查找根节点合并两颗树判断是否是同一棵树树的数量 二、图的基本概念定义分类完全图顶点的度连通图 三、图的存储结构分类邻接表邻接表的结构代码实现 邻接矩阵代码实现 四、图的遍历方式广度优先深度优先 五、最小生成树概念Kruskal算…