数据挖掘之认识数据

在数据挖掘过程中,数据的认识是非常重要的一步,它为后续的数据分析、建模、特征选择等工作奠定基础。以鸢尾花数据集(Iris Dataset)数据集之鸢尾花数据集(Iris Dataset)-CSDN博客为例,下面将介绍如何从数据下载到可视化展示进行深入认识。

1. 数据下载

鸢尾花数据集是一个经典的机器学习数据集,通常用于分类任务。这个数据集可以从多个来源获得,包括通过sklearn库直接加载。

from sklearn.datasets import load_iris# 加载鸢尾花数据集
iris = load_iris()# 查看数据集的基本信息
print(iris.keys())
数据集包含以下几个重要部分:
  • data: 特征数据,包含150个样本,每个样本有4个特征(如花萼长度、花萼宽度、花瓣长度、花瓣宽度)。
  • target: 目标标签,包含样本所属的类别(共三类:Setosa, Versicolor, Virginica)。
  • feature_names: 特征的名称(例如 'sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)')。
  • target_names: 类别的名称(例如 'setosa', 'versicolor', 'virginica')。
  • DESCR: 数据集的描述信息。

2. 数据加载与基本信息

使用sklearn加载数据后,可以通过pandas将其转换为DataFrame,更便于查看和操作。

import pandas as pd# 将数据转换为pandas DataFrame
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)# 将目标标签添加到DataFrame中
iris_df['species'] = pd.Categorical.from_codes(iris.target, iris.target_names)# 查看数据集基本信息
print(iris_df.info())# 查看数据集的前几行
print(iris_df.head())

3. 数据统计描述

我们可以查看数据集的统计描述信息,了解每个特征的分布情况。

# 获取数据的统计描述
print(iris_df.describe())

4. 数据可视化

数据可视化可以帮助我们理解特征之间的关系,识别数据的模式,并且能够分辨不同类别样本在特征空间中的分布情况。

4.1 成对关系图(Pairplot)

成对关系图能够展示所有特征之间的两两关系,并且可以通过颜色区分不同类别。

import seaborn as sns# 绘制成对关系图
sns.pairplot(iris_df, hue='species', palette='Set2')
4.2 箱线图(Boxplot)

箱线图能帮助我们观察每个特征的分布情况,并检测是否存在异常值。

# 绘制箱线图
plt.figure(figsize=(10, 6))
sns.boxplot(x='species', y='sepal length (cm)', data=iris_df)
plt.title('Boxplot of Sepal Length by Species')
plt.show()
4.3 热力图(Heatmap)

热力图可以帮助我们了解特征之间的相关性,并观察是否存在多重共线性。

import matplotlib.pyplot as plt
import seaborn as sns# 计算特征之间的相关性
correlation = iris_df.iloc[:, :-1].corr()# 绘制热力图
plt.figure(figsize=(8, 6))
sns.heatmap(correlation, annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Correlation Heatmap of Iris Dataset')
plt.show()

5. 处理缺失值(如果有)

虽然鸢尾花数据集本身没有缺失值,但在实际数据中,缺失值的处理是很常见的。我们可以使用pandas来检查并处理缺失值:

# 检查缺失值
print(iris_df.isnull().sum())# 假设有缺失值的列,使用均值填充
iris_df.fillna(iris_df.mean(), inplace=True)

7. 2D和3D可视化

2D可视化

import matplotlib.pyplot as plt
import numpy as np
from sklearn.datasets import load_iris# Load the Iris dataset
iris = load_iris()
X = iris.data[:, :2]  # Use the first two features (Sepal Length and Sepal Width)
y = iris.target# Create a 2D scatter plot
fig = plt.figure(figsize=(10, 7))
ax = fig.add_subplot(111)# Map species to colors
colors = ['r', 'g', 'b']
species_names = iris.target_names# Plot each species
for i in range(3):ax.scatter(X[y == i, 0], X[y == i, 1], label=species_names[i], color=colors[i], alpha=0.6)ax.set_xlabel('Sepal Length (cm)')
ax.set_ylabel('Sepal Width (cm)')
ax.set_title('2D Scatter Plot of Iris Dataset')
ax.legend()
plt.show()

3D可视化

import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
import numpy as np# Extract features and target
X = iris.data[:, :3]  # Use the first three features for 3D visualization
y = iris.target# Create a 3D scatter plot
fig = plt.figure(figsize=(10, 7))
ax = fig.add_subplot(111, projection='3d')# Map species to colors
colors = ['r', 'g', 'b']
species_names = iris.target_namesfor i in range(3):ax.scatter(X[y == i, 0], X[y == i, 1], X[y == i, 2], label=species_names[i], color=colors[i], alpha=0.6)ax.set_xlabel('Sepal Length (cm)')
ax.set_ylabel('Sepal Width (cm)')
ax.set_zlabel('Petal Length (cm)')
ax.set_title('3D Scatter Plot of Iris Dataset')
ax.legend()
plt.show()

7. 小结

通过加载、查看和可视化鸢尾花数据集,我们可以更好地理解数据的结构、特征分布以及不同类别样本的区分度。这为后续的数据分析、特征选择以及机器学习建模提供了重要的基础。数据挖掘的第一步是对数据的深刻理解,只有了解了数据,才能采取合适的预处理步骤,最终构建有效的模型。

8. 总结

  • 数据下载与加载: 使用sklearn.datasets.load_iris()加载数据,并通过pandas查看数据。
  • 统计描述: 使用describe()查看数据的基本统计信息。
  • 可视化: 使用seaborn绘制成对关系图、箱线图和热力图,了解数据的分布和特征之间的关系。
  • 缺失值处理: 使用pandas处理缺失值(在实际情况中常见)。

通过这些方法,可以掌握如何处理数据、理解数据以及如何为后续分析做好准备。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/63726.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

统信UOS 1071 AI客户端接入本地大模型配置手册

文章来源:统信UOS 1071本地大模型配置手册 | 统信软件-知识分享平台 1. OS版本确认 1.1. 版本查看 要求:计算机,属性,查看版本(1070,构建号> 101.100) 2. UOS AI版本确认 UOS AI,设置&am…

定时任务——定时任务技术选型

摘要 本文深入探讨了定时任务调度系统的核心问题、技术选型,并对Quartz、Elastic-Job、XXL-Job、Spring Task/ScheduledExecutor、Apache Airflow和Kubernetes CronJob等开源定时任务框架进行了比较分析,包括它们的特点、适用场景和技术栈。文章还讨论了…

麒麟操作系统服务架构保姆级教程(二)sersync、lsync备份和NFS持久化存储

如果你想拥有你从未拥有过的东西,那么你必须去做你从未做过的事情 上篇文章我们说到rsync虽好,但是缺乏实时性,在实际应用中,咱们可以将rsync写进脚本,然后写进定时任务去备份,如果每天凌晨1:00…

wtforms+flask_sqlalchemy在flask-admin视图下实现日期的修改与更新

背景: 在flask-admin 的modelview视图下实现自定义视图的表单修改/编辑是件不太那么容易的事情,特别是想不自定义前端view的情况下。 材料: wtformsflask_sqlalchemy 制作: 上代码 1、模型代码 from .exts import db from …

【AIGC-ChatGPT进阶副业提示词】末日生存指南 2.0:疯狂科学家的荒诞智慧

引言 在这个不断变化的世界中,末日似乎总是lurking在角落。但是,亲爱的幸存者们,不要害怕!因为我,疯狂科学家2099,正在这里为你们带来最新版本的末日生存指南。这不是你祖母的应急手册,而是一本…

BiLSTM:深度学习中的双向长短期记忆网络

目录 ​编辑 1. BiLSTM原理 2. BiLSTM的应用案例 3. BiLSTM研究进展 4. BiLSTM技术挑战 5. BiLSTM未来趋势 6. BiLSTM的实际应用示例 6.1 数据准备 6.2 构建BiLSTM模型 6.3 训练模型 6.4 评估模型 6.5 可视化训练过程 7. 结论 在深度学习的浪潮中,BiLS…

RK3588 , mpp硬编码yuv, 保存MP4视频文件.

RK3588 , mpp硬编码yuv, 保存MP4视频文件. ⚡️ 传送 ➡️ Ubuntu x64 架构, 交叉编译aarch64 FFmpeg mppRK3588, FFmpeg 拉流 RTSP, mpp 硬解码转RGBRk3588 FFmpeg 拉流 RTSP, 硬解码转RGBRK3588 , mpp硬编码yuv, 保存MP4视频文件.

powershell美化

powershell美化 写在前面 除了安装命令,其他都是测试命令,后续再写进配置文件 安装主题控件 安装主题oh-my-posh,powershell中执行 winget install JanDeDobbeleer.OhMyPosh -s winget oh-my-posh init pwsh | Invoke-Expression # 查看…

2024/12/22周报

文章目录 摘要Abstract深度学习文献阅读1. 背景与问题2. 发明目的3. 方法与实现3.1 数据采集与变量选取3.2 BP神经网络建立稳态预测模型3.3 构建多目标优化函数3.4 多目标差分进化算法求解优化3.5 最优决策变量筛选3.6 实时控制 4. 系统实现5. 实际效果与验证5.1 仿真验证5.2 神…

前端编程训练 异步编程篇 请求接口 vue与react中的异步

文章目录 前言代码执行顺序的几个关键点接口请求vue与react中的异步 vue中的异步react的state修改异步 前言 本文是B站三十的前端课的笔记前端编程训练,异步编程篇 代码执行顺序的几个关键点 我们可以理解为代码就是一行一行,一句一句是执行(定义变…

C++-----函数与库

数学中的函数与编程中的函数对比 数学中的函数 - 数学函数是一种映射关系,例如,函数\(y f(x)x^{2}\),对于每一个输入值\(x\),都有唯一确定的输出值\(y\)。它侧重于描述变量之间的数量关系,通常通过公式来表示这种关系…

Loki 微服务模式组件介绍

目录 一、简介 二、架构图 三、组件介绍 Distributor(分发器) Ingester(存储器) Querier(查询器) Query Frontend(查询前端) Index Gateway(索引网关&#xff09…

C++ OpenGL学习笔记(1、Hello World空窗口程序)

终于抽出时间系统学习OpenGL 教程,同时也一步一步记录怎样利用openGL进行加速计算。 目录 1、环境准备1.1、库的下载1.2、库的选择及安装 2、OpenGL第一个项目,Hello World!2.1、新建hello world控制台项目2.2、配置openGL环境2.2.1 包含目录配置2.2.2 …

Linux系统命令基础

Linux命令⾏ [pypylinux ~]$ 普通⽤户py,登陆后 [rootpylinux ~]# 超级⽤户root,登录后root代表当前登录的⽤户 分隔符pylinux 主机名~ 当前的登录的位置,此时是家⽬录# 超级⽤户身份提示符 $ 普通⽤户身份提示符操作系统⽬录分隔符 Linux目录…

不同版本的 Redis 的键值对内存占用情况示例

不同版本的 Redis 的键值对内存占用情况示例 文章目录 不同版本的 Redis 的键值对内存占用情况示例Redis 6.0redisObjectdictEntrysds🍀 数据结构🍀 sdslen() 函数🍀 sdsReqType() 函数🍀 sdsHdrSize() 函数 内存分配 - malloc() …

实现 WebSocket 接入文心一言

目录 什么是 WebSocket? 为什么需要 WebSocket? HTTP 的局限性 WebSocket 的优势 总结:HTTP 和 WebSocket 的区别 WebSocket 的劣势 WebSocket 常见应用场景 WebSocket 握手过程 WebSocket 事件处理和生命周期 WebSocket 心跳机制 …

2024.7 XAI 遇见 LLM:可解释 AI 与大型语言模型之间关系的调查

https://arxiv.org/pdf/2407.15248 问题 Q1:XAI 技术当前如何与 LLMs 集成?Q2:将 LLMs 与 XAI 方法融合的新兴趋势是什么?Q3:当前相关文献存在哪些差距,哪些领域需要进一步研究? 挑战 LLMs …

RIP实验

要求及分析 路由器上分别配置环回 连接路由器的线路网段为12.1.1.0/24、23.1.1.1.0/24 R1和R3连接的网络地址分别为192.168.1.0/24/192.168.2.0/24 整个网络使用RIP达到全网可达 配置 先配置路由器各接口ip和环回和pc ip网关掩码(图略) 进行 RI…

Oracle 中间件 Webcenter Portal服务器环境搭建

环境信息 服务器基本信息 如下表,本次安装总共使用2台服务器,具体信息如下: Webcenter1服务器 归类 SOA服务器 Ip Address 172.xx.xx.xx.xx HostName wcc01.xxxxxx.com Alias wccprd01 Webcenter2服务器 归类 OSB服务器 Ip Addr…

macOS 配置 vscode 命令行启动

打开 vscode 使用 cmd shift p 组合快捷键,输入 install 点击 Install ‘code’ command in PATH Ref https://code.visualstudio.com/docs/setup/mac