ML 系列:第 35 节 - 机器学习中的数据可视化

ML 系列:第 35 天 - 机器学习中的数据可视化

文章目录

  • 一、说明
  • 二、数据可视化
    • 2.1 直方图
    • 2.2 箱线图
    • 2.3 散点图
    • 2.4 条形图
    • 2.5 线图
    • 2.6 热图
  • 三、结尾

一、说明

描述性统计和数据可视化是理解和解释机器学习数据的基础。它们有助于总结和直观地呈现数据,揭示潜在的模式和见解。这篇博文介绍了数据可视化工具,包括直方图、箱线图、散点图和其他重要图表。

二、数据可视化

数据可视化涉及创建数据的图形表示以识别趋势、模式和异常值。有效的可视化可以使复杂的数据更易于访问和理解。以下是数据可视化中使用的一些基本图表:

2.1 直方图

直方图通过将数据分成多个区间并绘制每个区间内数据点的频率来显示连续变量的分布。它们有助于了解数据的形状、集中趋势和分布。

示例:可视化人口的年龄分布。
将matplotlib.pyplot导入为plt

import matplotlib.pyplot as pltdata = [23, 45, 56, 78, 22, 34, 42, 44, 48, 50, 53, 21, 33]
plt.hist(data, bins=5, edgecolor='black')
plt.title('Histogram of Ages')
plt.xlabel('Age')
plt.ylabel('Frequency')
plt.show()

输出:

在这里插入图片描述

2.2 箱线图

箱线图(或箱须图)基于五个数字摘要显示数据集的分布:最小值、第一四分位数 (Q1)、中位数、第三四分位数 (Q3) 和最大值。它们可用于识别异常值并比较不同组之间的分布。

例如:比较不同班级的考试成绩。

import seaborn as snsdata = {'Class A': [78, 85, 90, 93, 95, 88, 84],'Class B': [65, 70, 72, 74, 76, 68, 71]}
sns.boxplot(data=data)
plt.title('Box Plot of Test Scores by Class')
plt.ylabel('Test Scores')
plt.show()

输出:
在这里插入图片描述

2.3 散点图

散点图显示两个连续变量之间的关系。每个点代表一个观察值,x 和 y 坐标对应于两个变量的值。散点图可用于识别相关性和模式。

例如:考察学习时间和考试成绩之间的关系。

import numpy as npstudy_hours = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
test_scores = [50, 55, 60, 65, 70, 75, 80, 85, 90, 95]
plt.scatter(study_hours, test_scores)
plt.title('Scatter Plot of Study Hours vs. Test Scores')
plt.xlabel('Study Hours')
plt.ylabel('Test Scores')
plt.show()

输出:
在这里插入图片描述

2.4 条形图

条形图用矩形条表示分类数据。每个条形的高度对应于类别的频率或值。

示例:可视化不同产品类别的销售情况。

categories = ['A', 'B', 'C', 'D']
sales = [150, 200, 100, 250]
plt.bar(categories, sales, color='blue')
plt.title('Sales by Category')
plt.xlabel('Category')
plt.ylabel('Sales')
plt.show()

输出:
在这里插入图片描述

2.5 线图

线图显示由线连接的数据点,显示随时间或连续数据的趋势。

示例:绘制某公司的月销售额图表。

months = ['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun']
sales = [1000, 1200, 1500, 1700, 1600, 1800]
plt.plot(months, sales, marker='o')
plt.title('Monthly Sales')
plt.xlabel('Month')
plt.ylabel('Sales')
plt.show()

输出:
在这里插入图片描述

2.6 热图

热图使用颜色以矩阵格式表示数据值,非常适合显示大型数据集中的相关性和模式。

示例:可视化数据集的相关矩阵。

import seaborn as sns
import numpy as npdata = np.random.rand(10, 12)
sns.heatmap(data, annot=True, cmap='coolwarm')
plt.title('Heatmap of Random Data')
plt.show()

输出:
在这里插入图片描述

三、结尾

在我们的机器学习之旅中,我们探索了数据可视化工具,包括直方图、箱线图、散点图和其他重要图表。展望第 36 节(统计学中的抽样类型),我们将介绍不同类型的抽样,例如简单随机抽样、分层抽样、集群抽样、系统抽样和便利抽样。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/62415.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数字化转型背景下,高职院校计算机网络应用的革新策略

在当今信息化时代,计算机网络已经成为高职院校教育不可或缺的一部分,它不仅极大地丰富了教育资源,提高了交流的便捷性,还催生了多样化的教学模式。对于高职院校来说,加强计算机网络应用的建设不仅是顺应时代潮流的必然…

【C/C++】数据库链接入门教程:从零开始的详细指南!MySQL集成与操作

文章目录 环境配置:搭建开发环境的基础步骤2.1 安装MySQL数据库2.2 配置C/C开发环境2.3 下载并安装MySQL Connector/C 基础操作:实现C/C与MySQL的基本交互3.1 建立数据库连接3.2 执行SQL语句3.3 处理查询结果 进阶技巧:提升数据库操作效率与安…

什么是迁移学习?

一、基本概念 迁移学习(Transfer Learning)是一种机器学习方法,旨在将从一个任务中学到的/已有的知识应用到另一个相关任务中。与传统的机器学习方法不同,迁移学习不需要从头开始训练模型,而是利用(迁移)已有知识来加速…

D83【python 接口自动化学习】- pytest基础用法

day83 pytest测试用例执行顺序 学习日期:20241129 学习目标:http定义及实战 -- pytest测试用例执行顺序 学习笔记: 测试用例执行顺序 默认执行顺序使用pytest-ordering自定义顺序 pytestrequests练习 import requestsdef test_mobile()…

漫谈推理谬误——错误因果

相关文章 漫谈推理谬误——错误假设-CSDN博客文章浏览阅读736次,点赞22次,收藏3次。在日常生活中,我们会面临各种逻辑推理,有些看起来一目了然,有些非常的科学严谨,但也有很多似是而非,隐藏了陷…

如何看linux系统内核是aarch64 ,还是64-bit

要查看 Linux 系统内核是 aarch64 架构还是 64-bit 架构,可以通过以下几种方法来确认: 方法 1:使用 uname 命令 uname 命令用于显示系统信息。使用以下命令查看系统的架构: uname -m如果输出是 aarch64,说明你的系统…

Debezium Engine监听binlog实现缓存更新与业务解耦

飞书文档 解决缓存与数据源数据不一致的方案有很多, 各有优缺点; 1.0、旁路缓存策略, 直接同步更新 读取流程: 查询缓存。如果缓存命中,则直接返回结果。如果缓存未命中,则查询数据库。将数据库查询到的数据写入缓存,并设置一个…

使用命令行来刷写ELRS接收器的固件

1。使用ExpressLRS Configurator的自带编译好的python命令 "C:\Users\xxx\AppData\Local\Programs\ExpressLRS Configurator\dependencies\windows_amd64\python\python3.exe" \ "C:\Users\xxx\AppData\Roaming\ExpressLRS Configurator\firmwares\cloud\Expr…

深入理解 Docker 在 CI/CD 流程中的应用原理

Docker 和 CI/CD 是现代软件开发和运维中的两项重要技术。将 Docker 与 CI/CD 集成,可以提高软件交付速度、可靠性和可扩展性。本文将从 CI/CD 的基本概念出发,介绍 Docker 在 CI/CD 中的应用原理,展示其在各个环节中的工作流程,以…

输出1~n中能被3整除,且至少有一位数字是5的所有整数.:JAVA

链接&#xff1a;登录—专业IT笔试面试备考平台_牛客网 来源&#xff1a;牛客网 输出1~n中能被3整除&#xff0c;且至少有一位数字是5的所有整数. 输入描述: 输入一行&#xff0c;包含一个整数n。(1 < n < 100000) 输出描述: 输出所有满足条件的数&#xff0c;以换…

流量工程中的“LSP“,“RSVP“,“ISIS TE“,“OSPF TE“分别是什么?

在流量工程中&#xff0c;LSP&#xff08;Label Switched Path&#xff0c;标签交换路径&#xff09;、RSVP&#xff08;Resource Reservation Protocol&#xff0c;资源预留协议&#xff09;、IS-IS TE&#xff08;Intermediate System to Intermediate System Traffic Engine…

激光雷达定位与建图-最近邻问题2

一、问题引出 最近邻问题&#xff1a;假设有两个点云集合&#xff0c; χ 1 { x 1 , ⋯ x n } \chi _{1} \left \{ x_{1},\cdots x_{n} \right \} χ1​{x1​,⋯xn​} &#xff0c; χ 2 { x 1 , ⋯ x n } \chi _{2} \left \{ x_{1},\cdots x_{n} \right \} χ2​{x1​,⋯…

redis中的哨兵

redis中的哨兵 一、哨兵机制的概念二、redis哨兵的部署2.1 docker的安装2.2 编排redis主从节点2.3 配置哨兵节点 三、redis哨兵的选举机制3.1 redis-master宕机之后的情况3.2 重启redis-master后的情况 四、redis哨兵机制的原理4.1主观下线4.2客观下线4.3选举leader节点4.4选出…

如何在 IIS 上部署 .NET Core 应用程序 ?

在 Internet 信息服务 (IIS) 上部署 .NET Core 应用程序起初可能看起来令人生畏&#xff0c;但只要步骤正确&#xff0c;它就是一个简单的过程。本指南将引导您在 IIS 上部署 .NET Core 应用程序。 Step 1: 安装 .NET Core Hosting Bundle (1) 前往官方下载页面 .NET downloa…

蓝桥杯每日真题 - 第24天

题目&#xff1a;&#xff08;货物摆放&#xff09; 题目描述&#xff08;12届 C&C B组D题&#xff09; 解题思路&#xff1a; 这道题的核心是求因数以及枚举验证。具体步骤如下&#xff1a; 因数分解&#xff1a; 通过逐一尝试小于等于的数&#xff0c;找到 n 的所有因数…

【前端】Next.js 服务器端渲染(SSR)与客户端渲染(CSR)的最佳实践

关于Next.js 服务器端渲染&#xff08;SSR&#xff09;与客户端渲染&#xff08;CSR&#xff09;的实践内容方面&#xff0c;我们按下面几点进行阐述。 1. 原理 服务器端渲染 (SSR): 在服务器上生成完整的HTML页面&#xff0c;然后发送给客户端。这使得用户在首次访问时能够…

【机器学习】机器学习的基本分类-监督学习-逻辑回归-对数似然损失函数(Log-Likelihood Loss Function)

对数似然损失函数&#xff08;Log-Likelihood Loss Function&#xff09; 对数似然损失函数是机器学习和统计学中广泛使用的一种损失函数&#xff0c;特别是在分类问题&#xff08;例如逻辑回归、神经网络&#xff09;中应用最为广泛。它基于最大似然估计原理&#xff0c;通过…

【Qt】QDateTimeEdit控件实现清空(不保留默认时间/最小时间)

一、QDateTimeEdit控件 QDateTimeEdit 提供了一个用于编辑日期和时间的控件。用户可以通过键盘或使用上下箭头键来增加或减少日期和时间值。日期和时间的显示格式根据设置的格式显示&#xff0c;可以通过 setDisplayFormat() 方法来设置。 二、如何清空 我在使用的时候&#…

基于BERT的语义分析实现

✨✨ 欢迎大家来访Srlua的博文&#xff08;づ&#xffe3;3&#xffe3;&#xff09;づ╭❤&#xff5e;✨✨ &#x1f31f;&#x1f31f; 欢迎各位亲爱的读者&#xff0c;感谢你们抽出宝贵的时间来阅读我的文章。 我是Srlua小谢&#xff0c;在这里我会分享我的知识和经验。&am…

操作系统存储器相关习题

1 为什么要配置层次式存储器? 设置多个存储器可以使存储器两端的硬件能并行工作&#xff1b; 采用多级存储系统特别是Cache技术&#xff0c;是减轻存储器带宽对系统性能影响的最佳结构方案&#xff1b; 在微处理机内部设置各种缓冲存储器&#xff0c;减轻对存储器存取的压力。…