Python 数据可视化之山脊线图 Ridgeline Plots

文章目录

  • 一、前言
  • 二、主要内容
  • 三、总结

🍉 CSDN 叶庭云https://yetingyun.blog.csdn.net/


一、前言

JoyPy 是一个基于 matplotlib + pandas 的单功能 Python 包,它的唯一目的是绘制山脊线图 Joyplots(也称为 Ridgeline Plots)。

Why are they called joyplots?

Joyplots 是堆叠的、部分重叠的密度图,就是这么简单。它们是一种很好的绘制数据的方式,可以用来直观比较分布,特别是哪些随着一个维度(比如时间)变化的分布。虽然这并不是一种新技术。

在这里插入图片描述

Github 地址:https://github.com/leotac/joypy

安装 joypy,使用 pip install joypy==0.2.6 就好。

在行为差异、特征工程和预测建模等场景中,了解不同组之间的变量分布差异非常有用。在这些情况下,许多数据科学家更喜欢在单一坐标轴上绘制组级分布图,例如直方图或密度图。然而,当群体较多时,简单的组级分布图可能变得混乱且难以理解。

本文将向您介绍一种紧凑而优雅的数据可视化工具:山脊线图。它以清晰的方式展示不同变量或变量类别的分布差异,帮助我们更好地理解数据中的群体特征,从而获得更深入的洞察和启发。


二、主要内容

使用鸢尾花数据集 iris.csv 做实验,这个数据集如下所示:

在这里插入图片描述

打印特征名称和标签,以及输出标签的 value_counts。

print(f"特征:{list(df.columns)[:-1]}")
print(f"标签:{list(df.columns)[-1]}")特征:['SepalLength', 'SepalWidth', 'PetalLength', 'PetalWidth']
标签:Namedf["Name"].value_counts()Iris-setosa        50
Iris-versicolor    50
Iris-virginica     50
Name: Name, dtype: int64
selected_cols = ['SepalLength', 'SepalWidth', 'PetalLength', 'PetalWidth']fig, ax = plt.subplots(figsize=(10, 6), dpi=200)
my_title = 'Distribution of features in the iris dataset'fig, axes = joyplot(data=df,ax=ax,by='Name',column=selected_cols,xlabelsize=14,ylabelsize=14,grid=True,hist=False,color=['#FF0066', '#9400D3','#002FA7', '#FFB900'],legend=True,title=my_title,alpha=0.86,
)fig.savefig("./Figures/山脊图.png", dpi=300)plt.show()

关键参数说明

  • data:数据帧(DataFrame)、系列(Series)或嵌套集合(Nested collection)。常用 pandas 的 DataFrame
  • ax : matplotlib axes 对象,默认为 None。
  • column:字符串或序列。如果传入参数,将用于将数据限制为列的子集。
  • by:对象,可选项。用于划分不同组的变量分布的特征名称。本次实验中是 “Name”。
  • grid:布尔值,默认是 True。是否显示轴网格线。
  • title:绘制的图表的标题。
  • alpha:设置透明度。
  • xlabels、ylabels:布尔值或列表,默认为 True。
  • xlabelsize:整数,默认值 None。如果指定,则更改 X 轴标签尺寸。
  • xrot:浮点数,默认为 None。旋转 X 轴标签的角度。
  • ylabelsize:整数,默认值 None。如果指定,则更改 Y 轴标签尺寸。
  • yrot:浮点数,默认为 None。旋转 Y 轴标签的角度。
  • figsize : 元组。默认情况下,要创建的图形大小(以 inches 为单位)。
  • color:在绘图中使用的一种或多种颜色。可以是字符串或任何可被 matplotib 解释为颜色的东西。通常传入颜色列表。
  • kwds : 其他绘图关键字参数,将传递给 hist / {/} /kde plot 函数。

实际上,这主要涉及一些 matplotlib 绘图参数。用户还可以直接修改源代码,以调整 X 轴、Y 轴、标题和图例的字体大小,从而使生成的山脊线图更加美观。

山脊线图可视化的效果如下图所示

在这里插入图片描述

正如上图所示,山脊线图不仅展示了每个鸢尾花种类四个特征的分布形状和峰值,还直观地展示了不同种类之间的差异。通过将多个组的分布放置在同一张山脊线图上,并使用不同的颜色或线型进行标识,我们可以轻松比较它们之间的相似性和差异性。


三、总结

山脊线图(Ridgeline Plots),也被称为 Joy Plots,是一种用于展示一个或多个组的数据分布的数据可视化方法。

什么是山脊线图?

  • 山脊线图中,每个组的数据分布通过平滑的密度曲线表示,这些曲线沿垂直轴堆叠排列,从而产生类似山脊的视觉效果。
  • 这种图表特别适用于比较不同组的数据分布情况。

为什么要使用山脊线图?

  • 平滑展示数据分布:与传统的条形图或直方图相比,山脊线图提供了一种更平滑、更直观的方式来展示数据的分布情况。
  • 比较能力:山脊线图非常适合比较多个分布的形状和大小,清晰地展示不同组之间的变化和趋势。
  • 空间效率:通过在单个图中堆叠,山脊线图可以有效地利用空间,避免了创建多个单独的密度图。
  • 美观性:山脊线图在视觉上吸引人,用不同的颜色和样式区分不同的组,使得数据更加生动和直观。
  • 趋势识别:可以轻松识别多个群体数据中的共同模式和异常值。
  • 适用于大量数据集:山脊线图适用于展示大量数据集,而不会显得拥挤或不清晰。

如何制作山脊线图?

  • 山脊线图的制作基于核密度估计(Kernel Density Estimation,KDE),这是一种非参数估计概率密度函数的方法。
  • 使用 JoyPy,一个基于 matplotlib + pandas 的轻量级 Python 包,可以轻松绘制山脊线图 Joy Plot。

📚️ 参考链接:

  • 山脊线图(Ridgeline Plots):一个被低估的数据可视化瑰宝
  • HF.050 | 山脊图、密度图,最全总结实现方法在这里!
  • 沈向洋:致 AI 时代的我们 —— 请不要忽视写作的魅力

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/676937.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【C语言】一道相当有难度的指针某大厂笔试真题(超详解)

这是比较复杂的题目,但是如果我们能够理解清楚各个指针代表的含义,画出各级指针的关系图,这道题就迎刃而解了。 学会这道笔试题,相信你对指针的理解,对数组,字符串的理解都会上一个档次。 字符串存储使用的…

MFC实现遍历系统进程

今天我们来枚举系统中的进程和结束系统中进程。 认识几个API 1)CreateToolhelp32Snapshot 用于创建系统快照 HANDLE WINAPI CreateToolhelp32Snapshot( __in DWORD dwFlags, //指定快照中包含的系统内容__in DWORD th32P…

【华为 ICT HCIA eNSP 习题汇总】——题目集15

1、(多选)以下 eSight 网管支持的远程告警通知方式包括()。 A、邮件 B、语音 C、视频 D、短信 考点:网络运维 解析:(AD) eSight 网管支持的远程告警通知方式主要包括邮件和短信通知&…

第64讲个人中心用户操作菜单实现

静态页面 <!-- 用户操作菜单开始 --><view class"user_menu"><!-- 订单管理开始 --><view class"order_wrap"><view class"order_title">我的订单</view><view class"order_content"><n…

练习:鼠标类设计之1_类内容解析

前言 光做理论上的总结,不做练习理解不会那么深刻 做类的练习,解析类里面的内容有哪些 引入 电脑使用最频繁的两个外设:鼠标和键盘,他们每时每刻都在和用户交互,试做一个鼠标类 思路 我们现在要做一个鼠标类,这个类是属于能动类还是资源类呢?鼠标似乎自己做不了什么,需要和其…

简易告警去重设计

背景 开发环境、生成环境&#xff0c;通常会有很多种告警&#xff0c;用来及时发现问题 粗暴的处理告警&#xff0c;通常会导致刷屏&#xff0c;进而麻木&#xff0c;最后起不到告警的作用 这里设计一个简单的去重机制 实现方案 方案一&#xff1a;把告警信息打到 alarm 服…

LeetCode467. Unique Substrings in Wraparound String——动态规划

文章目录 一、题目二、题解 一、题目 We define the string base to be the infinite wraparound string of “abcdefghijklmnopqrstuvwxyz”, so base will look like this: “…zabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcd…”. Given a string s, return …

【网站项目】031网络游戏公司官方平台

&#x1f64a;作者简介&#xff1a;拥有多年开发工作经验&#xff0c;分享技术代码帮助学生学习&#xff0c;独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。&#x1f339;赠送计算机毕业设计600个选题excel文件&#xff0c;帮助大学选题。赠送开题报告模板&#xff…

网络编程-Socket套接字

目录 1.网络编程 1.1定义与图解 1.2基本概念 &#xff08;1&#xff09;发送端和接收端 &#xff08;2&#xff09;请求和响应 &#xff08;3&#xff09;客户端和服务端 2.Socket套接字 2.1定义 2.2分类 &#xff08;1&#xff09;流套接字 &#xff08;2&#xff…

攻防世界——re2-cpp-is-awesome

64位 我先用虚拟机跑了一下这个程序&#xff0c;结果输出一串字符串flag ——没用 IDA打开后 F5也没有什么可看的 那我们就F12查看字符串找可疑信息 这里一下就看见了 __int64 __fastcall main(int a1, char **a2, char **a3) {char *v3; // rbx__int64 v4; // rax__int64 v…

知识图谱与图神经网络融合:构建智能应用的新前沿

目录 前言1 知识图谱表示学习1.1 典型模型1.2 下游任务 2 图神经网络与知识图谱表示学习2.1 Compgcn&#xff1a;合成图卷积模型2.2 知识图谱嵌入在归纳设置下的推进 3 图神经网络与知识图谱构建3.1 关系抽取的进阶应用3.2 结构信息补全与知识图谱的完整性 4 图神经网络与知识图…

数据分类分级

一段时间没写文章了&#xff0c;最近做政府数据治理方面的项目&#xff0c;数据治理一个重要的内容是数据安全&#xff0c;会涉及数据的分类分级&#xff0c;是数据治理的基础。 随着“十四五”规划推行&#xff0c;数据要素概念与意识全面铺开&#xff0c;国家、政府机构、企业…

python用yaml装参数并支持命令行修改

效果&#xff1a; 将实验用的参数写入 yaml 文件&#xff0c;而不是全部用 argparse 传&#xff0c;否则命令会很长&#xff1b;同时支持在命令行临时加、改一些参数&#xff0c;避免事必要在 yaml 中改参数&#xff0c;比较灵活&#xff08;如 grid-search 时遍历不同的 loss…

JavaScript综合练习4

JavaScript 综合练习 4 1. 案例演示 2. 代码实现 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8" /><meta name"viewport" content"widthdevice-width, initial-scale1.0" /><title&…

深入探索MySQL 8:隐藏索引与降序索引的新特性

随着技术的不断进步&#xff0c;数据库管理系统&#xff08;DBMS&#xff09;也在不断地更新和升级&#xff0c;以满足日益增长的数据处理需求。作为最受欢迎的开源关系型数据库之一&#xff0c;MySQL的每个新版本都会引入一系列新特性和改进&#xff0c;旨在提高性能、增强安全…

单片机的认识

单片机的定义 先简单理解为&#xff1a; 在一片集成电路芯片上集成了微处理器&#xff08;CPU &#xff09;存储器&#xff08;ROM和RAM&#xff09;、I/O 接口电路&#xff0c;构成单芯片微型计算机&#xff0c;即为单片机。 把组成微型计算机的控制器、运算器、存储器、输…

MATLAB实现随机森林回归算法

随机森林回归是一种基于集成学习的机器学习算法&#xff0c;它通过组合多个决策树来进行回归任务。随机森林的基本思想是通过构建多个决策树&#xff0c;并将它们的预测结果进行平均或投票来提高模型的准确性和鲁棒性。 以下是随机森林回归的主要特点和步骤&#xff1a; 决策树…

“SharpDocx” C#项目中用于创建 Word 文档的轻量级模板引擎

简介&#xff1a; SharpDocx是一个轻量级的模板引擎&#xff0c;用于创建Word文档。它允许开发者基于视图生成Word文档&#xff0c;这个视图本身就是一个Word文档&#xff0c;可以根据需要设置简单或复杂的布局。 以下是一些主要特点&#xff1a; 模板引擎类似Razor&#xf…

jmeter-问题二:JMeter进行文件上传时,常用的几种MIME类型

以下是一些常用的MIME类型及其对应的文件扩展名&#xff1a; 文本类型: text/plain: 通常用于纯文本文件&#xff0c;如 .txt 文件。 text/html: 用于HTML文档&#xff0c;即 .html 文件。 application/msword: Microsoft Word文档&#xff0c;即 .doc 和 .docx 文件。 图像…

【大厂AI课学习笔记】【1.5 AI技术领域】(8)文本分类

8,9,10&#xff0c;将分别讨论自然语言处理领域的3个重要场景。 自然语言处理&#xff0c;Natual Language Processing&#xff0c;NLP&#xff0c;包括自然语言识别和自然语言生成。 用途是从非结构化的文本数据中&#xff0c;发掘洞见&#xff0c;并访问这些信息&#xff0…