【Python画图-驯化seaborn】一文搞懂seaborn中的箱线图实践技巧

【Python画图-驯化seaborn】一文搞懂seaborn中的箱线图实践技巧

 
本次修炼方法请往下查看
在这里插入图片描述

🌈 欢迎莅临我的个人主页 👈这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合,智慧小天地!
🎇 免费获取相关内容文档关注:微信公众号,发送 pandas 即可获取
🎇 相关内容视频讲解 B站

🎓 博主简介:AI算法驯化师,混迹多个大厂搜索、推荐、广告、数据分析、数据挖掘岗位 个人申请专利40+,熟练掌握机器、深度学习等各类应用算法原理和项目实战经验

🔧 技术专长: 在机器学习、搜索、广告、推荐、CV、NLP、多模态、数据分析等算法相关领域有丰富的项目实战经验。已累计为求职、科研、学习等需求提供近千次有偿|无偿定制化服务,助力多位小伙伴在学习、求职、工作上少走弯路、提高效率,近一年好评率100%

📝 博客风采: 积极分享关于机器学习、深度学习、数据分析、NLP、PyTorch、Python、Linux、工作、项目总结相关的实用内容。

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

🌵文章目录🌵

    • 🎯 1. 基本介绍
    • 💡 2. 原理介绍
    • 🔍 3. 画图实践
      • 3.1 数据准备
      • 3.2 单维画图
      • 3.3 分组画图
    • 4 高阶用法
    • 🔍 5. 注意事项
    • 🔍 6. 总结

下滑查看解决方法

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

  

🎯 1. 基本介绍

  箱线图(Boxplot)是一种用于展示数据分布的统计图表,它能够提供数据的最小值、第一四分位数(Q1)、中位数(Q2)、第三四分位数(Q3)和最大值的摘要信息,并且可以直观地识别出数据中的异常值。

💡 2. 原理介绍

  箱线图的关键数值定义如下:

  • 最小值(Minimum):数据集中的最小非异常值。
    第一四分位数(Q1):数据集中25%位置的值,表示有25%的数据点小于或等于这个值。
    中位数(Q2,Median):数据集中50%位置的值,将数据集分为两个相等的部分。
    第三四分位数(Q3):数据集中75%位置的值,表示有75%的数据点小于或等于这个值。
    最大值(Maximum):数据集中的最大非异常值。
    四分位距(Interquartile Range, IQR):Q3与Q1之间的差值,表示数据集中间50%的数值范围。

🔍 3. 画图实践

3.1 数据准备

   我们通过seaborn自带的数据对其进行相关的画图,具体的导入数据代码如下所示:

import seaborn as sns
import matplotlib.pyplot as plt# 使用Seaborn内置的tips数据集
tips = sns.load_dataset("tips")total_bill	tip	sex	smoker	day	time	size
0	16.99	1.01	Female	No	Sun	Dinner	2
1	10.34	1.66	Male	No	Sun	Dinner	3
2	21.01	3.50	Male	No	Sun	Dinner	3
3	23.68	3.31	Male	No	Sun	Dinner	2
4	24.59	3.61	Female	No	Sun	Dinner	4
...	...	...	...	...	...	...	...
239	29.03	5.92	Male	No	Sat	Dinner	3
240	27.18	2.00	Female	Yes	Sat	Dinner	2
241	22.67	2.00	Male	Yes	Sat	Dinner	2
242	17.82	1.75	Male	No	Sat	Dinner	2
243	18.78	3.00	Female	No	Thur	Dinner	2

3.2 单维画图

   在画箱线图时,我们取单个维度指定方向即可,具体的代码如下所示:

ax = sns.boxplot(y=tips["total_bill"])

   具体的图片如下所示:
在这里插入图片描述

ax = sns.boxplot(x=tips["total_bill"])

在这里插入图片描述

3.3 分组画图

   有时候我们需要对多个维度的分布进行对比分析,这个时候需要分组画图,具体的代码如下所示:

# 分组绘制箱线图,分组因子是day,在x轴不同位置绘制
ax = sns.boxplot(x="day", y="total_bill", data=tips)

在这里插入图片描述

  有时候我们不仅要分组,同时对每个分组内某个特征维度进行对比分析,具体的代码如下所示:

# 分组箱线图,分子因子是smoker,不同的因子用不同颜色区分
ax = sns.boxplot(x="day", y="total_bill", hue="smoker",data=tips, palette="Set3")

在这里插入图片描述

4 高阶用法

   有时候我们不仅需要画出数据的分布图,但是还想知道具体的数据点的分布,这个时候我们可以结合分布散点图来一起使用,具体的代码如下所示:

# 箱线图+有分布趋势的散点图
# 图形组合也就是两条绘图语句一起运行就可以了,相当于图形覆盖了
ax = sns.boxplot(x="day", y="total_bill", data=tips)
ax = sns.swarmplot(x="day", y="total_bill", data=tips, color=".25")

在这里插入图片描述

🔍 5. 注意事项

  • 箱线图非常适合于比较不同组数据的分布情况。
  • 箱线图中的异常值通常用点表示,位于箱形图外的点表示这些值。
  • 箱线图的四分位距(IQR)可以提供数据分布的稳定性和离散程度的信息。
  • 在绘制箱线图时,考虑数据的规模和分布特性,选择合适的轴尺度(如对数尺度)。

🔍 6. 总结

  Seaborn的箱线图是一种强大的工具,用于快速理解数据的分布情况和识别异常值。通过本博客的代码示例,我们学习了如何使用Seaborn绘制箱线图,并展示了如何通过箱线图探索不同类别数据的分布特征。希望这篇博客能够帮助你更好地利用箱线图进行数据探索和分析。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/38991.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2736 卡片重排

题目描述 Description 可可共有两种卡片,一种卡片是数字0-9编号,一种卡片是字母A-Z编号,现在两种卡片混在一起,可可想将它们归类摆放,但是要求同类卡片中,它们相对位置不可以改变,原先在前的仍…

python把项目编译成so文件

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、使用步骤1.引入库 总结 前言 提示 例如: 提示:以下是本篇文章正文内容,下面案例可供参考 一、使用步骤 1.引入库 代…

C语言两个较大数字相加

C语言两个较大数字相加 思路分析 由于C语言中的基本数据类型(如int、long等)有固定的大小,无法直接处理非常大的数字(如数百位的数字)。因此,我们需要采用字符串或数组来表示大数字,并逐位进行…

1.4 ROS2集成开发环境搭建

1.4.1 安装VSCode VSCode全称Visual Studio Code,是微软推出的一款轻量级代码编辑器,免费、开源而且功能强大。它支持几乎所有主流的程序语言的语法高亮、智能代码补全、自定义热键、括号匹配、代码片段、代码对比Diff、GIT 等特性,支持插件…

导入第三方包Could not find a package configuration file provided by “demo msgs“ with

报错代码 Could not find a package configuration file provided by "demo msgs" with any of the following names: demo msgsConfig.cmake demo msgs-config.cmake Add the installation prefix of "demo msgs" tO CMAKE PREFIX PATH or set "dem…

7.3数据库第一次作业

安装MySQL 1.打开安装包 2.选择自定义安装(custom)并点击下一步 3.自定义安装路径 4.点击执行 5.执行成功 6.默认选项点击下一步 7.选择新的授权方式并点击下一步 8.配置密码 9.默认配置并点击下一步 10.点击执行(Execute) 11.执…

python中的文件

1.什么是文件? 硬盘上存储的数据都是以文件的形式来组织的~ 文件是数据在硬盘上的存储形式,不同的数据在硬盘上的存储形式是不同的, 2.文件路径 文件夹/目录。 文件夹,再包含文件夹的情况,这就是一个嵌套的关系&…

2024-2025年本田维修电路图线路图接线图资料更新

此次更新了2024-2025年本田车系电路图资料,覆盖市面上99%车型,包括维修手册、电路图、新车特征、车身钣金维修数据、全车拆装、扭力、发动机大修、发动机正时、保养、电路图、针脚定义、模块传感器、保险丝盒图解对照表位置等等! 汽修帮手汽…

Java中使用arima预测未来数据

看着已经存在的曲线图数据,想预估下后面曲线图的数据。 import java.util.Vector;public class AR {double[] stdoriginalData{};int p;ARMAMath armamathnew ARMAMath();/*** AR模型* param stdoriginalData* param p //p为MA模型阶数*/public AR(double [] stdori…

你的硬盘知道的太多:你以为你的秘密真的被删除了吗?

某一天你收到了朋友发给你的一个秘密文件,在看完之后,为了不被别人发现,你决定将文件毁尸灭迹! 你选中文件名称 / 右键 / 删除,好了,文件已经消失了。但你是懂电脑的,知道文件此时还在回收站里面…

Ozon/Noon/Temu/TK Shop如何多店铺经营免受关联封号?

许多商家和个人都面临着多店铺经营免受关联封号的挑战。特别是在像Ozon、Noon、TEMU以及TikTok Shop等平台上,如何有效管理多个店铺并避免关联封号成为关键问题。 一、多店铺经营防关联封号的重要性: 在多店铺经营过程中,如果平台检测到多个…

海外虚拟卡开卡平台有哪些?无限开卡,无其他限制

随着时代的发展很多小伙伴都需要海外虚拟卡,海外虚拟卡开卡平台我这里用的是Fomepay的,他们比较人性化,有客服,随时可咨询 对于消费者而言,虚拟卡号提供了隐私,因此广告商更难以跟踪和定位购买行为&#x…

PyQt5入门教程:从安装到构建简单应用

PyQt5入门教程:从安装到构建简单应用 简介 PyQt5是一个功能强大的Python绑定库,用于Qt应用程序框架。它允许我们使用Python语言快速开发跨平台的桌面应用程序。本教程将引导你完成PyQt5的安装、配置,并带你创建一个简单的图形用户界面&…

《python程序语言设计》2018版第5章第50题利用turtle编程显示三角形图案

2024.06.18 05.50.01version 首先我觉得还是应该现从简单阵列来进行。非常简单。顺便回忆一下我3月份做的5.19题里那些淘气的数列 代码成功 #将i从10设计成12打印的毕竟好看 for i in range(1,12):#这这里给结尾的i2效果并不好看for j in range(1,i):print(j,end" "…

【深度学习】Transformer

李宏毅深度学习笔记 https://blog.csdn.net/Tink1995/article/details/105080033 https://blog.csdn.net/leonardotu/article/details/135726696 https://blog.csdn.net/u012856866/article/details/129790077 Transformer 是一个基于自注意力的序列到序列模型,与基…

软件测试与质量保证 | 云班课选择题库

目录 第1章课后习题 第2章课后习题 第3章课后习题 第4章课后习题 第5章课后习题 第6章课后习题 第7章课后习题 第8章课后习题 第9章课后习题 第10章课后习题 第11章课后习题 第12章课后习题 第13章 测试相关未分类习题 第1章课后习题 1. 与质量相关的概念包括 &a…

51单片机第26步_单片机工作在空闲模式

重点学习51单片机工作在空闲模式。 1、进入空闲模式的方法 通过将PCON寄存器中的IDLE置1,CPU就会进入空闲模式。在空闲模式中,程序停止执行,RAM中的数据仍然保持,晶振继续工作,但与CPU断开,定时器和串行口…

IPython调试秘籍:pdb调试器深度解析与实战

🐞 IPython调试秘籍:pdb调试器深度解析与实战 在Python编程中,调试是开发过程中不可或缺的一环。IPython,作为一个强大的交互式Python解释器,内置了pdb调试器,使得代码调试变得异常便捷。本文将深入探讨如…

可充电纽扣电池ML2032充电电路设计

如图,可充电纽扣电池ML2032充电电路设计。 图中二极管是为了防止电流倒灌, 电阻分压出3.66v,再减掉二极管压降(约0.4v)得3.26V,加在电池正负极充电。 随着电池电量的积累,充电电流逐步减小,极限…

什么样的企业适合SD-WAN网络专线?

SD-WAN(Software-Defined Wide Area Network,软件定义广域网)是一种网络技术,它利用软件定义的方式管理和控制广域网(WAN),旨在提高网络效率、降低成本并简化网络管理。以下是适合采用SD-WAN网络…