箱型图 Box Plot 数据分析的法宝

文章目录

  • 一、箱形图的介绍
  • 二、六大因数
  • 三、Box plot的应用
  • 四、箱形图的优劣势
  • 五、图形拓展

一、箱形图的介绍

箱形图又称为盒须图、盒式图、盒状图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。

在各种领域也经常被使用,常见于品质管理,快速识别异常值。箱形图最大的优点就是不受异常值的影响,能够准确稳定地描绘出数据的离散分布情况,同时也利于数据的清洗。
在这里插入图片描述

箱型图于1977年由美国著名统计学家约翰·图基John Tukey)发明。它能显示出一组数据的最大值、最小值、中位数、及上下四分位数。

John Tukey先生1915年出生于美国麻省的新贝德福德。他22岁的时候在布朗大学获得了硕士学位,之后又在普林斯顿大学拿到了化学博士。有趣的是,他并没有直接开始让他青史留名的统计学工作,而是在二战期间进入了火控研究室,在那里,大量武器相关的研究最终都转而需要先解决统计学问题。从此,Tukey改变了自己的人生方向,一代统计学大师即将出现。

二、六大因数

我们以一组序列数为例:12,15,17,19,20,23,25,28,30,33,34,35,36,37 (共14个)讲解这六大因“数
在这里插入图片描述

1、下四分位数Q1
等于该样本中所有数值由小到大排列后第25%的数字。
确定四分位数的位置。Qi所在位置=i(n+1)/4,其中i=1,2,3。n表示序列中包含的项数。
根据位置,计算相应的四分位数(以数组为例)。
Q1所在的位置=(14+1)/4=3.75,
Q1=0.25×第三项+0.75×第四项=0.25×17+0.75×19=18.5;

2、中位数(第二个四分位数)Q2
中位数,等于该样本中所有数值由小到大排列后第50%的数字。
Q2所在的位置=2(14+1)/4=7.5,
Q2=0.5×第七项+0.5×第八项=0.5×25+0.5×28=26.5;

3、上四分位数Q3
等于该样本中所有数值由小到大排列后第75%的数字
计算方法同下分位数。
Q3所在的位置=3(14+1)/4=11.25,
Q3=0.75×第十一项+0.25×第十二项=0.75×34+0.25×35=34.25;

4、上限
上限是非异常范围内的最大值。
首先要知道什么是四分位距如何计算的?
四分位距(interquartile range, IQR),又称四分差。
四分位距IQR=Q3-Q1,那么上限=Q3+1.5IQR

5、下限
下限是非异常范围内的最小值。
下限=Q1-1.5IQR

6、异常值
在内限与外限之间的异常值为温和的异常值(mild outliers)
在外限以外的为极端的异常值(extreme outliers)

三、Box plot的应用

下图是不同地区某工程师的薪酬统计情况:
在这里插入图片描述
图中的红线显然是各个城市中游水平的工程师能够获得的薪资标准,上边的蓝线区间为中上游,下边的蓝线区间为中下游,以此类推。简而言之,样本人群被四等分了。

上海、北京、深圳的工程师,薪资范围接近,但是中上游水平的人,北京地区能获得更高的薪资,因为中位数(Q2)的位置更高。西安、长沙、天津则不利于工程师的发展。杭州的水平接近北上深,但是薪资上限受到一定限制

四、箱形图的优劣势

1.直观明了地识别数据批中的异常值

上文讲了很久的识别异常值,其实箱线图判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的耐抗性,多达25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值不会影响箱形图的数据形状,箱线图识别异常值的结果比较客观。由此可见,箱线图在识别异常值方面有一定的优越性。

2.利用箱线图判断数据批的偏态和尾重

对于标准正态分布的样本,只有极少值为异常值。异常值越多说明尾部越重,自由度越小(即自由变动的量的个数);

而偏态表示偏离程度,异常值集中在较小值一侧,则分布呈左偏态;异常值集中在较大值一侧,则分布呈右偏态。

3.利用箱线图比较几批数据的形状

同一数轴上,几批数据的箱线图并行排列,几批数据的中位数、尾长、异常值、分布区间等形状信息便昭然若揭。如上图,可直观得看出第三季度各分公司的销售额大体都在下降。

但箱形图也有他的局限性,比如:不能精确地衡量数据分布的偏态和尾重程度;对于批量比较大的数据,反映的信息更加模糊以及用中位数代表总体评价水平有一定的局限性。

五、图形拓展

在这里插入图片描述
一些柱状图中作者会添加误差线来给数值增加误差范围,看起来和箱线图有点相似。箱子虽好,别分不清!误差线可以用标准差(平均偏差)或标准误差,一般通用的是这两个
在这里插入图片描述
在这里插入图片描述
K 线图,原名蜡烛图,又称阴阳图、棒线、红黑线或蜡烛线,常用于展示股票交易数据。虽然和箱形图长得有点像,但二者几乎是完全不同的图表。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/173089.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PHP中的常见的超全局变量

PHP是一种广泛使用的服务器端脚本语言,它被用于开发各种Web应用程序。在PHP中,有一些特殊的全局变量,被称为超全局变量。超全局变量在整个脚本中都是可用的,无需使用global关键字来访问它们。在本文中,我们将深入了解P…

基于springboot实现医院信管系统项目【项目源码+论文说明】计算机毕业设计

基于springboot实现医院信管系统演示 摘要 随着信息技术和网络技术的飞速发展,人类已进入全新信息化时代,传统管理技术已无法高效,便捷地管理信息。为了迎合时代需求,优化管理效率,各种各样的管理系统应运而生&#x…

C语言做一个恶作剧关机程序

一、项目介绍 C语言实现一个简单的"流氓软件"&#xff0c;一个可以强制关机恶作剧关机程序&#xff0c;输入指定指令可以解除 二、运行截图 然后当你输入“n”才可以解锁关机。 三、完整源码 #include <stdlib.h> #include <stdio.h> #include <s…

Java核心知识点整理大全17-笔记

Java核心知识点整理大全-笔记_希斯奎的博客-CSDN博客 Java核心知识点整理大全2-笔记_希斯奎的博客-CSDN博客 Java核心知识点整理大全3-笔记_希斯奎的博客-CSDN博客 Java核心知识点整理大全4-笔记-CSDN博客 Java核心知识点整理大全5-笔记-CSDN博客 Java核心知识点整理大全6…

编译器设计01-入门概述

编译器作用概述 源代码 → 编译器 目标代码 源代码\xrightarrow{\ \ \ 编译器\ \ \ }目标代码 源代码 编译器 ​目标代码 编译阶段概述 编译处理包括两个阶段&#xff1a;前端处理和后端处理&#xff0c;中间过程生成语法树。 编译处理&#xff1a;源代码 → 语法树 …

debian 12设置静态ip、dns

debian 12设置静态ip、dns 1、设置静态ip2、设置dns 1、设置静态ip 查看网卡名称是ens33 ip address编辑网卡配置文件 vi /etc/network/interfaces默认是这样的 在最后面添加下面内容 其中 ens33是上步中查询到的网卡名称address 192.168.2.157 是ip地址netmask 255.255.…

uniapp上传图片 前端以及java后端代码实现

最近在做uniapp相关的开发&#xff0c;在上传图片的时候遇到了一些问题&#xff0c;所幸经过一些努力&#xff0c;解决开发过程中遇到的困难&#xff0c;记录一下uniapp上传图片的实现过程 1、前端代码 setPic1: function() {var me this;var serverUrl this.serverUrl;uni…

【nlp】4.3 nlp中常用的预训练模型(BERT及其变体)

nlp中常用的预训练模型 1 当下NLP中流行的预训练模型1.1 BERT及其变体1.2 GPT1.3 GPT-2及其变体1.4 Transformer-XL1.5 XLNet及其变体1.6 XLM1.7 RoBERTa及其变体1.8 DistilBERT及其变体1.9 ALBERT1.10 T5及其变体1.11 XLM-RoBERTa及其变体2 预训练模型说明3 预训练模型的分类1…

Kubernetes技术与架构-配置

一般情况下&#xff0c;Kubernetes使用yaml文件格式定义配置文件&#xff0c;配置文件须指定对应的API稳定版本号&#xff0c;将配置文件进行版本控制、在发布新版本的过程中出问题时可以执行版本回滚操作&#xff0c;将相关联的对象定义在同一个配置文件中、从而更容易地管理&…

【设计模式】行为型模式-第 3 章第 5 讲【观察者模式】

目录 观察者模式(Observer Mode)定义 目的 主要解决什么问题 实现 基本类图

C++学习之路(六)C++ 实现简单的工具箱系统命令行应用 - 示例代码拆分讲解

简单的工具箱系统示例介绍: 这个示例展示了一个简单的工具箱框架&#xff0c;它涉及了几个关键概念和知识点&#xff1a; 面向对象编程 (OOP)&#xff1a;使用了类和继承的概念。Tool 是一个纯虚类&#xff0c;CalculatorTool 和 FileReaderTool 是其派生类。 多态&#xff1…

csdn的搜索关键词

忽然发现一个问题&#xff1a;通过关键字找自己的博文&#xff0c;自己知道自己曾经写过某篇文章&#xff0c;但是不记得具体目录与位置&#xff0c;标题了&#xff0c;只知道大概是什么相关的&#xff0c;这个时候就需要关键字查询了&#xff0c;快速方便的找到自己需要的文章…

计算一个Series序列的n阶滞后相关系数Series.autocorr()

【小白从小学Python、C、Java】 【计算机等考500强证书考研】 【Python-数据分析】 计算一个时间序列的 n阶滞后自相关系数 Series.autocorr(n) [太阳]选择题 以下代码的说法中正确的是? import pandas as pd s1 pd.Series([1,2,3,4,5,6]) print("【显示】s1:\n",…

7 通用数字量输入输出GPIO

文章目录 7.0 GPIO概念7.1 GPIO工作原理7.2 GPIO寄存器以及编程7.2.5 GPIO寄存器编程设置与应用 7.3 GPIO跑马灯7.3.1 LED 输出初始化7.3.2 跑马灯输出实验7.3.3 按键输入实验 7.0 GPIO概念 GPIO&#xff08;general purpose intput output&#xff09;是通用输入输出端口的简…

最火web大屏可视化编辑器

前言&#xff1a; 乐吾乐Le5le大屏可视化设计器&#xff0c;零代码实现物联网、工业智能制造等领域的可视化大屏、触摸屏端UI以及工控可视化的解决方案。同时也是一个Web组态工具&#xff0c;支持2D、3D等多种形式&#xff0c;用于构建具有实时数据展示、监控预警、丰富交互的组…

2009年iMac装64位windows7及win10

2009年iMac装64位windows7及win10 Boot Camp没有“创建 Windows7 或更高版本的安装磁盘”选项 安装完Mac OS系统后&#xff0c;要制作Windows7安装U盘时才发现&#xff0c;Boot Camp没有“创建 Windows7 或更高版本的安装磁盘”选项&#xff0c;搜索到文章&#xff1a;修改Boo…

laravel框架学习

一、文件上传 在控制器中按下面所示书写 public function upload(){$this->domain $_SERVER[HTTP_HOST]; //获取当前域我&#xff0c; 其实这个是不应该写在这儿&#xff08;应该是一个全局&#xff09;&#xff0c;我只是做个例子。$file $this->require->file(fi…

blender 3D眼球结构

角膜&#xff08;Cornea&#xff09;&#xff1a;眼球的前部&#xff0c;透明的曲面&#xff0c;负责折射光线。虹膜&#xff08;Iris&#xff09;&#xff1a;眼睛的颜色部分&#xff0c;控制瞳孔大小以调整进入眼睛的光量。瞳孔&#xff08;Pupil&#xff09;&#xff1a;虹膜…

Mycat实现读写分离

Mycat实现读写分离 Mycat支持MySQL主从复制状态绑定的读写分离机制。这里实现的也是基于MySQL主从复制的读写分离。 MySQL主从复制配置 首先要配置MySQL的主从复制&#xff0c;这里配置的是一主一次从。可以参考下面的文章。 https://blog.csdn.net/wsb_2526/article/detail…

Zookeeper分布式锁实现Curator十一问

前面我们通过Redis分布式锁实现Redisson 15问文章剖析了Redisson的源码&#xff0c;理清了Redisson是如何实现的分布式锁和一些其它的特性。这篇文章就来接着剖析Zookeeper分布式锁的实现框架Curator的源码&#xff0c;看看Curator是如何实现Zookeeper分布式锁的&#xff0c;以…