前言
箱线图(Box-plot) 又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。
本文将结合实例阐述其意义和绘图过程。
箱线图简介
箱线图(Boxplot) 也称箱须图( Box-whisker Plot),是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息,特别的可以用于对几个样本的比较。
如图所示,可以看出,该组数据最小值为20;Q1即为第一四分位数,其值为50;中位数为70;Q3即为第三四分位数,其值为120;最大值为150。
科研绘图中较为常见的箱线图都是竖着的,如下:
- 一组数据按照从小到大顺序排列后,把该组数据四等分的数,称为四分位数。第一四分位数 (Q1)、第二四分位数 (Q2,也叫“中位数”)和第三四分位数 (Q3)分别等于该样本中所有数值由小到大排列后第25%、第50%和第75%的数字。第三四分位数与第一四分位数的差距又称四分位距(interquartile range, IQR)。
- 中位数越靠近Q1,说明数据在下方(小数目数)集中;中位数越靠近Q3,说明数据在上方(大数目数)集中。
偏态与正态分布相对,指的是非对称分布的偏斜状态。在统计学上,众数和平均数之差可作为分配偏态的指标之一:如平均数大于众数,称为正偏态(或右偏态);相反,则称为负偏态(或左偏态)。
- 对于标准正态分布的样本,中位数位于上下四分位数(Q1和Q3)的中央,只有极少值为异常值,箱形图的方盒关于中位线对称。异常值越多说明尾部越重,自由度越小(即自由变动的量的个数)。
- 偏态表示偏离程度,中位数越偏离上下四分位数的中心位置,分布偏态性越强。异常值集中在较大值一侧,则分布呈现右偏态;异常值集中在较小值一侧,则分布呈现左偏态。
特别说明:箱盒图里面的最大观测值(上边缘值)并不一定是数据中的最大值,最小观测值(下边缘值)也不一定是最小值。
箱线图绘制
链接: 【听说你想画箱线图/箱型图?教程在这儿~】