箱线图:
箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。在各种领域也经常被使用,常见于品质管理。它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比 较。箱线图的绘制方法是:先找出一组数据的上边缘、下边缘、中位数和两个四分位数;然后, 连接两个四分位数画出箱体;再将上边缘和下边缘与箱体相连接,中位数在箱体中间。
箱线图如上所示,简单解释一下,中间的红线是中位线,表示有50%的样本数据在其上方,50%在其下方,黄色的代表上/下四分位数线,上四分位数线,代表其上方有25%的样本数据,下方有75%的样本数据。下四分位数线以此类推。紫色的线代表上下界,表示最大数值线与最小数值。上方的蓝色的点代表异常值,可不予考虑,不必关心。
如何判断异常值呢?
判断是不是异常值,设上四分位数线为Q1,下四分位数线为Q3,那么 2.5Q3 - Q1 =< 正常值 =< 2.5Q1-Q3,超过了这个界限的观察值就是异常值。