使用Matplotlib和Seaborn进行绘制箱线图和热力图
。
箱线图
箱线图(boxplot)又称盒式图,可以显示数据的分散情况,由五个数值点组成:最大值(max)-上界、最小值(min)-下界、中位数(median)和上下四分位数(Q1, Q3)。它可以帮我们分析出数据的差异性、离散程度和异常值等。
# 数据准备# ⽣成0-1之间的10*4维度数据(10行,4列的数组)import numpy as npdata = np.random.normal(size=(10,4))lables = ['A', 'B', 'C', 'D']# ⽤Matplotlib画箱线图# boxplot(x,labels=None)函数,x代表绘图数据,labels是缺省值,可以为箱线图添加标签。import matplotlib.pyplot as pltplt.boxplot(data, labels=lables) #注意单词labels和lablesplt.show()# ⽤Seaborn画箱线图# boxplot(x=None,y=None,data=None)函数。data为DataFrame类型,x、y是data中的变量。import seaborn as snsimport pandas as pddf = pd.DataFrame(data, columns=lables)sns.boxplot(data=df)plt.show()
运行结果:
热力图
热力图(heat map)是一种矩阵表示方法,其中矩阵中的元素值用颜色来代表,不同的颜色代表不同大小的值。通过颜色的深浅就能直观地知道某个位置上数值的大小。另外也可以某个位置上的颜色与其他位置颜色进行比较,是一种非常直观的多元变量分析方法。
1、基本热力图
2、设置热力图区间
3、颜色差异更大的原因
4、使用Seaborn自带数据
一般使用Sarborn中的sns.heatmap(data)函数绘制,我们使用Seaborn中自带的数据集flights,该数据集记录了1949年到1960年期间,每个月的航班乘客的数量。一般可能会出网络问题导致的失败。
https://github.com/mwaskom/seaborn-data
运行结果:
5、指定调色板
小作业
1、Seaborn数据集中自带了car_crashes数据集,这是一个国外车祸的数据集,对这个数据集进行成对关系的探索。并用Seaborn画二元变量(x="total,y="speeding")分布图,如果想要画散点图,核密度图,Hexbin图该怎样写.
请添加小编,回复关键词:[数据可视化],
-今日互动-
你学会了吗?欢迎文章下方留言互动
如果对你有帮助的话
❤️来个「转发朋友圈」和「在看」,是最大的支持❤️