数据运算不仅仅是加减乘除的基本运算,还要包括数据的比较,汇总和相关性的计算等等,这一节我们将计算的问题帮大家汇总出来~
目录
一. 加减乘除运算
二. 比较运算
三. 汇总运算
count 非空值计数
sum 求和
其他(均值,最大最小值,中位数,众数,方差,标准差,分位数)
四. 相关性运算
一. 加减乘除运算
以下表为例:
加法运算
我们需要生成新的一列“总和”,将四个季度的销售额相加:
df['总和'] 表示生成新的一列,列名为“总和”
减法运算
我们看一下第二季度和第一季度销售额的差额,用第二季度减第一季度:
乘法和除法的计算格式也是一样的,这里就不在具体举例说明。
二. 比较运算
这里介绍的比较,是指对比表格的两列大小之间的关系,输出的值为True 或者False,跟Excel中用IF 函数进行对比效果是一样的。
举例:比较是否第二季度销售额大于等于第一季度
常用对比语句:
# 第一季度大于第二季度df['第一季度']>df['第二季度']# 第一季度不等于第二季度df['第一季度']!=df['第二季度']# 第一季度小于等于第二季度df['第一季度']<=df['第二季度']
三. 汇总计算
1. count 非空值计数
在python 中直接调用count()函数,返回的结果为该数据表中每列非空值的个数。具体实现如下所示:
上面是查看每一列非空值的个数,如果想要查看每一行的非空值个数又该怎么办呢?其实count()方法默认参数是axis=0,即查看每一列。查看每行只需要输入参数axis=1 即可:
当然,我们也可以查看具体某一列的非空值个数,比如我们想看一下第一季度这一列的非空值个数:
2. sum 求和
在python中,直接在整个数据表上调用sum()函数,返回的是该数据表每一列的求和结果,例子如下所示:
如果想对每一行进行求和,则需要在sum后面括号中输入axis=1即可。
当然只对某一列求和也是可以的,比如对第一季度求和,代码如下:
df['第一季度'].sum()
3. 其他
# 求均值df.mean()# 求最大值df.max()# 求最小值df.min()# 求中位数df.median()# 求众数df.mode()# 求方差df.var()# 求标准差df.std()# 求分位数# 1.求1/4分位数df.quantile(0.25)# 2.求2/4分位数df.quantile(0.5)# 3.求3/4分位数df.quantile(0.75)
四. 相关性运算
相关性常用来衡量两个事物之间的相关程度,我们一般用相关系数来衡量两者的相关程度,所以相关性计算就是计算相关系数,比较常用的是皮尔逊相关系数。
在python中求相关系数用的是corr()方法,例子如下:
上面算出的是第一季度销售额和总销售额的相关性系数
我们还可以利用corr()函数算出两两之间的相关性,示例如下:
这样就生成了相关性系数的矩阵图!
?
长按关注公众号
欢迎留言交流