数据特征分析-统计分析

一、统计分析

统计分析是对定量数据进行统计描述,常从集中趋势和离中趋势两个方面分析。

集中趋势:指一组数据向某一中心靠拢的倾向,核心在于寻找数据的代表值或中心值-统计平均数(算数平均数和位置平均数)

  算术平均数:简单算术平均数和权重算术平均数

  位置平均数:中位数和众数

离中趋势:

  极差和分位差

  标准差和方差

 

二、集中趋势

随机生成整数和总和为1的百分占比

df = pd.DataFrame({'value':np.random.randint(1,100,100),'f':np.random.rand(100)})
df['f'] = df['f']/df['f'].sum()

 

算术平均数

mean = df['value'].mean()
mean_f = (df['value'] * df['f']).sum()/df['f'].sum()
print('简单算术平均数:%.2f'%mean)
print('权重算术平均数:%2.f'%mean_f)
# 简单算术平均数:48.34
# 权重算术平均数:51

 

位置平均数

m = df['value'].mode().tolist()   #Seris数据类型可通过tolist()或to_list()转化为列表
med = df['value'].median()
print('众数为:',m)
print('中位数为:',med)
# 众数为: [85]
# 中位数为: 48.0

 

集中趋势密度图

df['value'].plot(kind = 'kde')plt.axvline(mean,linestyle='--',color = 'r')
plt.text(mean+5,0.002,'简单算术平均数',color = 'r')plt.axvline(mean_f,linestyle='--',color = 'y')
plt.text(mean_f+5,0.004,'加权算术平均数',color = 'y')plt.axvline(med,linestyle='--',color = 'g')
plt.text(med - 30,0.006,'中位数',color = 'g')

 

三、离中趋势

随机生成DataFrame,表示对应日期的销量

df = pd.DataFrame({'A_sale':np.random.rand(30)*1000,'B_sale':np.random.rand(30)*1000},index = pd.date_range('2019/6/1','2019/6/30'))

 

极差和分位差

a_jc = df['A_sale'].max() - df['A_sale'].min()
b_jc = df['B_sale'].max() - df['B_sale'].min()
print('产品A销售额极差为%.2f,产品B销售额极差为%.2f'%(a_jc,b_jc))a_des = df['A_sale'].describe()
b_des = df['B_sale'].describe()
a_iqr = a_des['75%'] - a_des['25%']
b_iqr = b_des['75%'] - b_des['25%']
print('产品A销售额分位差为%.2f,产品B销售额分位差为%.2f'%(a_iqr,b_iqr))
# 产品A销售额极差为968.05,产品B销售额极差为946.94
# 产品A销售额分位差为550.63,产品B销售额分位差为479.76

 

箱型图展示离散关系

df.boxplot(vert = False)

 

假设有n个样本,x1、x2...xn,算术平均数为x
方差:( (x1-x)^2 + (x2-x)^2 + ...+ (xn-x)^2 )/n
标准差:方差的平方根

a_std = df['A_sale'].std()
a_var = df['A_sale'].var()
b_std = df['B_sale'].std()
b_var = df['B_sale'].var()
print('产品A销售额标准差为%.2f,方差为%.2f'%(a_std,a_var))
print('产品B销售额标准差为%.2f,方差为%.2f'%(b_std,b_var))
# 产品A销售额标准差为304.25,方差为92565.69
# 产品B销售额标准差为297.36,方差为88424.61

 

密度图展示中位数、方差

fig = plt.figure(figsize = (12,5))
ax1 = fig.add_subplot(1,2,1)
df['A_sale'].plot(kind = 'kde')
plt.axvline(a_des['50%'] - a_std,linestyle = '--',color = 'r')
plt.axvline(a_des['50%'],linestyle = '--')
plt.axvline(a_des['50%'] + a_std,linestyle = '--',color = 'y')ax2 = fig.add_subplot(1,2,2)
df['B_sale'].plot(kind = 'kde')
plt.axvline(b_des['50%'] - b_std,linestyle = '--',color = 'r')
plt.axvline(b_des['50%'],linestyle = '--')
plt.axvline(b_des['50%'] + b_std,linestyle = '--',color = 'y')

 

转载于:https://www.cnblogs.com/Forever77/p/11349224.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/391693.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据eda_银行数据EDA:逐步

数据edaThis banking data was retrieved from Kaggle and there will be a breakdown on how the dataset will be handled from EDA (Exploratory Data Analysis) to Machine Learning algorithms.该银行数据是从Kaggle检索的,将详细介绍如何将数据集从EDA(探索性…

结构型模式之组合

重新看组合/合成(Composite)模式,发现它并不像自己想象的那么简单,单纯从整体和部分关系的角度去理解还是不够的,并且还有一些通俗的模式讲解类的书,由于其举的例子太过“通俗”,以致让人理解产…

计算机网络原理笔记-三次握手

三次握手协议指的是在发送数据的准备阶段,服务器端和客户端之间需要进行三次交互: 第一次握手:客户端发送syn包(synj)到服务器,并进入SYN_SEND状态,等待服务器确认; 第二次握手:服务器收到syn包…

Bigmart数据集销售预测

Note: This post is heavy on code, but yes well documented.注意:这篇文章讲的是代码,但确实有据可查。 问题描述 (The Problem Description) The data scientists at BigMart have collected 2013 sales data for 1559 products across 10 stores in…

数据特征分析-帕累托分析

帕累托分析(贡献度分析):即二八定律 目的:通过二八原则寻找属于20%的关键决定性因素。 随机生成数据 df pd.DataFrame(np.random.randn(10)*10003000,index list(ABCDEFGHIJ),columns [销量]) #避免出现负数 df.sort_values(销量,ascending False,i…

dt决策树_决策树:构建DT的分步方法

dt决策树介绍 (Introduction) Decision Trees (DTs) are a non-parametric supervised learning method used for classification and regression. The goal is to create a model that predicts the value of a target variable by learning simple decision rules inferred f…

读C#开发实战1200例子记录-2017年8月14日10:03:55

C# 语言基础应用,注释 "///"标记不仅仅可以为代码段添加说明,它还有一项更重要的工作,就是用于生成自动文档。自动文档一般用于描述项目,是项目更加清晰直观。在VisualStudio2015中可以通过设置项目属性来生成自动文档。…

数据特征分析-正太分布

期望值,即在一个离散性随机变量试验中每次可能结果的概率乘以其结果的总和。 若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2),其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定…

r语言调用数据集中的数据集_自然语言数据集中未解决的问题

r语言调用数据集中的数据集Garbage in, garbage out. You don’t have to be an ML expert to have heard this phrase. Models uncover patterns in the data, so when the data is broken, they develop broken behavior. This is why researchers allocate significant reso…

数据特征分析-相关性分析

相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量的相关密切程度。 相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。 相关系数在[-1,1]之间。 一、图示初判 通过pandas做散点矩阵图进行初步判断 df1 pd.DataFrame(np.…

获取所有权_住房所有权经济学深入研究

获取所有权Note from Towards Data Science’s editors: While we allow independent authors to publish articles in accordance with our rules and guidelines, we do not endorse each author’s contribution. You should not rely on an author’s works without seekin…

getBoundingClientRect说明

getBoundingClientRect用于获取某个元素相对于视窗的位置集合。 1.语法:这个方法没有参数。 rectObject object.getBoundingClientRect() 2.返回值类型:TextRectangle对象,每个矩形具有四个整数性质( 上, 右 &#xf…

robot:接口入参为图片时如何发送请求

https://www.cnblogs.com/changyou615/p/8776507.html 接口是上传图片,通过F12抓包获得如下信息 由于使用的是RequestsLibrary,所以先看一下官网怎么传递二进制文件参数,https://2.python-requests.org//en/master/user/advanced/#post-multi…

已知两点坐标拾取怎么操作_已知的操作员学习-第3部分

已知两点坐标拾取怎么操作有关深层学习的FAU讲义 (FAU LECTURE NOTES ON DEEP LEARNING) These are the lecture notes for FAU’s YouTube Lecture “Deep Learning”. This is a full transcript of the lecture video & matching slides. We hope, you enjoy this as mu…

缺失值和异常值处理

一、缺失值 1.空值判断 isnull()空值为True,非空值为False notnull() 空值为False,非空值为True s pd.Series([1,2,3,np.nan,hello,np.nan]) df pd.DataFrame({a:[1,2,np.nan,3],b:[2,np.nan,3,hello]}) print(s.isnull()) print(s[s.isnull() False]…

特征工程之特征选择_特征工程与特征选择

特征工程之特征选择📈Python金融系列 (📈Python for finance series) Warning: There is no magical formula or Holy Grail here, though a new world might open the door for you.警告 : 这里没有神奇的配方或圣杯,尽管新世界可…

版本号控制-GitHub

前面几篇文章。我们介绍了Git的基本使用方法及Gitserver的搭建。本篇文章来学习一下怎样使用GitHub。GitHub是开源的代码库以及版本号控制库,是眼下使用网络上使用最为广泛的服务,GitHub能够托管各种Git库。首先我们须要注冊一个GitHub账号,打…

数据标准化和离散化

在某些比较和评价的指标处理中经常需要去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。因此需要通过一定的方法进行数据标准化,将数据按比例缩放,使之落入一个小的特定区间。 一、标准…

熊猫tv新功能介绍_熊猫简单介绍

熊猫tv新功能介绍Out of all technologies that is introduced in Data Analysis, Pandas is one of the most popular and widely used library.在Data Analysis引入的所有技术中,P andas是最受欢迎和使用最广泛的库之一。 So what are we going to cover :那么我…

数据转换软件_数据转换

数据转换软件📈Python金融系列 (📈Python for finance series) Warning: There is no magical formula or Holy Grail here, though a new world might open the door for you.警告 :这里没有神奇的配方或圣杯,尽管新世界可能为您…