技术学习|CDA level I 描述性统计分析(数据的描述性统计分析)

技术学习|CDA level I 描述性统计分析(数据的描述性统计分析)

数据的描述性统计分析常从数据的集中趋势、离散程度和分布形态3个方面进行。

一、集中趋势

集中趋势是指数据向其中心值靠拢的趋势。测量数据的集中趋势,主要是寻找其中心值。对不同的数据有不同的测量方法(低级数据的方法,高级数据可以用;高级数据的方法,低级数据不可以用)。

1、分类数据的集中趋势的描述

众数:一组数据中,出现次数最多的数,符号记为M。

性质:①不受极端值的影响。极端值是指一组数据中,偏离数据平均水平的值,分为极大值和极小值两种,众数只与数据的次数有关,与数据的大小无关,故众数不受极端值的影响。不受极端影响的特性使得众数可以适用于有极端值的数据分析中;②不唯一性。很多数据是可以计算众数的,但有些数据中,每个数据出现的频数均相同,即无法确定某个数据出现的次数最多,故不存在众数;有的数据中可能会出现多个数据的频数都最大,即出现了多个众数。

2、顺序数据的集中趋势的描述

分位数:将一组数据排序后,将数据进行等分分割,在这些分割点位置上的数。由于分位数的计算需要以数据排序为前提,因此要求数据至少可以排序,即至少为顺序数据才可以计算。

(1)二分位数

二分位数也称"中位数",是指将一组数据排序后,处于正中间位置上的数,符号记为Me。假设数据总个数为n,则中位数的位置公式如下:
M e 的位置 = n + 1 2 M_e的位置=\frac{n+1}{2} Me的位置=2n+1
性质:①不受极端值的影响。顺序数据只与数据的位置有关,故中位数不受极端值的影响。不受极端值影响的特性也使得中位数常可以适用于有极端值的数据分析中;②一组数据中所有数据与其中位数的离差绝对值之和是最小的。即
∑ ∣ x i − M e ∣ = m i n \sum|x_i-M_e|=min xiMe=min
这一性质使得中位数在绝对值损失函数中被广泛应用。

离差绝对值之和即距离之和。

(2)四分位数

将一组数据分成四等分,需要3个数,正中间的数被命名为"中位数"、靠小的那个数据称为"下四分位数"、靠大的那个数称为"上四分位数"。即将一组数据从小到大排序后,将处于1/4位置上的数称为"下四分位数",符号记为QL;将处于3/4位置上的数称为"上四分位数",符号记为QU,假设数据的总个数为n,则QL的位置=n/4,QU的位置=3n/4。

四分位数的位置有多种定义:

①一种类似于中位数的计算公式:
Q L 的位置 = n + 1 4 , Q U 的位置 = 3 ( n + 1 ) 4 Q_L的位置=\frac{n+1}{4},Q_U的位置=\frac{3(n+1)}{4} QL的位置=4n+1QU的位置=43(n+1)
②以中位数为中心,分别向两端计算两部分的中位数,即可得到下四分位数和上四分位数。
Q L 的位置 = 1 + ( n + 1 2 ) 2 = n + 3 4 , Q U 的位置 = ( n + 1 2 + n ) 2 = 3 n + 1 4 Q_L的位置=\frac{1+(\frac{n+1}{2})}{2}=\frac{n+3}{4},Q_U的位置=\frac{(\frac{n+1}{2}+n)}{2}=\frac{3n+1}{4} QL的位置=21+(2n+1)=4n+3QU的位置=2(2n+1+n)=43n+1
Excel中采用的是这种公式。

该公式还可以理解为从第1个数到第n个数,中间有n-1个距离,故从距离角度上看:
Q L 的位置 = 1 + 1 ∗ ( n − 1 ) 4 , Q U 的位置 = 1 + 3 ∗ ( n − 1 ) 4 Q_L的位置=1+\frac{1*(n-1)}{4},Q_U的位置=1+\frac{3*(n-1)}{4} QL的位置=1+41(n1),QU的位置=1+43(n1)
③将②中的中位数位置取整,得到
Q L 的位置 = 1 + [ n + 1 2 ] 2 , Q U 的位置 = [ n + 1 2 ] + n 2 , 这里的 [ n + 1 2 ] 表示 n + 1 2 的取整, 可以向上取整、也可以向下取整,但常用向下取整。 Q_L的位置=\frac{1+\left[\frac{n+1}{2}\right]}{2},Q_U的位置=\frac{\left[\frac{n+1}{2}\right]+n}{2},这里的\left[\frac{n+1}{2}\right]表示\frac{n+1}{2}的取整,\\可以向上取整、也可以向下取整,但常用向下取整。 QL的位置=21+[2n+1],QU的位置=2[2n+1]+n,这里的[2n+1]表示2n+1的取整,可以向上取整、也可以向下取整,但常用向下取整。
④等距离的简化公式
Q L 的位置 = n − 1 4 , Q U 的位置 = 3 ∗ ( n − 1 ) 4 Q_L的位置=\frac{n-1}{4},Q_U的位置=\frac{3*(n-1)}{4} QL的位置=4n1,QU的位置=43(n1)
⑤一种较为简便的计算公式
Q L 的位置 = n 4 , Q U 的位置 = 3 n 4 Q_L的位置=\frac{n}{4},Q_U的位置=\frac{3n}{4} QL的位置=4nQU的位置=43n
如数据为1,5,9,10,10,12,13,18,20,数据个数n=9,则QL的位置=9/4=2.25,QU的位置=3x9/4=6.75,故QL=5+(9-5)*0.25=6,QU=12+(13-12)*0.75=12.75。

3、数值数据的集中趋势的描述

平均数(Average)也称均值(Mean)、期望(Expect),其中常见的平均数有算数平均数、调和平均数、几何平均数、平方平均数。

(1)算数平均数

算术平均数是指数据之和与数据个数之比,常用符号X̅表示。根据所给数据是否分组,算数平均数分为简单算数平均数和加权算数平均数。

未分组数据,简单算数平均数:
X ˉ = x 1 + x 2 + ⋅ ⋅ ⋅ x n n = ∑ i = 1 n x i n \bar X=\frac{x_1+x_2+···x_n}{n}=\frac{\sum_{i=1}^nx_i}{n} Xˉ=nx1+x2+⋅⋅⋅xn=ni=1nxi
分组数据,加权算数平均数:
X ˉ = M 1 f 1 + M 2 f 2 + ⋅ ⋅ ⋅ M k f k f 1 + f 2 + ⋅ ⋅ ⋅ + f k = ∑ i = 1 k M i f i n \bar X=\frac{M_1f_1+M_2f_2+···M_kf_k}{f_1+f_2+···+f_k}=\frac{\sum_{i=1}^kM_if_i}{n} Xˉ=f1+f2+⋅⋅⋅+fkM1f1+M2f2+⋅⋅⋅Mkfk=ni=1kMifi
这里所有数据被分为k个组;Mi为各组数据值,若分组值为区间,则选用区间中值Mi代表这组数据的所有数据,各组数据的频数分别为fi。组中值=(组上限+组下限)/2。

已知下限的开口组组中值=下限+邻组组距/2;已知上限的开口组组中值=上限-邻组组距/2。

性质:①是最常用的平均数。在数据分析中,如没有特殊规定,默认使用算数平均数;②易受极端值的影响。原因是在算术平均数的计算过程中,每个数据都参与计算。易受极端值影响使得算术平均数在有极端值的数据分析中使用效果较差;③各数据与算数平均数的离差之和等于0。在数据分析中,将X̅看做是一组数据的重心点;④各数据与算术平均数的离差平方和是最小的。因此算数平均数在平方损失函数中被广泛应用。

(2)调和平均数

调和平均数是指数据倒数的算术平均数的倒数,用符号H表示。(上下坡的速度,求平均速度)。根据所给数据是否分组,调和平均数分为简单调和平均数和加权调和平均数。

未分组数据,简单调和平均数计算公式。
H = 1 1 x 1 + 1 x 2 + ⋅ ⋅ ⋅ + 1 x n n = n 1 x 1 + 1 x 2 + ⋅ ⋅ ⋅ + 1 x n = n ∑ i = 1 n 1 x i H=\frac{1}{\frac{\frac{1}{x_1}+\frac{1}{x_2}+···+\frac{1}{x_n}}{n}}=\frac{n}{\frac{1}{x_1}+\frac{1}{x_2}+···+\frac{1}{x_n}}=\frac{n}{\sum_{i=1}^n\frac{1}{x_i}} H=nx11+x21+⋅⋅⋅+xn11=x11+x21+⋅⋅⋅+xn1n=i=1nxi1n
分组数据,加权调和平均数计算公式
H = 1 1 M 1 f 1 + 1 M 2 f 2 + ⋅ ⋅ ⋅ + 1 M k f k f 1 + f 2 + ⋅ ⋅ ⋅ + f k = n f 1 M 1 + f 2 M 2 + ⋅ ⋅ ⋅ + f k M k = n ∑ i = 1 k f i M i H=\frac{1}{\frac{\frac{1}{M_1}f_1+\frac{1}{M_2}f_2+···+\frac{1}{M_k}f_k}{f_1+f_2+···+f_k}}=\frac{n}{\frac{f_1}{M_1}+\frac{f_2}{M_2}+···+\frac{f_k}{M_k}}=\frac{n}{\sum_{i=1}^k\frac{f_i}{M_i}} H=f1+f2+⋅⋅⋅+fkM11f1+M21f2+⋅⋅⋅+Mk1fk1=M1f1+M2f2+⋅⋅⋅+Mkfkn=i=1kMifin
这里所有数据被分为k个组;Mi为各组数据值,若分组值为区间,则选用区间组中值Mi代表这组数据的所有数据;各组数据的频数分别为fi

性质:①常用与效率问题的研究;②易受极端值的影响,与算数平均数类似,在计算过程中,每个数据都参与了计算。

(3)几何平均数

几何平均数是指数据乘积的个数平方根,常用符号G表示。根据所给数据是否分组,几何平均数分为简单几何平均数和加权几何平均数。

未分组数据,简单结合平均数
G = x 1 ∗ x 2 ∗ ⋅ ⋅ ⋅ ∗ x n n = ∏ i = 1 n x i n G=\sqrt[n]{x_1*x_2*···*x_n}=\sqrt[n]{\prod_{i=1}^nx_i} G=nx1x2⋅⋅⋅xn =ni=1nxi
分组数据,加权几何平均数
G = M 1 f 1 ∗ M 2 f 2 ∗ ⋅ ⋅ ⋅ ∗ M k f k f 1 + f 2 + ⋅ ⋅ ⋅ + f k = ∏ i = 1 k M i f i n G=\sqrt[f_1+f_2+···+f_k]{M_1^{f_1}*M_2^{f_2}*···*M_k^{f_k}}\quad\quad\quad=\sqrt[n]{\prod_{i=1}^kM_i^{f_i}} G=f1+f2+⋅⋅⋅+fkM1f1M2f2⋅⋅⋅Mkfk =ni=1kMifi
这里所有数据被分为k个组;Mi为各组数据值,若分组值为区间,则选用区间组中值Mi代表这组数据的所有数据;各组数据的频数分别为fi

性质:①常用语比率问题的研究,如研究平均发展速度、平均增长速度等;②也会受到极端值的影响,但影响微弱。

(4)平方平均数

平方平均数是指数据平方的算术平均数的算术平方根,常用符号Q表示。根据所给数据是否分组,平方平均数分为简单平方平均数和加权平方平均数。

未分组数据,简单平方平均数:
Q = x 1 2 + x 2 2 + ⋅ ⋅ ⋅ + x n 2 n = ∑ i = 1 n x i 2 n Q=\sqrt{\frac{x_1^2+x_2^2+···+x_n^2}{n}}=\sqrt{\frac{\sum_{i=1}^nx_i^2}{n}} Q=nx12+x22+⋅⋅⋅+xn2 =ni=1nxi2
分组数据,加权平方平均数
Q = M 1 2 f 1 + M 2 2 f 2 + ⋅ ⋅ ⋅ + M k 2 f k f 1 + f 2 + ⋅ ⋅ ⋅ + f k = ∑ i = 1 k M i 2 f i n Q=\sqrt{\frac{M_1^2f_1+M_2^2f_2+···+M_k^2f_k}{f_1+f_2+···+f_k}}=\sqrt{\frac{\sum_{i=1}^kM_i^2f_i}{n}} Q=f1+f2+⋅⋅⋅+fkM12f1+M22f2+⋅⋅⋅+Mk2fk =ni=1kMi2fi
这里所有数据被分为k个组;Mi为各组数据值;若分组值为区间,则选用区间组中值Mi代表这组数据的所有数据;各组数据的频数分别为fi

性质:①常用于长度问题、距离问题的研究,如研究向量长度、空间中点与点的距离等;②也容易受到极端值的影响。

算数平均数、调和平均数、几何平均数、平方平均数均为平均数的不同形式,对于同一组数据(要求正数),四者之间恒成立的关系如下。

平方平均数>=算数平均数>=几何平均数>=调和平均数

算数平均数、调和平均数、几何平均数、平方平均数受极端值的影响程度是不同的。其受影响程度从大到小依次为:平方平均数、算数平均数、几何平均数、调和平均数

对于有极端值的数据,如果需要重点考察极大值的影响,可以使用平方平均数或算数平均数;如果需要重点考察极小值的影响,可以使用调和平均数;如果想要计算最精确的结果,可以使用几何平均数。

二、离散程度

集中趋势度量数据向其中心值靠拢的趋势,而离散程度度量数据偏离其中心值的程度,故离散程度与集中趋势的中心值有关,且如果数据离散程度越大,说明数据偏离其中心值越多,中心值的代表性越差。

1、分类数据的离散程度

分类数据的离散程度有一个常用指标——异众比率。异中比率是指在一组数据中,非众数的频数占总数据个数的比重。

异众比率性质:不受极端值的影响;一组数据异众比率越大,众数的代表性越差

2、顺序数据的离散程度

(1)极差

极差,也称范围,等于一组数据的最大值与最小值之差。

性质:①极差是离散程度最简单的测量方法,但极其容易受极端值的影响,因此在实际中较少使用;②极差越大,通常说明数据的范围越大,数据越分散。

(2)四分位差

四分位差等于一组数据的上四分位数与下四分位数之差。

性质:①不受极端值的影响。②四分位差是一个局部指标,其衡量了处于中间50%的数据的离散程度,四分位差越大,说明处于中间50%的数据越分散。

3、数值数据的离散程度

(1)平均差

平均差是指数据与其算术平均数离差的绝对值的算术平均数,符号记为Md

根据未分组数据计算的平均差为简单平均差,根据分组数据计算的平均差为加权平均差。

未分组数据,简单平均差:
M d = ∑ i = 1 n ∣ x i − x ˉ ∣ n M_d=\frac{\sum_{i=1}^n\left|x_i-\bar x\right|}{n} Md=ni=1nxixˉ
分组数据,加权平均差:
M d = ∑ i = 1 k ∣ M i − x ˉ ∣ ∗ f i n M_d=\frac{\sum_{i=1}^k\left|M_i-\bar x\right|*f_i}{n} Md=ni=1kMixˉfi
这里所有数据被分为k个组;Mi为各组数据值,若分组值为区间,则选用区间组中值Mi代表这组数据的所有数据;各组数据的频数分别为fi

性质:①能全面测量数据离散程度,平均差越大,数据越分散;②容易受极端值的影响;③在绝对值损失函数中用到的就是平均差;④平均差的计算需要用到绝对值,导致其数学性质较差,从而在实际中较少使用。

(2)方差、标准差

方差:在平均值的计算中把绝对值改成平方。方差是数据与其算术平均数离差的平方的算数平均数,方差的算数平方根是标准差。

根据总体数据计算的方差为总体方差(符号记作σ2,对应的标准差为总体标准差,符号记作σ),根据样本数据计算的方差为样本方差(符号记作s2,对应的标准差为样本标准差,符号记作s)

[1]总体方差、总体标准差

未分组数据,简单总体方差:
σ 2 = ∑ i = 1 N ( x i − μ ) 2 N \sigma^2=\frac{\sum_{i=1}^N(x_i-\mu)^2}{N} σ2=Ni=1N(xiμ)2
未分组数据,简单总体标准差:
σ = ∑ i = 1 N ( x i − μ ) 2 N \sigma=\sqrt{\frac{\sum_{i=1}^N(x_i-\mu)^2}{N}} σ=Ni=1N(xiμ)2
总体均值用符号μ表示,总体数据个数用符号N表示。

分组数据,加权总体方差:
σ 2 = ∑ i = 1 k ( M i − μ ) 2 ∗ f i N \sigma^2=\frac{\sum_{i=1}^k(M_i-\mu)^2*f_i}{N} σ2=Ni=1k(Miμ)2fi
分组数据,加权总体标准差
σ = ∑ i = 1 k ( M i − μ ) 2 ∗ f i N \sigma=\sqrt{\frac{\sum_{i=1}^k(M_i-\mu)^2*f_i}{N}} σ=Ni=1k(Miμ)2fi
这里所有数据被分为k个组,Mi为各组数据值,各分组值为区间,则选用区间组中值Mi代表这组数据的所有数据;各组数据的频数分别为fi

[2]样本方差、样本标准差

未分组数据,简单样本方差:
s 2 = ∑ i = 1 n ( x i − x ˉ ) 2 n − 1 s^2=\frac{\sum_{i=1}^n(x_i-\bar x)^2}{n-1} s2=n1i=1n(xixˉ)2
未分组数据,简单样本标准差:
s = ∑ i = 1 n ( x i − x ˉ ) 2 n − 1 s=\sqrt{\frac{\sum_{i=1}^n(x_i-\bar x)^2}{n-1}} s=n1i=1n(xixˉ)2
样本均值用符号X̅,样本数据个数用符号n。

分组数据,加权样本方差:
s 2 = ∑ i = 1 k ( M i − x ˉ ) 2 ∗ f i n − 1 s^2=\frac{\sum_{i=1}^k(M_i-\bar x)^2*f_i}{n-1} s2=n1i=1k(Mixˉ)2fi
分组数据,加权样本标准差:
s = ∑ i = 1 k ( M i − x ˉ ) 2 ∗ f i n − 1 s=\sqrt{\frac{\sum_{i=1}^k(M_i-\bar x)^2*f_i}{n-1}} s=n1i=1k(Mixˉ)2fi
这里所有数据被分为k个组;Mi为各组数据值,若分组值为区间,则选用区间组中值Mi代表这组数据的所有数据;各组数据的频数分别为fi

需要注意:在计算样本方差、样本标准差时,分母需要用n-1,而不是n,这涉及"样本数据的自由度"(自由度通常可以简单地理解为在研究问题中,可以自由独立取值的数据和变量。样本数据的自由度是指在一组样本数据中,能自由取值的数据的个数。)样本方差计算中,用到样本均值X̅,作为约束条件使得n个数据在实际取值时,只有n-1个数据是自由变化的,故自由度为n-1。自由度常可以使用"数据总数-不等价约束条件的个数"来确定。只有样本数据才有自由度,总体数据均为自由变化的,故分母不需要减1。

在未特殊说明下,默认为计算样本方差、样本标准差。

性质:①方差、标准差越大,数据越分散;②也会受极端值的影响;③在平方损失函数中用到的就是方差。

(3)离散系数

离散系数也称为变异系数,根据平均差计算的离散系数也称平均差系数,根据标准差计算的离散系数也称标准差系数。实际中常用标准差系数,由标准差除以算术平均数得到。
离散系数(标准差系数) = 标准差 算数平均数 离散系数(标准差系数)=\frac{标准差}{算数平均数} 离散系数(标准差系数)=算数平均数标准差
性质:①测量了数据的相对离散程度,常用语不同组数据离散程度的比较;②可以消除数据水平不同和数据计量单位不同对数据离散程度的影响。(两组不同数据,不能直接通过比较方差、标准差来判断离散程度,需要对离散系数进一步分析)

三、分布形态的描述

把数据分布的偏斜程度称为偏态,把数据分布的尖峰扁平程度称为峰态。

1、偏态

偏态是指数据分布的偏斜程度。衡量了数据的对称性情况(只讨论单峰的情况)。偏态可以用系数(符号记作SK)来测量,计算方法很多,常用如下两种。

方法一:比较众数和平均数
S K = 平均数 − 众数 标准差 SK=\frac{平均数-众数}{标准差} SK=标准差平均数众数
若平均数大于众数,则SK为正,故称正偏;若平均数等于众数,则SK为0,故称无偏(对称);若平均数小于众数,则SK为负,故称负偏。

方法二:Pearson偏态系数计算法(Excel中采用此计算法)

未分组数据:
S K = n ∑ i = 1 n ( x i − x ˉ ) 3 ( n − 1 ) ( n − 2 ) s 3 ,式中, s 为样本标准差 SK=\frac{n\sum_{i=1}^n(x_i-\bar x)^3}{(n-1)(n-2)s^3},式中,s为样本标准差 SK=(n1)(n2)s3ni=1n(xixˉ)3,式中,s为样本标准差
分组数据:
S K = ∑ i = 1 k ( M i − x ˉ ) 3 ∗ f i n s 3 SK=\frac{\sum_{i=1}^k(M_i-\bar x)^3*f_i}{ns^3} SK=ns3i=1k(Mixˉ)3fi
这里所有数据被分为k个组;Mi为各组数据值,若分组值为区间,则选用区间组中值Mi代表这组数据的所有数据,各组数据的频数分别为fi。n为总数。

性质:①SK=0时对称分布;SK>0时正偏分布,由于此时分布的尾巴在右侧,故又称右偏分布;SK<0时负偏分布,由于此时分布的尾巴在左侧,故又称左偏分布;②实际中,常根据偏态系数的大小判断偏态的程度:0<|SK|<=0.5为低度偏态;0.5<|SK|<=1为中等偏态;|SK|>1为高度偏态。

在这里插入图片描述

在不同偏态中,众数(M0)、中位数(Me)、算数平均数(X̅)的大小关系:

①在对称分布中,众数在峰值点取得,中位数在正中间,也在峰值点,算数平均数是重心点,故也在峰值点,所以在对称分布中:众数(M0)=中位数(Me)=算数平均数(X̅);②在左偏分布中,众数作为峰值点,取值最大,众数左边的数据比右边的数据多,故中位数在众数左边,由于左偏分布在左边有极小值,极小值不影响中位数的大小,但影响算术平均数的大小,会将算数平均数变小(假设极小值对算术平均数的影响显著),故左偏分布中,众数(M0)>中位数(Me)>算数平均数(X̅);③右偏分布中,与左偏分布相反,众数(M0)<中位数(Me)<算数平均数(X̅)。故,众数(M0)和中位数(Me)常可以在数据分布偏斜程度较大时应用,算数平均数(X̅)常在数据对称分布或接近对称分布时应用。

2、峰态

峰态是指数据分布的尖峰扁平程度。衡量了数据相对于标准正态分布的尖峰扁平情况(只讨论单峰情况)。峰态可以用峰态函数(符号记为K)来测量。这里是基于中心距的峰态系数(Excel中采用的计算方法)

未分组数据:
K = n ( n + 1 ) ∑ i = 1 n ( x i − x ˉ ) 4 − 3 [ ∑ i = 1 n ( x i − x ˉ ) 2 ] 2 ( n − 1 ) ( n − 1 ) ( n − 2 ) ( n − 3 ) s 4 ,式中, s 为样本标准差 K=\frac{n(n+1)\sum_{i=1}^n(x_i-\bar x)^4-3\left[\sum_{i=1}^n(x_i-\bar x)^2\right]^2(n-1)}{(n-1)(n-2)(n-3)s^4},式中,s为样本标准差 K=(n1)(n2)(n3)s4n(n+1)i=1n(xixˉ)43[i=1n(xixˉ)2]2(n1),式中,s为样本标准差
分组数据:
K = ∑ i = 1 k ( M i − x ˉ ) 4 ∗ f i n s 4 − 3 K=\frac{\sum_{i=1}^k(M_i-\bar x)^4*f_i}{ns^4}-3 K=ns4i=1k(Mixˉ)4fi3
这里所有数据被分为k个组;Mi为各组数据值,若分组值为区间,则选用区间组中值Mi代表这组数据的所有数据;各组数据的频数分别为fi

性质:①K=0时尖峰扁平适中(与标准正态分布近似);K>0时尖峰分布;K<0时扁平分布;②在峰态系数的计算过程中,若不减3,则计算结果与3比较。
在这里插入图片描述

四、描述性统计图表

1、整理数据的重要工具——统计表

在数据分析中,常用到的统计表是频数分布表,其将杂乱无章的数据按照取值情况进行分组整理,并计算相关指标,从中可以初步看出数据的分布情况。频数分布表常在表的第一列列出类别或组别,第二列统计各类别或组别的频数,并可以进一步计算各类别或组别的频数,对于顺序数据和数据数据,还可以进一步计算累计频数、累计频率等。

对于顺序数据和数值数据,在频数分布表中可以计算数据的累计频数或累计频率,累计从累计方向上可以分为向上累计和向下累计。其中向上累计表示数据从开始一方(差的、小的)往最后一方(好的、大的)累计,向下累计表述数据从最后一方(好的、大的)往开始一方(差的、小的)累计。在计算累计频数时,将数据按照从差到好、从小到大的方向排序。

2、展示数据的重要工具——统计图

(1)饼图——常用于结构分析

饼图是将饼(圆形)按照各类别数据在总数据中所占比重进行等分,用于展示各类别比重结构状况,在各饼处可以标注数据的频数或频率情况,对于多个类别的数据,需要添加图例注明图中各部分代表的类别。分类数据、顺序数据和数值数据均可以使用。将饼图改进,中间挖空,得到环形图,环形图可以同时展示多个总体或样本的数据,多个总体或样本的环形图可以进行多总体或样本数据的对比分析。

(2)条形图(柱状图)——常用于对比分析

条形图(柱状图)将数据各类别的频数或频率画出条形(柱形),常将横置的图称为条形图,将竖置的图称为柱形图,通过各条形或柱形的对比,可以明显看出各类别的差异。在各条形或柱形顶端处可以标注数据的频数或频率情况,对于多个总体或样本的数据,需要添加图例注明数据与总体或样本的对应情况。分类数据、顺序数据和数值数据均可以使用条形图(柱形图)。

条形图(柱形图)的各个类别可以任意排序,但如果将各类别按照频数从大到小排序,得到的图称为帕累托图。帕累托图能推出一个著名的结论——二八法则。

(3)直方图——常用于观察数据的分布形态

直方图是数值数据的图,将数据按照分组情况画出各组的直方,通过观察直方的变化情况,可以初步确定数据的分布形态。

直方图与柱形图很像,区别在于柱形图是分类数据的方法,其横轴为类别轴,各类别之间无固定顺序,故各类别间需要间隔开;而直方图是数值数据的方法,其横轴为数轴,需要按照数轴的顺序排列,且数据要求连续,故各直方中间无间隔。

(4)箱线图——常用于观察数据分布特征

箱线图(也称作盒须图)由一个箱子、两条线构成,可以横置也可以竖置(通常采用竖置的箱线图)。竖置时上面一条线的顶端表示该组数据的最大值,下面一条线的低端表示该组数据的最小值,中间的箱子上端为该组数据的上四分位数,下端为该组数据的下四分位数,箱子的中间有一条横线表示该组数据的中位数。由于箱线图由数据的最小值、最大值、上四分位数、下四分位数、中位数5个指标构成,因此在实际数据分析中箱线图常用于观察数据分布特征。

由于箱线图中最大值和最小值可能是极端值,为避免极端值影响数据分布特征的观察,因此在制作箱线图时,常先剔除极端值再制作箱线图。

箱线图的上面一条线的顶端和下面一条线的低端的距离就是极差,可以用来反映极端值之外的数据范围;中间箱子的高度,就是四分位差,可以用来反映处于中间50%数据的分散情况。从中位数的位置可以看出数据的分散情况,若中位数在"上面一条线的顶端和下面一条线的底端"中靠下方,则表明前半数据集中,后半数据分散;反之就是前半数据分散,后半数据集中。若中位数在"箱子的上端和箱子的下端"中靠下方,则表明数据中间一半的数据的前半数据集中,后半数据分散;反之就是数据中间一半的数据的前半数据分散,后半数据集中(竖置的箱线图对应纵轴,靠下方的数据是前半部分的数据)。

股票的K线图,类似于箱线图的实用图。但K线图只有四个指标:最高价、最低价、开盘价、收盘价,其中开盘价和收盘价用箱子表示,箱子两端分别连接最高价和最低价。若开盘价在上,收盘价在下,则表明这只股票当天跌了,整个图用绿色表示;若收盘价在上、开盘价在下,则表明这只股票当天涨了,整个图用红色表示。
在这里插入图片描述

(5)线图

线图是用于描述时间序列数据的常用图。以横轴表示时间、纵轴表示变量值,将各时间的变量值描点,相邻点连线得到的图。通过观察线图的变量值,可以清晰地看出变量的变化情况。

(6)散点图

散点图常用于描述变量间的相关关系,其横轴表示一个变量,纵轴表示另一个变量。根据个体数据在图中描点,得到的图就是散点图。需要注意,散点图的各个散点之间不能连线,这与线图不一样,线图的各点之间有时间顺序,故可以连线,而散点图的各散点之间没有固定的顺序,故不能连线。

统计图和统计表是两个不同的统计工具,统计表的作用是整理数据,统计图的作用是展示数据。因在实际中,有些既像图,又像表,不易区分。故在统计学中规定:统计表的标题放在表上方(表头),统计图的标题放在图下方。此外,在制作统计表和统计图时,规定表的两端不封口,上下用粗线,其他用细线,去掉一些不必要的线,让统计表看起来尽量简洁。当统计表和统计图较多时,可对其进行编号。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/596336.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

修改选择框el-select样式,显示及下拉样式

修改选择框el-select样式,显示及下拉样式 .el-input__inner {background: rgba(25, 126, 195, 0.2);border: none;color: #fff; }.el-select-dropdown {background: rgba(19, 73, 104, 0.79);border: 2px solid #48e3ff;border-radius: 0; }.el-popper .popper__arrow {display…

VUE局部组件

实现局部组件的注册功能&#xff0c;样例如下 代码如下 <html><head><meta charset"utf-8"><title></title></head><body><div id"app"><hello-word></hello-word><hello-tom></he…

多个微信的朋友圈如何高效管理?

大家都知道&#xff0c;在当今社交媒体盛行的时代&#xff0c;微信朋友圈已成为了我们交流和分享生活的重要平台。但是&#xff0c;对于那些同时管理多个微信号的人来说&#xff0c;如何高效省时地管理这些账号的朋友圈就成了一项挑战。 今天我将分享一个神奇的微信管理工具&a…

内存的基础知识-第四十天

目录 什么是内存&#xff1f;内存的作用 常用的数量单位 指令的工作原理 思考 三种装入方式 绝对装入 可重定位装入&#xff08;静态重定位&#xff09; 动态运行时装入&#xff08;动态重定位&#xff09; 写程序到程序运行 编译和链接 链接的三种方式 本节思维导…

达梦数据:数字化时代,国产数据库第一股终于到来?

又是新的一年开始。回首一年前的此时&#xff0c;在大家千呼万唤地期待中&#xff0c;数据基础制度体系的纲领性文件正式发布。 时隔一年之后&#xff0c;数据资源入表如约而至。2024年1月1日《企业数据资源相关会计处理暂行规定》正式施行&#xff0c;各行各业海量数据巨大的…

Fiddler工具 — 6.Fiddler页面布局之工具栏

Fiddler工具栏就是平时比较常用功能的一个快捷方式。 下面一一说明&#xff1a; 1、第一组工具&#xff1a; WinConfig&#xff1a;可以在里面配置一些windows系统的应用程序&#xff0c;配置在里面的应用的请求Fiddler都可以抓到&#xff0c;Fiddler5新增功能。 换句话说&…

caj转换成pdf有哪些方法?

caj转换成pdf有哪些方法&#xff1f;PDF是一个被广泛支持的文件格式&#xff0c;这种格式基本上在所有的操作系统和设备上都是支持使用的&#xff0c;也能够将PDF文件打开和查看的&#xff0c;相比于caj文件&#xff0c;它就只能通过一下特定的软件或者是插件才能够将caj打开或…

潮玩宇宙大逃杀游戏搭建

潮玩宇宙是当下较火的社交互动平台&#xff0c;它不仅涵盖了各种潮玩商品&#xff0c;还拥有各种游戏玩法&#xff0c;尤其是大逃杀游戏非常火爆&#xff01;本文将介绍大逃杀游戏的开发和发展前景。 大逃杀游戏 大逃杀游戏是当下的一种新型游戏模式&#xff0c;旨在为玩家提供…

odoo17 | 计算字段和更改事件

前言 模型之间的关系是任何Odoo模块的关键组成部分。它们是任何业务案例建模所必需的。然而&#xff0c;我们可能希望给定模型中的字段之间存在链接。有时一个字段的值是由其他字段的值决定的&#xff0c;而有时我们希望帮助用户进行数据输入。 这些案例得到了计算字段和onch…

JavaScript 基础四 函数使用、传参、返回值、作用域、匿名函数

JavaScript 基础四 函数 1.1 函数1.2 函数使用函数名命名规范函数的调用 1.3 函数传参&#xff08;1&#xff09;声明语法&#xff08;2&#xff09;调用有参函数&#xff08;3&#xff09;形参和实参&#xff08;4&#xff09;参数默认值 1.4 函数返回值&#xff08;1&#xf…

HTML如何设置多图片上传,并限制格式类型

在HTML如何设置多图片上传&#xff0c;并限制格式类型为jpg和png格式。 <input type"file" name"fileInput" id"fileInput"> 上面这行代码&#xff0c;只支持单个文件上传&#xff0c;且不支持文件类型过滤&#xff0c;在实际开发过程中&…

Mybatis Plus 条件构造器的简单介绍 以及IService 的简单使用

文章目录 Mybatis Plus条件构造器LambdaWrapper自定义SQLService接口 Mybatis Plus 条件构造器 简单案例演示 特殊案例更新 UpdateWrapper 更新几个用户的余额减少200LambdaWrapper 因为上方为硬编码&#xff0c;所以不建议 而是使用反射&#xff08;Lambda&#xff09;这样…

AI的突破与融合:2024年中国智能技术的新纪元_光点科技

随着人工智能领域的不断突破&#xff0c;2024年注定将成为中国智能技术发展的一个新纪元。当下&#xff0c;AI技术不仅在理论研究上取得了重大进展&#xff0c;其在商业应用、社会服务等领域的融合也日益深入。本文将结合近期网络上的AI热点&#xff0c;展望中国在AI技术方面的…

Windows关闭自动更新

winR 打开运行界面&#xff0c;输入taskschd.msc 在任务计划程序中找到/Microsoft/Windows/WindowsUpdate&#xff0c;并禁用该任务。

告别复杂排版:Markdown语法指南

导语&#xff1a;Markdown作为一种轻量级的标记语言&#xff0c;以其简洁、易学的语法和强大的兼容性赢得了广泛的应用。本文将为您详细介绍Markdown的起源、基本语法及其在写作、博客、项目管理等场景的应用&#xff0c;带您领略这一简洁高效的文本编写工具的无穷魅力。 Mark…

超实用!人力资源都在找的工资核算管理系统,内含公式,个税自动计算!

——“有没有推荐的工资核算管理系统&#xff1f;” ——“你要做工资核算&#xff0c;就不能只做工资核算。” 人事的工作一般分为“六大模块”&#xff0c;即人力资源规划、招聘与配置、培训与开发、绩效管理、薪酬福利管理、劳动关系管理&#xff0c;六大模块分工协作并有…

JRT打印元素绘制协议之-A4Double

以前打印相信很多人因为A4打印两个报告头大过&#xff0c;M要把一堆报告既有A4的也有A5的还有微生物的&#xff0c;可能输出Page还不那么严谨。要么换页不对叠加了、要么多空白页、中间夹杂A4报告就更加头大。也有的人为了打印页码的共几页而头大。 借助新设计的优势&#xff…

搜维尔科技:【简报】第九届元宇宙数字人设计大赛,报名已经进入白热化阶段!

随着元宇宙时代的来临&#xff0c;数字人设计成为了创新前沿领域之一。为了提高大学生元宇宙虚拟人角色策划与美术设计的专业核心能力&#xff0c;我们特别举办了这场元宇宙数字人设计赛道&#xff0c;赛道主题为「AI人工智能科技」 &#xff0c;只要与「AI人工智能科技」相关的…

Docker·1(简介、安装、基本使用)

目录 1. 什么是Docker1.1. 什么是容器1.2. 什么是Docker 2. 安装Docker3. 镜像操作3.1. 拉取镜像3.2. 卸载镜像/容器3.3. 使用镜像/容器 4. 相关指令说明 1. 什么是Docker 1.1. 什么是容器 虚拟机&#xff1a; 操作系统是一个很笨重的程序&#xff0c;即是啥都不干&#xff0c…

MAC 中多显示器的设置(Parallels Desktop)

目录 一、硬件列表&#xff1a; 二、线路连接&#xff1a; 三、软件设置&#xff1a; 1. 设置显示器排列位置及显示参数 2. 分别设置外接显示器为&#xff1a;扩展显示器&#xff0c;内建显示器为主显示器 3. 设置Parallels Desktop屏幕参数 四、结果 一、硬件列表&a…