一、说明
统计中的中心趋势是用于表示大量数值数据的中间值或中心值的数值。这些获得的数值在统计学中称为中心值或平均值。 任何统计数据或序列的中心值或平均值是代表整个数据或其相关频率分布的变量的值。这样的值具有重要意义,因为它描绘了整个数据的性质或特征,否则很难观察到。
目录
- 集中趋势意义的测量
- 集中趋势的措施
- 意味 着
- 中位数
- 模式
- 常见问题
二、集中趋势意义的测量
数据集的代表值,通常是中心值或最常出现的值,可以大致了解整个数据集,称为集中趋势度量。
集中趋势的措施
一些最常用的集中趋势指标是:
- 均值
- 中位数
- 模式
- 集中趋势
2.1 均值
一般而言,平均值用于数据的算术平均值,但除了算术平均值之外,还有使用不同公式计算的几何平均值和谐波平均值。在本文中,我们将讨论算术平均值。
2.1.1 未分组数据的平均值
算术平均值 (\bar{x}) 定义为单个观测值的总和 (x我) 除以观测值总数 N。换言之,平均值由所有观测值的总和除以观测值总数得出。
x ˉ = ∑ x i N \bold{\bar{x} = \frac{\sum x_i}{N}} xˉ=N∑xi
或:
平均值 = 所有观测值的总和÷观测值总数
示例:如果有 5 个观测值,分别为 27、11、17、19 和 21,则均值 (\bar{x}) 由下式给出
x ˉ = ( 27 + 11 + 17 + 19 + 21 ) ÷ 5 \bar{x}= (27 + 11 + 17 + 19 + 21) ÷ 5 xˉ=(27+11+17+19+21)÷5
x ˉ ⇒ = 95 ÷ 5 \bar{x}⇒ = 95 ÷ 5 xˉ⇒=95÷5
x ˉ ⇒ = 19 \bar{x}⇒ = 19 xˉ⇒=19
2.1.1 分组数据的平均值
分组数据的均值 ( x ˉ ) (\bar{x}) (xˉ) 定义为观测值 ( x i ) (x_i) (xi)及其相应的频率 ( f i ) (f_i) (fi) 除以所有频率的总和 ( f i ) (f_i) (fi)
x ˉ = ∑ f i x i ∑ f i \bold{\bar{x} = \frac{\sum f_i x_i}{\sum f_i}} xˉ=∑fi∑fixi
示例:如果值 ( x i ) (x_i) (xi)观测值及其频率 ( f i ) (f_i) (fi)如下所示:
( x i ) (x_i) (xi) | 4 | 6 | 15 | 10 | 8 |
---|---|---|---|---|---|
( f i ) (f_i) (fi) | 5 | 10 | 8 | 7 | 10 |
则上述分布的算术平均值 (\bar{x}) 由下式给出
x ˉ = ( 4 × 5 + 6 × 10 + 15 × 8 + 10 × 7 + 9 × 10 ) ÷ ( 5 + 10 + 8 + 7 + 10 ) \bar{x}= (4×5 + 6×10 + 15×8 + 10×7 + 9×10) ÷ (5 + 10 + 8 + 7 + 10) xˉ=(4×5+6×10+15×8+10×7+9×10)÷(5+10+8+7+10)
x ˉ ⇒ = ( 20 + 60 + 120 + 70 + 90 ) ÷ 40 \bar{x}⇒ = (20 + 60 + 120 + 70 + 90) ÷ 40 xˉ⇒=(20+60+120+70+90)÷40
x ˉ ⇒ = 360 ÷ 40 \bar{x}⇒ = 360 ÷ 40 xˉ⇒=360÷40
x ˉ ⇒ = 9 \bar{x}⇒ = 9 xˉ⇒=9
相关资源,
使用直接法的平均值
算术平均值的快捷方法
使用步进偏差法的平均值
三、均值类型
平均值可以分为三个不同的类组,它们是
- 算术平均值
- 几何平均数
- 谐波平均值
3.1 算术平均值
算术平均值的公式由下式给出
x ˉ = ∑ x i N \bold{\bar{x} = \frac{\sum x_i}{N}} xˉ=N∑xi
这里
x1、x2、x3, . . ., xn是观察结果,以及,N 是观测值的数量。
3.2 几何平均值
几何平均值的公式由下式给出
G.M. = x 1 ⋅ x 2 ⋅ x 3 ⋅ … ⋅ x n n \bold{\text{G.M.} = \sqrt[n]{x_1\cdot x_2\cdot x_3\cdot \ldots \cdot x_n}} G.M.=nx1⋅x2⋅x3⋅…⋅xn
这里x1、x2、x3, . . ., xn是观察结果,以及,n 是观测值的数量。
3.3 调和均值
调和均值的公式由下式给出
H. M. = n 1 / x 1 + 1 / x 2 + … + 1 / x n \bold{\text{H. M. } = \frac{n }{1/x_1 + 1/x_2 +\ldots + 1/x_n}} H. M. =1/x1+1/x2+…+1/xnn
或
H. M. = n ∑ ( 1 / x i ) \bold{\text{H. M. } = \frac{n }{\sum (1/x_i)}} H. M. =∑(1/xi)n
这里,x1、x2, . . ., xn是观察结果,以及,n 是观测值的数量。
3.4 算术平均值属性
算术平均值有多种属性,其中一些如下:
- 与算术平均值的偏差的代数和为零,即 . ∑ ( x i − x ˉ ) = 0 \bold{\sum{(x_i - \bar{x})} = 0} ∑(xi−xˉ)=0
- 如果 x ˉ \bold{\bar{x}} xˉ是观测值的算术平均值,并且将 a 添加到每个观测值中,则新的算术平均值由下式给出 x ′ ˉ = x ˉ + a \bold{\bar{x'} =\bar{x}+a} x′ˉ=xˉ+a
- 如果 x ˉ \bold{\bar{x}} xˉ是观测值的算术平均值,并且从每个观测值中减去 a,则新的算术平均值由下式给出 x ′ ˉ = x ˉ − a \bold{\bar{x'} =\bar{x}-a} x′ˉ=xˉ−a
- 如果 x ˉ \bold{\bar{x}} xˉ是观测值的算术平均值,并且 a 乘以每个观测值,则新的算术平均值由下式给出 x ′ ˉ = x ˉ × a \bold{\bar{x'} =\bar{x}\times a} x′ˉ=xˉ×a
- 如果 x ˉ \bold{\bar{x}} xˉ是观测值的算术平均值,并且每个观测值除以 a,则新的算术平均值由下式给出 x ′ ˉ = x ˉ ÷ a \bold{\bar{x'} =\bar{x}\div a} x′ˉ=xˉ÷a
四、均值作为集中趋势度量的缺点
尽管均值是计算数据集集中趋势的最通用方法,但它不能始终给出正确的想法,尤其是当数据集之间存在较大差距时。
4.1 中位数
任何分布的中位数是将分布分成两个相等部分的值,使得其上方的观测值数等于其下方的观测值数。因此,中位数称为任何给定数据的中心值,无论是分组的还是未分组的。
4.2 未分组数据的中位数
要计算中位数,观测值必须按升序或降序排列。如果观测值总数为 N,则有两种情况
案例 1:N 为奇数
中位数 = [(n + 1) ÷ 2] 处的观察值第位置
当 N 为奇数时,计算中位数,如下图所示。
n 为奇数时的中位数
案例 2:N 为偶数
中位数 = (n ÷ 2) 处观测值的算术平均值第和 [(n ÷ 2) + 1]第位置
当 N 为偶数时,计算中位数,如下图所示。
n 为偶数时的中位数
示例 1:如果观测值为 25、36、31、23、22、26、38、28、20、32,则中位数由下式给出
按升序排列数据:20、22、23、25、26、28、31、32、36、38
N = 10,即使如此
中位数 = (10 ÷ 2)th 和 [(10 ÷ 2) + 1]th 位置值的算术平均值
⇒ 中位数 = (第 5 位的值 + 第 6 位的值) ÷ 2
⇒ 中位数 = (26 + 28) ÷ 2
⇒ 中位数 = 27
示例 2:如果观测值为 25、36、31、23、22、26、38、28、20,则中位数由下式给出
按升序排列数据:20、22、23、25、26、28、31、36、38
N = 9 是奇数
中值 = [(9 + 1) ÷ 2] 处的值第位置
⇒ 中位数 = 5 时的值第位置
⇒ 中位数 = 26
4.3 分组数据的中位数
分组数据的中位数如下:
中位数 = l + N / 2 − c f f × h \bold{中位数 =l+ \frac{N/2 - c_f}{f} \times h} 中位数=l+fN/2−cf×h
这里
- l 是中位数类的下限,
- n 是观测值的总数,
- cf是前一个类的累积频率,
- f 是每个类的频率,并且
- h 是班级规模。
示例:计算以下数据的中位数。
类 | 10 – 20 | 20 – 30 | 30 – 40 | 40 – 50 | 50 – 60 |
---|---|---|---|---|---|
频率 | 5 | 10 | 12 | 8 | 5 |
解决:
为给定数据创建下表。
类 | 频率 | 累积频率 |
---|---|---|
类 | 频率 | 累积频率 |
10 – 20 | 5 | 5 |
20 – 30 | 10 | 15 |
30 – 40 | 12 | 27 |
40 – 50 | 8 | 35 |
50 – 60 | 5 | 40 |
l = 30,cf= 15,f = 12,h = 10
将值放入公式中 中位数 = l + N / 2 − c f f × h \bold{中位数 =l+ \frac{N/2 - c_f}{f} \times h} 中位数=l+fN/2−cf×h
中位数 = 30 + (20 – 15)/12) × 10
⇒ 中位数 = 30 + (5/12) × 10
⇒ 中位数 = 30 + 4.17
⇒ 中位数 = 34.17
因此,该数据集的中值为 34.17
五、模式
模式是该观测值的值,该观测值具有与之对应的最大频率。换句话说,对数据的观察在数据集中发生的最大次数。
5.1未分组数据的模式
未分组数据的模式可以通过观察频率最高的观测值来简单地计算。让我们看一个计算未分组数据模式的示例。
数据集的众数是数据集中频率最高的项,如下图所示。
未分组数据的模式
示例:求观测值 5、3、4、3、7、3、5、4、3 的模式。
解决:
创建一个包含每个观测值的表,其频率如下所示:
xi | 5 | 3 | 4 | 7 |
---|---|---|---|---|
fi | 2 | 4 | 2 | 1 |
由于 3 出现的最大次数,即在给定数据中出现 4 次;
因此,给定未分组数据的模式为 3。
5,2 分组数据模式
查找分组数据模式的公式为:
M o d e = l + [ f 1 − f 0 2 f 1 − f 0 − f 2 ] × h \bold{Mode = l +\left [\frac{f_1-f_0}{2f_1-f_0-f_2}\right]×h} Mode=l+[2f1−f0−f2f1−f0]×h
这里
- l 是模态类的下限,
- h 是班级人数,
- f1是模态类的频率,
- f0是进行模态类的类的频率,并且
- f2是继承模态类的类的频率。
示例:找到数据集的模式,如下所示。
上课间隔 | 10-20 | 20-30 | 30-40 | 40-50 | 50-60 |
---|---|---|---|---|---|
频率 | 5 | 8 | 12 | 16 | 10 |
解决:
由于频率最高的类间隔是 40-50,因此频率为 16。因此,40-50 是模态类。
因此,l = 40 , h = 10 , f 1 = 16 , f0 = 12 , f2= 10
在公式 M o d e = l + [ f 1 − f 0 2 f 1 − f 0 − f 2 ] × h \bold{Mode = l +\left [\frac{f_1-f_0}{2f_1-f_0-f_2}\right]×h} Mode=l+[2f1−f0−f2f1−f0]×h中插入值,我们得到
模式 = 40 + (16 – 12)/(2 × 16 – 12 – 10) × 10
⇒模式 = 40 + (4/10)×10
⇒模式 = 40 + 4
⇒模式 = 44
因此,这组数据的模式为 44。
了解有关分组数据的均值、中位数和众数的详细信息
5.3 集中趋势测量之间的经验关系
这三个中心趋势通过经验公式相互关联,如下:
2 × 均值 + 众数 = 3 × 中位数 2 × 均值 + 众数 = 3 × 中位数 2×均值+众数=3×中位数
当给定另外两个中心趋势时,此公式用于计算其中一个中心趋势。
关于集中趋势措施的常见问题
1. 什么是统计学中集中趋势的衡量标准?
数据集的集中趋势度量表示数据集的中心值或典型值,可用于对数据进行进一步分析。
2. 是什么意思?
平均值是数据集的平均值,也可以按算术、几何和和谐方式计算。通常,术语“平均值”是指数据的算术平均值。
3. 什么时候均值是衡量集中趋势的良好指标?
当数据呈正态分布且数据集中没有极值或异常值时,均值是集中趋势的良好度量。
4. 什么是中位数?
中位数是数据集的中间值,当按递增或递减顺序排列时,即在中位数两侧的观测值数量相等。
5. 中位数何时是衡量集中趋势的良好指标?
当数据集偏斜或数据集中存在极值或异常值时,中位数是集中趋势的良好度量。
6. 什么是模式?
众数是给定数据集的最高频率观测。
7. 模式何时是衡量集中趋势的良好指标?
当观测频率数据集中存在明显的峰值时,该模式可以很好地衡量集中趋势。
8. 一个数据集可以有多个模式吗?
是的,一个数据集可以有多个模式,因为可以有两个具有相同频率数的观测值。
9. 集中趋势的目的是什么?
集中趋势的主要目标是提供一个值,该值有效地表示一组收集的数据。此值旨在捕获数据的核心或典型方面,提供整体信息的简明摘要。