1. 随机变量 (Random Variable)
随机变量是用来量化随机现象结果的一种数学工具。随机变量是一个函数,它将实验结果映射到数值。随机变量可以是离散的或连续的。
- 离散随机变量:取有限或可数无限个值。例如,掷骰子的结果。
- 连续随机变量:可以在某个区间内取任何值。例如,测量某人的身高。
2. 取值 (Value)
随机变量的取值指的是随机变量可能实现的具体数值。
3. 样本 (Sample)
样本是从一个总体中抽取的一部分个体。在统计分析中,我们经常通过研究样本来推断整个总体的情况(统计推断)。样本中的每一个个体都有关于特定随机变量的一个观察值或测量值。
4. 统计量 (Statistic)
统计量是指基于样本数据计算出来的用来描述样本特征或者估计总体参数的数量指标。它是一个函数,输入是样本数据,输出是一个关于样本特性的数值。常见的统计量包括均值、方差等。
常规约定
- 随机变量: X X X
- 取值: x x x
- 样本: x 1 , x 2 , … , x n x_1, x_2, \ldots, x_n x1,x2,…,xn
例子
假设我们正在研究某个学校学生每周阅读书籍的时间(以小时为单位)。我们将这个时间定义为一个随机变量 X X X。 X X X 的取值范围可以是从0到无穷大,但实际上由于时间有限,我们可以假定它的合理范围是 [0, 20] 小时。
随机变量与取值
- 随机变量 X X X: 学生每周阅读书籍的时间。
- 取值: 假设对于某位具体的学生, X = x i X = x_i X=xi 表示该学生实际报告的每周阅读时间。例如,如果一位学生报告他/她每周读书15小时,则 x i = 15 x_i = 15 xi=15。
样本
- 我们从这所学校中随机选取了5名学生作为样本,得到他们每周阅读书籍的时间分别为: x 1 = 4 , x 2 = 8 , x 3 = 12 , x 4 = 16 , x 5 = 20 x_1 = 4, x_2 = 8, x_3 = 12, x_4 = 16, x_5 = 20 x1=4,x2=8,x3=12,x4=16,x5=20
- 这个由5个数值组成的集合 { x 1 , x 2 , x 3 , x 4 , x 5 } \{x_1, x_2, x_3, x_4, x_5\} {x1,x2,x3,x4,x5} 就是我们所说的样本。
统计量
-
样本均值 ( x ˉ \bar{x} xˉ): 描述样本中所有观测值的平均数。计算公式为:
x ˉ = 1 n ∑ i = 1 n x i = 4 + 8 + 12 + 16 + 20 5 = 60 5 = 12 \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i = \frac{4 + 8 + 12 + 16 + 20}{5} = \frac{60}{5} = 12 xˉ=n1i=1∑nxi=54+8+12+16+20=560=12
其中 n = 5 n=5 n=5 是样本大小。 -
样本方差 ( s 2 s^2 s2): 度量数据分散程度的一个指标。其计算公式为:
s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 s2=n−11i=1∑n(xi−xˉ)2
对于样本:
s 2 = 1 5 − 1 [ ( 4 − 12 ) 2 + ( 8 − 12 ) 2 + ( 12 − 12 ) 2 + ( 16 − 12 ) 2 + ( 20 − 12 ) 2 ] = 1 4 [ 64 + 16 + 0 + 16 + 64 ] = 160 4 = 40 s^2 = \frac{1}{5-1}[(4-12)^2 + (8-12)^2 + (12-12)^2 + (16-12)^2 + (20-12)^2] = \frac{1}{4}[64+16+0+16+64] = \frac{160}{4} = 40 s2=5−11[(4−12)2+(8−12)2+(12−12)2+(16−12)2+(20−12)2]=41[64+16+0+16+64]=4160=40
随机变量是函数也是变量,这是最纠结的地方。