样本是怎么估计总体的
flyfish
1. 什么是样本估计总体?
样本估计总体是指通过样本数据(例如100人的身高)推断总体参数(例如全国人口的平均身高)。核心方法包括:
- 点估计:用样本统计量直接估计总体参数(如用样本均值估计总体均值)。
- 区间估计:构造置信区间(如“总体均值在95%置信度下是160cm±5cm”)。
2. 为什么需要样本估计总体?
- 成本限制:全面普查成本过高(例如全国人口体检)。
- 破坏性检测:某些检测会破坏样本(如灯泡寿命测试)。
- 时效性:快速决策需要抽样(如疫情传播率分析)。
3. 什么是频率学派?
频率学派(Frequentist)是统计学中的主流学派之一,核心观点是:概率是事件在长期重复试验中发生的频率。例如,抛硬币正面概率0.5,意味着在无限次抛掷中有一半出现正面。频率学派认为总体参数(如均值、方差)是固定但未知的,只能通过样本数据去估计。
4. 频率学派的基本思路
频率学派的核心逻辑:
1. 参数固定(Fixed Parameter)
核心逻辑:频率学派认为总体参数(如均值μ、方差σ²)是客观存在的固定数值,不随观测者的主观认知或数据变化而改变。
为什么强调固定?
- 参数是描述总体本质的常数(例如“地球重力加速度的真实值”),不因实验者的不同或实验次数而变化。
- 例如:硬币正面概率θ=0.5是客观存在的,即使你抛10次全是反面,θ仍然是0.5,只是数据呈现了随机性。
与贝叶斯的对比:
贝叶斯学派认为参数是随机变量(例如θ可能服从某个概率分布),而频率学派认为这种主观赋予的分布没有客观依据。
2. 数据随机(Random Data)
核心逻辑:样本数据是随机过程的产物,不同抽样可能得到不同结果,但参数是固定的。
具体表现:
- 例如:用样本均值(\bar{X})估计总体均值μ时,(\bar{X})会因抽样不同而波动(如第一次抽样得(\bar{X}=5.2),第二次得(\bar{X}=5.5)),但μ始终是固定值。
- 频率学派关注的是估计量的性质(如无偏性、方差),而非单个估计值的准确性。
经典例子:
抛硬币10次出现7次正面,频率学派不会说“硬币正面概率是0.7”,而是认为θ固定,数据结果(7/10)是随机性的体现。
3. 频率解释(Frequency Interpretation)
核心逻辑:概率被定义为长期重复试验中事件发生的频率,而非主观信念。
核心工具:
- 置信区间:例如“95%置信区间”,解释为“在无限次重复抽样中,95%的区间会覆盖真实参数”。
- 假设检验:P值的含义是“在假设成立时,观测到极端结果的概率”,而非“假设为真的概率”。
案例说明:
- 若说“μ的95%置信区间是[4.8,5.6]”,频率学派的解释是:如果重复抽样100次,大约95次构造的区间会包含真实μ,而不是“μ有95%概率落在这个区间”(后者是贝叶斯观点)。
4. 拒绝主观性(Anti-Subjectivity)
核心逻辑:完全依赖样本数据,拒绝引入先验分布(Prior Distribution)。
原因:
- 频率学派认为先验分布是主观假设(如“专家经验”),缺乏客观依据,可能导致结论偏离真实参数。
- 例如:若贝叶斯学派假设θ服从Beta(2,2)分布,频率学派会认为这人为引入了主观信息,而数据本身应独立分析。
例外情况:
在频率学派框架下,若先验信息能被转化为数据(如历史数据),则可纳入模型,但需严格区分“主观先验”和“客观数据”。
5. 频率学派的估计方法
点估计方法
方法 | 核心思想 | 例子 |
---|---|---|
矩估计法 | 用样本矩匹配总体矩,解方程求解参数。 | 用样本均值估计正态分布的总体均值。 |
最大似然估计 | 最大化样本出现的概率(似然函数)。 | 二项分布参数 p p p 的估计: p ^ = k n \hat{p} = \frac{k}{n} p^=nk。 |
最小二乘法 | 最小化误差平方和,用于回归分析。 | 线性回归系数估计。 |
区间估计方法
方法 | 公式 | 适用场景 |
---|---|---|
正态分布置信区间 | X ˉ ± z α / 2 ⋅ σ n \bar{X} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} Xˉ±zα/2⋅nσ | 大样本或总体方差已知的均值估计。 |
t分布置信区间 | X ˉ ± t α / 2 ( n − 1 ) ⋅ S n \bar{X} \pm t_{\alpha/2}(n-1) \cdot \frac{S}{\sqrt{n}} Xˉ±tα/2(n−1)⋅nS | 小样本且总体方差未知的均值估计。 |
卡方分布置信区间 | [ ( n − 1 ) S 2 χ α / 2 2 ( n − 1 ) , ( n − 1 ) S 2 χ 1 − α / 2 2 ( n − 1 ) ] \left[ \frac{(n-1)S^2}{\chi^2_{\alpha/2}(n-1)}, \frac{(n-1)S^2}{\chi^2_{1-\alpha/2}(n-1)} \right] [χα/22(n−1)(n−1)S2,χ1−α/22(n−1)(n−1)S2] | 总体方差或标准差估计。 |
比例置信区间 | p ^ ± z α / 2 ⋅ p ^ ( 1 − p ^ ) n \hat{p} \pm z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} p^±zα/2⋅np^(1−p^) | 二项分布成功概率估计。 |
6. 具体例子:估计灯泡寿命的总体均值
问题:某工厂生产灯泡,随机抽取10个测试寿命(小时): 1200 , 1220 , 1190 , 1230 , 1210 , 1180 , 1225 , 1205 , 1215 , 1195 1200, 1220, 1190, 1230, 1210, 1180, 1225, 1205, 1215, 1195 1200,1220,1190,1230,1210,1180,1225,1205,1215,1195。估计总体平均寿命。
频率学派解决步骤:
- 点估计(样本均值):
x ˉ = 1200 + 1220 + ⋯ + 1195 10 = 1210 小时 \bar{x} = \frac{1200 + 1220 + \dots + 1195}{10} = 1210 \text{小时} xˉ=101200+1220+⋯+1195=1210小时 - 计算标准差(样本标准差):
s = ( 1200 − 1210 ) 2 + ( 1220 − 1210 ) 2 + ⋯ + ( 1195 − 1210 ) 2 9 ≈ 15.8 小时 s = \sqrt{\frac{(1200-1210)^2 + (1220-1210)^2 + \dots + (1195-1210)^2}{9}} \approx 15.8 \text{小时} s=9(1200−1210)2+(1220−1210)2+⋯+(1195−1210)2≈15.8小时 - 构造95%置信区间(t分布,自由度=9,$t_{0.025}(9) \approx 2.262)):
置信区间 = 1210 ± 2.262 ⋅ 15.8 10 ≈ 1210 ± 11.3 ⇒ [ 1198.7 , 1221.3 ] 小时 \text{置信区间} = 1210 \pm 2.262 \cdot \frac{15.8}{\sqrt{10}} \approx 1210 \pm 11.3 \Rightarrow [1198.7, 1221.3] \text{小时} 置信区间=1210±2.262⋅1015.8≈1210±11.3⇒[1198.7,1221.3]小时
结论:总体均值在1198.7至1221.3小时之间(置信度95%)。
在频率学派中,置信度95%的含义需要从重复抽样的角度理解:
核心解释
- 定义:若用同样的方法(如样本均值±t值×标准误)重复构造无数个置信区间,则95%的区间会包含真实的总体均值。
- 关键点:
- 参数固定:总体均值是固定值(例如灯泡真实寿命可能是1215小时),但未知。
- 区间随机:每次抽样计算的置信区间会变化(例如第一次抽样得到[1198.7,1221.3],第二次可能[1205,1225])。
- 频率意义:在长期重复中,95%的区间覆盖真实值,但不能说当前区间有95%概率包含真实值(因为真实值要么在区间内,要么不在)。
举例类比
- 假设真实均值是1215小时:
- 抽样100次,构造100个95%置信区间。
- 约95个区间会包含1215小时,5个不包含。
- 但具体到用户计算的区间[1198.7,1221.3],无法确定它是否属于包含真实值的95%。
与贝叶斯学派的区别
- 贝叶斯学派会用可信区间(如“真实值有95%概率在[1199,1221]”),但频率学派拒绝这种表述,认为参数不是随机变量。
用户案例中的计算
- 用户通过10个样本计算了均值1210和标准差15.8。
- 用t分布(自由度=9)构造的区间[1198.7,1221.3],反映的是方法的可靠性,而非当前区间的概率意义。
常见误解
- ❌ 错误理解:“真实均值有95%概率落在[1198.7,1221.3]”。
- ✅ 正确理解:“若长期重复抽样,95%的类似区间会覆盖真实均值”。
7. 贝叶斯学派核心概念
贝叶斯学派认为概率是主观的 “信念程度”,而非频率学派主张的客观频率。参数(如总体均值)被视为随机变量,具有概率分布(先验分布),通过数据更新为后验分布。
1). 先验概率(Prior Probability)
- 定义:未观测数据前,基于经验或假设对参数的初始概率估计。
- 例子:猜测硬币正面概率 p p p 更可能在0.4至0.6之间。
2). 先验分布(Prior Distribution)
- 定义:参数的先验信念的概率分布形式。
- 例子:假设 p ∼ Beta ( 2 , 2 ) p \sim \text{Beta}(2,2) p∼Beta(2,2),表示 p p p 接近0.5的概率更高。
- 数学形式:
Beta ( p ∣ α , β ) = p α − 1 ( 1 − p ) β − 1 B ( α , β ) \text{Beta}(p | \alpha, \beta) = \frac{p^{\alpha-1}(1-p)^{\beta-1}}{B(\alpha, \beta)} Beta(p∣α,β)=B(α,β)pα−1(1−p)β−1
3). 似然函数(Likelihood Function)
- 定义:给定参数时,观测到当前数据的概率。
- 例子:抛10次硬币出现7次正面,似然函数为 L ( p ) = ( 10 7 ) p 7 ( 1 − p ) 3 L(p) = \binom{10}{7} p^7 (1-p)^3 L(p)=(710)p7(1−p)3。
什么是似然函数?
定义:
似然函数(Likelihood Function)是统计学中用于衡量在给定参数值下,观察到当前数据的概率。
- 数学形式为:
L ( θ ∣ x ) = P ( x ∣ θ ) L(\theta \mid x) = P(x \mid \theta) L(θ∣x)=P(x∣θ)
其中, θ \theta θ 是参数, x x x 是观测数据。 - 核心思想:固定数据(已知),通过调整参数 θ \theta θ 来评估不同参数值的“合理性”。
关键点:
- 似然函数不是概率分布(不满足积分为1),而是参数的函数。
- 它与概率的区别:
- 概率:固定参数 θ \theta θ,计算不同数据的可能性。
- 似然:固定数据 x x x,评估不同参数值的合理性。
例子:抛硬币10次出现7次正面,参数是硬币正面概率 p p p,则似然函数为:
L ( p ) = ( 10 7 ) p 7 ( 1 − p ) 3 L(p) = \binom{10}{7} p^7 (1-p)^3 L(p)=(710)p7(1−p)3
为什么需要似然函数?
目的:
- 参数估计:通过最大化似然函数找到最合理的参数值(即最大似然估计,MLE)。
- 贝叶斯推断:在贝叶斯框架下,似然函数结合先验分布,计算后验分布(核心公式):
P ( θ ∣ x ) ∝ L ( θ ∣ x ) ⋅ P ( θ ) P(\theta \mid x) \propto L(\theta \mid x) \cdot P(\theta) P(θ∣x)∝L(θ∣x)⋅P(θ)
贝叶斯学派:将似然函数作为连接数据与先验知识的桥梁,更新对参数的认知。
似然函数是统计学中人为定义的数学工具,但其基础是概率模型。
- 人为性:
- 它是基于研究者对数据生成过程的假设(例如,假设数据服从二项分布、正态分布)。
- 形式由具体的概率模型决定(如抛硬币用二项分布,测量误差用正态分布)。
- 自然性:
- 其核心思想(“参数如何解释数据”)反映了科学推理的逻辑:通过观察结果反推原因。
举例:
- 若假设硬币抛掷服从二项分布,则似然函数为 L ( p ) ∝ p k ( 1 − p ) n − k L(p) \propto p^k (1-p)^{n-k} L(p)∝pk(1−p)n−k。
- 若假设数据服从正态分布,则似然函数为 L ( μ , σ 2 ) ∝ ∏ e − ( x i − μ ) 2 2 σ 2 L(\mu, \sigma^2) \propto \prod e^{-\frac{(x_i-\mu)^2}{2\sigma^2}} L(μ,σ2)∝∏e−2σ2(xi−μ)2。
通过似然函数,我们能够从数据中“反推”出最可能的参数值,或结合先验知识更新对参数的认知(贝叶斯学派的核心思想)。
4). 后验概率(Posterior Probability)
- 定义:结合先验与数据后,参数的概率分布。
- 计算方法:
后验分布 ∝ 先验分布 × 似然函数 \text{后验分布} \propto \text{先验分布} \times \text{似然函数} 后验分布∝先验分布×似然函数
5). 后验分布(Posterior Distribution)
- 定义:参数在数据后的更新分布。
- 例子:先验 Beta ( 2 , 2 ) \text{Beta}(2,2) Beta(2,2) + 数据7次正面 → 后验 Beta ( 9 , 5 ) \text{Beta}(9,5) Beta(9,5)。
- 结果:后验均值 9 9 + 5 ≈ 0.64 \frac{9}{9+5} \approx 0.64 9+59≈0.64,表明数据支持“硬币更可能正面”。
8. 贝叶斯推断流程
- )设定先验: p ∼ Beta ( 2 , 2 ) p \sim \text{Beta}(2,2) p∼Beta(2,2)。
- )收集数据:抛10次硬币,7次正面。
- )计算似然: L ( p ) = p 7 ( 1 − p ) 3 L(p) = p^7 (1-p)^3 L(p)=p7(1−p)3。
- )计算后验:
后验 ∝ p 2 − 1 ( 1 − p ) 2 − 1 × p 7 ( 1 − p ) 3 = p 9 − 1 ( 1 − p ) 5 − 1 ⇒ Beta ( 9 , 5 ) \text{后验} \propto p^{2-1}(1-p)^{2-1} \times p^7(1-p)^3 = p^{9-1}(1-p)^{5-1} \Rightarrow \text{Beta}(9,5) 后验∝p2−1(1−p)2−1×p7(1−p)3=p9−1(1−p)5−1⇒Beta(9,5) - )推断:计算可信区间或预测下一次结果。
9. 频率学派 vs. 贝叶斯学派对比
维度 | 频率学派 | 贝叶斯学派 |
---|---|---|
参数性质 | 固定值(未知常数) | 随机变量(具有概率分布) |
推断依据 | 仅依赖样本数据 | 结合先验信息和样本数据 |
结果形式 | 点估计、置信区间 | 后验分布、可信区间 |
解释方式 | 长期频率解释(如置信水平) | 概率解释(如参数的后验概率) |
10. 常见误区
- 错误:“95%置信区间有95%概率包含真实参数。”
- 正确(频率学派):“在重复抽样中,95%的置信区间会覆盖真实参数。”
- 正确(贝叶斯学派):“95%可信区间有95%概率包含参数。”