区间估计
问题:点估计估计的参数有多大概率是正确的?用区间估计来表示。
置信区间
设总体X的分布函数F(x;θ),θ未知,对给定值α(0<α<1),有两个统计量θ^L=θ^L(X1,X2,...Xn),θ^U=θ^U(X1,X2,...Xn),使得P{θ^L(X1,X2,...Xn)<θ<θ^U(X1,X2,...Xn)}≥1−α,(θ^L,θ^U)称为θ的置信水平为1−α的双侧置信区间。θ^L是双侧置信下限,θ^U是双侧置信上限。
θ虽然未知,但是是确定的数值。
θ^L,θ^U是统计量,随机的,依赖于样本。
置信区间(θ^L,θ^U)也是随机的。
(θ^L,θ^U)是θ的置信水平为1−α的置信区间,含义是:区间(θ^L,θ^U)有1−α的概率覆盖θ的真值。区间可能包含真值,也可能不包含真值。
单侧置信下限
如果P{θ^L(X1,X2,...Xn)<θ}≥1−α,则称θ^L是参数θ的置信水平为1−α的单侧置信下限。
单侧置信上限
如果P{θ^U(X1,X2,...Xn)>θ}≥1−α,则称θ^U是参数θ的置信水平为1−α的单侧置信上限。
关系
如果θ^L是参数θ的置信水平为1−α1的单侧置信下限,θ^U是参数θ的置信水平为1−α2的单侧置信上限,则(θ^L,θ^U)是θ的置信水平为1−α1−α2的置信区间。
精确度
置信区间(θ^L,θ^U)的平均长度E(θ^U−θ^L)为区间的精确度。
在样本容量一定的情况下,精确度高,则置信水平就降低。
如何选择置信区间##
Neyman原则:在置信水平达到1−α的置信区间中,选精确度尽可能高的置信区间。
找精确度高的置信区间
找置信区间
1 找一个随机变量G,G的分布已知。
2 找a,b是的P(a<G<b)≥1−α,G是θ和样本的函数。
3 从a<G<b,计算出θ^L<θ<θ^U,得到(θ^L,θ^U)。
选择G
G=G(X1,X2...Xn;θ)为样本和待估参数的函数,如果G的分布已知,不依赖于任何未知参数,则G为枢轴量。
枢轴量与统计量的区别:
统计量:样本的函数;分布未知;
枢轴量:样本和未知参数的函数;分布已知。
正态分布的统计量X¯¯¯服从N(μ,σ2/n),μ,σ2是未知参数,所以X¯¯¯分布未知。
对位置参数μ的枢轴量X¯¯¯−μS/n√服从t(n-1),与μ无关,所以分布已知。
选择精确度高的置信区间##
1 a,b区间最短。
2 如果最优解不存在或者比较复杂,对于连续总体,可以选择满足P(G(X1,X2,...Xn)≤a)=P(G(X1,X2,...Xn)≥b)=α2的a和b。
正态总体下的区间估计
单个正态总体均值的区间估计
这里分辨一下标识符。Φ(x)=P(X≤x),zα是正态函数的上α分位数,表示P(X>zα)=α=1−Φ(zα)。
σ2已知
G=X¯¯¯−μσ/n√~N(0,1)
正态分布的对称性
μ的双侧置信区间为(X¯¯¯−σn√zα/2,X¯¯¯+σn√zα/2)
单侧置信下限为X¯¯¯−σn√zα
单侧置信上限为X¯¯¯+σn√zα
σ2未知
G=X¯¯¯−μS/n√~t(n-1)
t态分布的对称性
μ的双侧置信区间为(X¯¯¯−Sn√tα/2,X¯¯¯+Sn√tα/2)
单侧置信下限为X¯¯¯−Sn√tα
单侧置信上限为X¯¯¯+Sn√tα
成对数据均值差的区间估计
为考察降压药降压效果,测试了n个病人用药前后的血压分别为(X1,Y1),(X2,Y2)...(Xn,Yn),Xi,Yi不是独立,X1,X2…之间独立,但不是同分布。但是Di=Yi−Xi,则消除了个体差异,可看成是来自同一正态分布的样本,且相互独立。
μD的置信水平为1−α的置信区间为(D¯¯¯−tα/2(n−1)SDn√,D¯¯¯+tα/2(n−1)SDn√)
单个正态总体方差的区间估计
G=(n−1)S2σ2~X2(n−1)卡方分布
卡方分布不对称,没有最优解
σ2的双侧置信区间为((n−1)S2X2α/2(n−1),(n−1)S2X21−α/2(n−1))
两个正态总体均值差的区间估计
σ21,σ22已知
σ21,σ22未知,但σ1=σ2
σ21,σ22未知
不再详细记录,用的时候看书。
两个正态总体方差比值的区间估计
不再详细记录,用的时候看书。
其他总体均值的区间估计
设总体X的均值为μ,方差为σ2,样本为X1,X2,...Xn,当n充分大(n>30)时,由中心极限定理可知,X¯¯¯−μσ/n√ 近似服从N(0,1)。
当σ2已知,置信区间近似为(X¯¯¯−σn√zα/2,X¯¯¯+σn√zα/2)
当σ2未知,以样本方差S2代入,得到置信区间近似为(X¯¯¯−Sn√zα/2,X¯¯¯+Sn√zα/2)