声明:文中的图来自于可汗学院公开课,若有侵权,联系我删除。
假设检验:
先看一个z分布的例子:
注意:零假设一般倾向于保守的。
在上图中:
1、先假设零假设成立,即药物无效,总体均值仍为1.2s;
2、在此前提下,实验得出了1.05s的样本均值,0.5的样本标准差(可求出抽样分布的标准差σx为0.5/10=0.05),我们要考虑的就是,在药物无效的前提下,得到这样的结果是多大的概率?
3、(1.2-1.05)/0.05=3,也就是说,1.05这个样本均值落在距离总体均值3个抽样分布标准差σx的地方;而查表可知,落在距离“总体均值”3个标准差内的区间的可能性高达99.7%,换言之,落在该区间之外的可能性只有0.3%;
4、所以在零假设成立的前提下,出现这样的样本结果只有0.3%的可能性,几乎不可能,从而我们应该拒绝零假设,选择备择假设。
第一型错误:拒绝了正确的零假设。如果某个假设的概率低于某门槛,我们会拒绝该零假设。而在这种极小的概率下事件是可能发生的,犯错概率是存在的,这就是第一型错误。
如下图所示:
t分布的一个例子:
当样本容量n<30时,我们采用t统计量。在本例子中,n=10,所以我们采用的是t 统计量;
而t统计量的计算方式跟z统计量是一样的,都是通过用样本均值x减去总体均值u再除以标准差(也是s/根号n);
不同的在于,求出的值,查的表不一样:表中分出了单侧检验和双侧检验,本例中是单侧检验;
n=10所以自由度是9;查到的99%对应的2.82意味着,大于u+2.82(s/根号n)的样本均值出现的可能性为1%,根据对称性可知,小于u-2.81(s/根号n)的样本均值出现的概率也为1%(所占面积为0.01),而-3<-2.81,所以本例中,在零假设成立的前提下,出现该样本的可能性低于1%,所以拒绝零假设。
求95%的置信区间:
通过上述表双侧,自由度为9,知道两侧点如下图所示:
离散分布的例子:
比例的分布为二项分布。当np≥5或者n(1-p)≥5时,样本比例的分布为渐近正态分布。
查表:
而2.14>1.6更加极端,小于5% 故拒绝零假设。
独立变量之间的期望和方差关系:
Var(X±Y)=Var(X)+Var(Y)
E(X-Y)=E(X)-E(Y)
E(X+Y)=E(X)+E(Y)
均值之差的假设检验:
总体占比的比较:
男女各1000投票,温是否有差异,求95%的置信区间。
由上可看出95%的几率,男女之差是落在这个范围之内,该范围内男性比女性占比大。
总体占比比较的假设检验: