假设检验分参数假设和非参数假设。
假设
先假设原假设H0,对应的反面叫做备择假设H1。SAS一般沿用的规则是NEYMAN和PEARSON提出的:在控制犯第一类错误的原则下,是犯第二类错误的概率尽量小(即,原假设受到保护,不能轻易否定。若原假设被否定了,其理由一定是充分的)。反过来思考,若为了是假设更加有说服力,可是让本猜想本身作为H1,得到的结论为否定H0,就能更加充分证明原本的猜想(类似反证法)。
假设检验判断原则以犯第一类错误概率为判断依据:
P>=α,则接收H0;P<α,则拒绝H0。
检验
有了假设就要有检验,这里先介绍T检验。
进行T检验数据源要满足数据正态性条件:①样本来自正态分布总体。或者②样本容量足够大(若样本对称分布,样本容量>=30即可)。
T检验分为:单样本均值T检验、双样本均值T检验(分为独立双样本均值T检验、配对样本均值T检验)。
单样本均值T检验
PROC TTEST DATA=SASHELP.FISH H0=14 PLOTS(SHOWNULL)=INTERVAL;WHERE SPECIES="Bream";VAR HEIGHT; RUN;
如上代码中指定H0=14原假设均值为14,默认值为0。PLOTS(SHOWNULL)=INTERVAL指定画出置信区间图,SHOWNULL标出假设值在置信区间图的位置。
看下图:
首先看到上面的直方图中核的曲线为样本数据值的曲线,可以看出分布基本对称可以用T检验进行均值检验。这里也可以用PROC UNIVARIATE进行计算偏度也可以判断分布的对称性。
再看到图的下半部分:有盒形图和置信区间图重叠了,可以看出样本均值为◇符号所在地方15多点,置信区间是蓝色区域,假设的H0的值在蓝色区域外面的14.0的位置。假设值在置信区间之外就已经可以拒绝H0了。
还可以看别的结果,如下图:
表格中详细的写明了一些上图中无法明确读出来的值,样本均值为15.183,95%置信区间为14.508到15.858。重点是T检验的结果P=0.001<0.05所有可以拒绝原假设H0。
除了这些结果以外还有:
分开独立的图方面阅读,下面的Q-Q 同样说明样本数据基本满足正态性(点分布在直线左右)。
独立双样本均值T检验
进行独立双样本均值T检验要满足三个条件:①双样本之间相互独立②双样本均来自正态分布总体③双样本方差想等。
PROC TTEST DATA=EX.SCORE PLOTS(SHOWNULL)=INTERVAL;CLASS GENDER;VAR SCORE;
RUN;
GENDER中的两个分类为两个样本,结果如下:
第四个表,这里多加了一个F检验,假设方差等价H0,其F趋近于1,P>0.05,所以接受原假设,即男女的分数没有显著差异(注意:用F检验要求无论数据样本量大小,必须服从正态分布,所以这里仅仅是个参考,还不确定数据是否服从正太分布)。
第三个表,这里用两种方法做的检验,汇总法,齐性方差条件满足时用,T=1.92,P=0.0582>0.05,所以先接受HO,即即男女的分数没有显著差异。用第二种方法,SATTERTHWAITE法,齐性方差条件不满足时用,得出来的结论是接受,即即即男女的分数有显著差异。
但是由第二张表看到两分类的标准差几乎相等,所以是齐性方差条件已经满足了所以看汇总发输出的结果。
第二张表中的置信区间包括0,也可以判断在0.95 的置信水平下,两分类显著性差异不大。
由直方图看出两实际数据并不都服从正态分布,所以F检验结果仅供参考,不做依据。
看置信区间图,两种方法所算出来的置信区间和均值方差一直,和上表结果一致,在此论证男女分数无显著性差异。
服从正态性,但不完全是正态分布。
单边T检验即检验的是υ1-υ2的值,后面加上SIDES=U即可。
匹配样本均值T检验
条件:①两样本具有匹配关系②服从正态分布,或者样本量足够大;
加入有个条件的前后数据,判断该条件对样本有无显著性影响。
PROC TTEST DATA=PRESSURE;PAIRED SBPBEFORE*SBPAFER; RUN;