第七章假设检验(3)

关于样本量n的取值

　如果希望在控制第I类错误的情况下，同时限制第II类错误的，这个时候就需要考虑样本量。样本量越大，错误概率越低。使用OC曲线。

分布拟合检验

　如果不知道总体服从什么类型的分布，就需要根据样本来检验分布的假设。

单个分布的卡方拟合检验法

　卡方拟合检验法可以检验总体是否具有某一个指定的分布或者属于某一分布族。具体参见第8章第6节。要求样本量n大于等于50。

定义

　记：F(x)为总体X的未知分布函数
　假设： $F_0(x)$ 是形式已知，但含有若干个未知参数的分布函数。
　检验假设： $H_0:F(x)=F_0(x), \forall x \in R$
　说明：如果总体X是离散的，则假设 $H_0$ 为：
　 $H_0:$ 总体X的分布律为 $P\{X=t_i\}=p_i,i=1,2,3....$
　若总体X是连续的，则假设 $H_0$ 为：
　 $H_0:$ 总体X的概率密度函数为 $f(x)$

原理和步骤

　1在 $H_0$ 下，总体X取值的全体分为k个两两不相交的子集 $A_1,A_2...A_k$ 。
　2以 $n_i(i=1,2...k)$ 记录样本观察值 $x_1,x_2,...x_k$ 中落在 $A_i$ 的个数（实际频数）。
　3当 $H_0$ 为真，且 $F_0(x)$ 完全已知时，计算事件 $A_i$ 发生的概率 $p_i=P_{F_0}(A_i),i=1,2...k$ 。
　3.1如果 $F_0(x)$ 含有r个未知参数的时候，先利用极大似然估计r个未知参数，然后求得 $p_i$ 的估计值 $\hat p_i$ 。
　4检验统计量 $\sum_{i=1}^kh_i(n_i-np_i)^2$ 。这个统计量表示事件实际 $A_i$ 发生的次数与理论上事件 $A_i$ 发生的次数之间的平方差。当试验次数够多， $H_0$ 为真，这个数应该不会太大。 $h_i$ 是个常数。检验的拒绝域形式是 $\sum_{i=1}^kh_i(n_i-np_i)^2 \ge c$ 。
　
　4.1如果 $h_i=\dfrac{n}{p_i}$ ,统计量变为 $\sum_{i=1}^k\dfrac{n}{p_i}(n_i-np_i)^2$ ；

　4.2 $h_i$ 的值。皮尔逊证明以下定理
　若n充分大 $(n\ge 50)$ ，则当 $h_0$ 为真时，
　统计量 $\sum_{i=1}^k\dfrac{n}{p_i}(n_i-np_i)^2$ 近似服从 $\chi_{(k-1)} ^2$ ，
　统计量 $\sum_{i=1}^k\dfrac{n}{p_i}(n_i-n\hat p_i)^2$ 近似服从 $\chi_{(k-r-1)} ^2$
　k是分类个数，r是未知参数个数。
　4.3简化统计量得到最终的拒绝域
　 $\chi^2=\sum_{i=1}^k\dfrac{n}{p_i}(n_i-np_i)^2=\sum_{i=1}^{k}\dfrac{n_i^2}{np_i}-n$
　 $\chi^2=\sum_{i=1}^k\dfrac{n}{p_i}(n_i-np_i)^2=\sum_{i=1}^{k}\dfrac{n_i^2}{n\hat p_i}-n$
　 $\chi^2=\sum_{i=1}^{k}\dfrac{n_i^2}{np_i}-n \ge\chi_\alpha^2(k-1)$
　 $\chi^2=\sum_{i=1}^{k}\dfrac{n_i^2}{n\hat p_i}-n\ge\chi_\alpha^2(k-r-1)$ 　
　注意：n要足够大， $n\ge 50$ ； $np_i>5$ 。