许多教育统计的初学者都表示这几个分布感到学起来非常吃力,结合最近上课的体会以及答疑的情况,觉得很有必要在这里简单地对这部分内容进行澄清和梳理,以助理解。
首先,“为什么要学习这几个分布”可能是许多人纠结的问题,明明已经在电脑中装了SPSS软件了,那么复杂而繁琐的公式不应该直接内置在软件之中就可以了吗?为什么还要花费功夫去学习它们呢?我只能说,在你对这部分内容不甚了解的情况下,你很难意识到其重要性。这些分布都各有所长,也就因为自然界和社会系统中这些分布存在的广泛性,使得教育统计领域许多习以为常的假设背后都有充分的根据,例如为什么心理能力测量数据的相关性可以选用皮尔逊(Pearson)系数、为什么样本的数量要在30个以上、为什么只有达到“显著性水平”,才能说不同的变量之间存在统计意义上的差异等……诸如这样的例子背后,都与数据的这些分布特征有关,正是由于知道如果从某个总体中抽取一定的数据作为样本,这些数据将会存在着一定的分布规律,我们才能大胆地根据样本数据对总体的情况进行大胆而有把握的判断和推理……因此,简而言之,当你能理解这些分布的时候,至少让你在根据数据结果做出推断的时候,对自己所得出的结论坚信不疑。
好了,解答完学习必要性的疑惑后,终于要进入正题了。
1.正态分布(Normal Distribution)
第一个我们要讨论的概念就是正态分布,正态分布是所有概率分布中最重要的形式,如果没有它,也就没有接下来的那几个分布。正态分布的特征表明被测事物处于稳定的状态下,测量数据的波动是由于偶然因素引起的,所以在实践中有广泛的应用。在稳定的系统环境(如自然、人类社会等),许多事物和现象都会服从正态分布,例如人的身高、体重和智商;各种商品的尺寸和质量;自然环境的温度、湿度和降雨量;考试的成绩等。正态分布的重要性还体现在用样本数据来推断总体时,当样本的数量足够大的时,可以利用样本的某些特征数据服从正态分布,进行推断,获得准确的结果。
正态分布一般记作 x~N(μ, σ^2),它的分布函数表达式为其中,π是圆周率;e是自然对数的底;x为随机变量的取值;μ为正态分布的均值(期望),σ^2是正态分布的方差。
正态分布的函数图像是一条“中间高,两端低,左右对称的曲线”(如下图所示)。
特别的,当μ=0,σ^2=1时,我们称X服从标准正态分布:X~N(0,1).
由于其分布函数比较复杂,函数图像将随着不同的和方差发生着变化,人们将一般的正态分布进行标准化,即对于一般的正态分布x~N(μ, σ^2),只要令Z=(x-μ)/σ,则转化为标准正态分布 Z~N(0,1).为了便于计算,人们制作出相应的数值表,方便对不同的数据代入值进行查询,这就是标准正态分布表(如下表)。
正态分布表是我们学习教育统计到目前为止接触到的第一个表,它比较特殊,每一个Z值都会对应一个Y值和P值,其中P值是我们比较关心的,也就是概率大小,如图所示,当Z_0=1.00的时候,直线Z=0,直线Z=1,正态曲线以及Z轴所围成的面积(也就是阴影部分)的概率大小为0.34134,写成数学表达式则为P{Z≤1.00}=0.34134。由于正态曲线是对称的,因此正态分布表所能查到的数据只有非负数,至于Z负半轴部分则很容易根据正半轴的情况进行推算。
利用正态分布以及标准正态分布表还有许多其他的实际应用,如将原始分转化为标准分数;根据录取率计算录取的上线分数等。关于正态分布的内容就先介绍这么多,如有兴趣的可以参考相关书籍深入了解。(张敏强.《教育与心理统计学》[M].北京:人民教育出版社,2010,11:88-100)
正态分布部分性质的证明:
如有兴趣了解更多,还可访问https://www.investopedia.com/terms/n/normaldistribution.asp2. 均值分布(Meandistribution)(μ分布, μ-distribution)
现在开始讨论第二个分布,第一个分布是正态分布,正态分布是自然环境或者人类社会中普遍存在的数据分布特征,那么均值分布又是怎么来的呢?顾名思义,只要你从总体中随机抽取若干组(如m)相同容量(如n)的数据,然后将每一组都求平均值,那么这m个平均值的分布情况就形成了均值分布(它的标准化形式称为μ分布),而这样的均值分布在一般情况下和正态分布的特征基本一致,因此均值分布也是正态分布,只是它的形状一般会比总体更往对称轴靠拢了而已。
那么,如果用数学语言来描述它的定义,即为设X服从正态分布,其均值为μ,方差为σ^2,则X~N(μ ,σ^2 ),设x_1,x_2,…,x_n是总体X抽取的随机样本,则X̅=1/n ∑_(i=1)^n▒x_i 样本的平均数。由于从总体中可以抽出多组的容量为n的样本,则存在多个X̅,此时X ̅也服从正态分布,平均数为μ,方差为σ^2/n, 记作X̅~(μ,σ^2/n)
为方便查表,作变换,
则Z~N(0,1)标准正态分布,又称为Z分布,或u~N(0,1) , u分布。
对于均值分布,我们需要熟悉的是这个分布的均值μ和方差σ^2/n,标准差σ⁄√n,以及将一般均值分布转化为标准正态分布的方法:Z=u=(X̅-μ)/(σ⁄√n),然后能根据正态分布表查值即可。
由于均值分布通常会用来进行假设检验,我们会接触到另外一个概念,显著性水平α,那么α和标准正态曲线(Z表)有什么联系呢?请看下图(双侧检验为例),由于对称和双侧检验,所以每边的尾端阴影部分概率大小均为它的一半 α/2,它与标准正态分布表中的对应关系为α/2=0.5-P,也即P=0.5-α/2,我们可以很容易地根据正态分布表的近似P值查到相应的Z值和Y值。U分布的简单应用:
如有兴趣了解更多,还可访问https://sciencing.com/calculate-distribution-mean-6715845.html3. 卡方(χ^2)分布(Chi-Square distribution)
卡方分布又是怎么来的呢?χ^2的符号就是“卡方分布”的缩写记号而已,相当于一般函数的记号f(x)一样,不能把它当作x^2!之所以卡方分布的符号记成平方的形式,是由于卡方分布的由来与平方有关,试看它的定义:
设X~N(0,1), x_1, x_2,…,x_n是总体X抽取的随机样本,则〖x_1〗^2+〖x_2〗^2+⋯+〖x_n〗^2是服从以n为自由度的χ^2分布,记作χ^2 ~〖χ^2〗_((n)),自由度df=n.(自由度(degreeof freedom,df)就是所有类别中可以自由改变的类别数,在卡方分布中这n个样本数据都是可以自由更换的,只要它们是来自N(0,1)总体就可以了。)
由此可知,卡方分布就是n项标准正态分布中抽出来的样本数据的平方和的分布特征,它的密度函数为:
函数图像如下图所示其中横坐标表示卡方函数的取值x,,纵坐标表示x所对应的p(x)概率大小,概率密度图像与横坐标围成的面积之和为1。卡方分布是一个正偏态分布(一般看函数图像均值偏向小的一边为正,偏向大的一边为负)。随着每次抽取的随机变量X的个数不同,其分布的形状会发生变化,n越小,分布偏斜;n越大,则会越接近于正态分布;当自由度n趋向无穷时,卡方分布即为正态分布。到此可见,无论是均值分布还是卡方分布,其图像都与正态分布存在着千丝万缕的联系。
由于卡方分布密度函数计算比较复杂,因而人们编制了χ^2分布表,表中列出了χ^2变量在不同自由度下的临界值(单侧) [如果是双侧检验,为了便于记忆,则记一边为,另一边为,因为它的函数图像并不对称,因此不能将两边阴影部分的面积都当成是α/2]。卡方分布多用于卡方检验,这部分内容将在后面学习非参数假设检验的时候进行深入介绍,目前需要掌握的就是能看懂卡方分布表,以及了解卡方统计量如何构造:如果样本数据来自(标准)正态分布,则计算这些数据平方和的方法就可以视为一个卡方统计量。
例如,当对总体方差进行估计区间估计时。
如有兴趣了解更多,还可访问
https://www.statisticshowto.datasciencecentral.com/probability-and-statistics/chi-square/
4. t分布(t-distribution)
从卡方分布开始,我们就是通过构造统计量,从而得到相应的分布规律;同样的,t分布的产生也是如此。结合参数估计的实际应用,对于t分布的由来,我更想将其与参数估计联系在一起。
由前面的u分布可知,当总体方差σ^2未知时,要对总体的均值u进行估计,就需要利用u分布的基本性质,利用标准正态分布的转化方法构造出统计量 Z=(X ̅-μ)/(σ⁄√n),从而可以得到对总体均值进行区间估计的方法。
而如果总体方差σ^2未知,同样要对总体的均值μ进行估计,那么又应该如何解决这个问题呢?我们看到,(X ̅-μ)/(σ⁄√n)表达式中的σ此时也变成了未知,则没办法直接继续使用上一种情况的方法构造出统计量,但是我们又知道,样本的方差的调整值 S_(n-1)^2可以看成总体方差的一个无偏估计,那么就可以用这个无偏估计值来取代上一种情况统计量中的σ,即(X ̅-μ)/(S⁄√n),这样一来,我们就引出了t分布统计量的基本形式:T分布在后面的假设检验中将扮演关键的作用,如相关样本的 t检验、独立样本 t检验中都是对 t分布的实际应用。
如有兴趣了解更多,还可访问
https://www.statisticshowto.datasciencecentral.com/probability-and-statistics/t-test/
5. F分布( F-distribution)
对于F分布,目前只要知道它的基本定义以及会查 F分布表就可以了。
如有兴趣了解更多,还可访问
https://www.thoughtco.com/f-distribution-3126583
由于编辑时间仓促,疏漏之处在所难免,如发现问题,欢迎批评指正!
参考文献:
张敏强. 教育与心理统计学[M].北京:人民教育出版社,2010,11: 105-133.
刘新平 等. 教育统计与测评导论[M].北京:科学出版社,2013,11: 43-60.
[美]亚瑟∙阿伦 等著,方双虎 等译. 心理统计学(第5版)[M].北京:中国人民大学出版社,2017,10:98-124.