实验目的:
掌握列联表检验(Pearson c2独立性检验),掌握Fisher精确独立性检验,初步掌握三维列联表条件独立性检验;
掌握三个相关性检验:Pearson相关性检验,Spearman秩相关检验,Kendall秩相关检验。
实验内容:
(习题6.11)在高中一年级男生中抽取300名考察其两个属性:B是1500米长跑,C是每天平均锻炼时间,得到4 × 3列联表,如下表所示。试对 a = 0.05,检验B与C是否独立。
300名高中学生体育锻炼的考察结果
1500 米 长跑记录 | 锻炼时间 | 合计 | ||
2小时以上 | 1〜2小时 | 1小时以下 | ||
5"01'〜5"30' | 45 | 12 | 10 | 67 |
5"31'〜6"00' | 46 | 20 | 28 | 94 |
6"01'〜6"30' | 28 | 23 | 30 | 81 |
6"31'〜7"00' | 11 | 12 | 35 | 58 |
合计 | 130 | 67 | 103 | 300 |
解:提出假设:
H0:1500米长跑纪录与锻炼时间相互独立
H1:1500米长跑纪录与锻炼时间相关
源代码及运行结果:(复制到此处,不要截图)
> x<-c(45,12,10,46,20,28,28,23,30,11,12,35)> y<-matrix(x,nc=3,byrow = T)> chisq.test(y)
Pearson's Chi-squared test
data: y
X-squared = 40.401, df = 6, p-value = 3.799e-07
结论:P值远小于0.05,拒绝原假设,即1500米长跑记录与锻炼时间相关。
(习题6.12)为研究分娩过程中使用胎儿电子监测仪对剖腹产率有无影响,对5824例分娩的经产妇进行回顾性调查,结果如下表所示,试进行分析。
5824例经产妇回顾性调查结果
剖腹产 | 胎儿电子监测仪 | 合计 | |
使用 | 未使用 | ||
是 | 358 | 229 | 587 |
否 | 2492 | 2745 | 5237 |
合计 | 2850 | 2974 | 5824 |
解:提出假设:
H0:分娩过程中使用胎儿电子监测仪对剖腹产率无影响
H1:分娩过程中使用胎儿电子监测仪对剖腹产率有影响
源代码及运行结果:(复制到此处,不要截图)
> a<-c(358,229,2492,2745)> b<-matrix(a,nc=2,byrow = T)> chisq.test(b)
Pearson's Chi-squared test with Yates' continuity
correction
data: b
X-squared = 37.414, df = 1, p-value = 9.552e-10
结论:P值远小于0.05,拒绝原假设,即分娩过程中使用胎儿电子监测仪对剖腹产率有影响。
(习题6.13)为比较两种工艺对产品的质量是否有影响,对其产品进行抽样检查,其结果如下表所示。试进行分析。
两种工艺下产品质量的抽查结果
合格 | 不合格 | 合计 | |
工艺一 | 3 | 4 | 7 |
工艺二 | 6 | 4 | 10 |
合计 | 9 | 8 | 17 |
解:提出假设:
H0:两种工艺与产品的质量相互对立
H1:两种工艺与产品的质量相关
源代码及运行结果:(复制到此处,不要截图)
> c<-c(3,4,6,4)> d<-matrix(c,nc=2,byrow = T)> fisher.test(d)
Fisher's Exact Test for Count Data
data: d
p-value = 0.6372
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.04624382 5.13272210
sample estimates:
odds ratio
0.521271
结论:P值(=0.637)>0.05,接受原假设,即两种工艺与产品的质量无相关性。
(习题6.14)一所大学去年收到 21 位男生和 63 位女生的求职信,结果聘用了 10 位男生和 14位女生 (1) 分析这所大学在招聘方面是否存在性别差异;(2) 根据学院详细分类数据如下表所示,再研究该大学在招聘方面是否存在性别差异。
某大学去年的招聘情况
申请者 | 教育学院 | 管理学院 | 工程学院 | |||
被聘 | 被拒 | 被聘 | 被拒 | 被聘 | 被拒 | |
男性 | 2 | 8 | 5 | 0 | 3 | 3 |
女性 | 12 | 48 | 1 | 0 | 1 | 1 |
解:
(1)提出假设:
H0:这所大学在招聘方面没有存在性别差异
H1:这所大学在招聘方面存在性别差异
源代码及运行结果:(复制到此处,不要截图)
> r<-matrix(c(10,11,14,49),nc=2,byrow = T)> chisq.test(r)
Pearson's Chi-squared test with Yates' continuity
correction
data: r
X-squared = 3.8111, df = 1, p-value = 0.05091
结论:P值为0.0509接近0.05,这意味着存在一些证据表明这所大学在招聘方面存在性别差异,但结果并不十分显著。
(2)提出假设:
H0:这所大学在招聘方面没有存在性别差异
H1:这所大学在招聘方面存在性别差异
源代码及运行结果:(复制到此处,不要截图)
> r<-array(c(2,12,8,48,5,1,0,0,3,1,3,1),dim = c(2,2,3))> mantelhaen.test(r)
Mantel-Haenszel chi-squared test without continuity
correction
data: r
Mantel-Haenszel X-squared = 0, df = 1, p-value = 1
alternative hypothesis: true common odds ratio is not equal to 1
95 percent confidence interval:
0.2269314 4.4066187
sample estimates:
common odds ratio
结论:P值>0.05,接受原假设,即这所大学在招聘方面没有存在性别差异
(习题6.15)下表(数据存放在 score.data 文件中)列出某高中 18 名学生某门课程的高考成绩和模拟考试成绩,这组数据能否说明高考成绩与模拟考试成绩是相关的?
高考成绩和模拟考试成绩
学号 | 高考 | 模考 | 学号 | 高考 | 模考 | 学号 | 高考 | 模考 |
1 | 87 | 90 | 7 | 78 | 65 | 13 | 90 | 100 |
2 | 76 | 98 | 8 | 91 | 90 | 14 | 92 | 97 |
3 | 77 | 92 | 9 | 76 | 84 | 15 | 100 | 97 |
4 | 85 | 87 | 10 | 100 | 92 | 16 | 100 | 95 |
5 | 89 | 87 | 11 | 96 | 100 | 17 | 90 | 94 |
6 | 83 | 62 | 12 | 96 | 98 | 18 | 99 | 100 |
提示:显然应该优先考虑Pearson相关检验。但用Pearson相关检验,必须先进行正态性检验。严格来说,应该检验两个总体的联合分布是否服从正态分布(可利用第三方程序包,如vmnormtest程序包中的mshapiro.test()函数),但在实际使用时,通常是分别对两个总体单独进行正态性检验。如果不符合正态性,改用Spearman相关检验。
解:(1)正态性检验
提出假设:
H0:两个总体的联合分布服从正态性分布
H1:两个总体的联合分布不服从正态性分布
源代码及运行结果:(复制到此处,不要截图)
> X <- read.table("C:/Users/黄培滇/Desktop/R语言生物统计学/chap06/score.data", header = TRUE)
> shapiro.test(X$高考)
Shapiro-Wilk normality test
data: X$高考
W = 0.91202, p-value = 0.0934
> shapiro.test(X$模拟)
Shapiro-Wilk normality test
data: X$模拟
W = 0.77174, p-value = 0.0006223
结论:高考P值大于0.05,接受原假设,即高考成绩服从正态分布,但模拟P值远小于0.05,拒绝原假设,即模拟成绩不服从正态分布,因此总体联合不服从正态分布
(2)相关检验
提出假设:
H0:高考成绩与模拟考试成绩相互独立
H1:高考成绩与模拟考试成绩相关
源代码及运行结果:(复制到此处,不要截图)
> X <- read.table("C:/Users/黄培滇/Desktop/R语言生物统计学/chap06/score.data", header = TRUE)> cor.test(X$高考,X$模拟,method = "spearman")
Spearman's rank correlation rho
data: X$高考 and X$模拟
S = 462.82, p-value = 0.02615
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho
0.5223728
结论:P值远小于0.05,拒绝原假设,即高考成绩与模拟考成绩相关
(习题6.16)调查某大学学生每周学习时间与得分的平均等级之间的关系,现抽查10个学生的资料如下:
学习时间 | 24 | 17 | 20 | 41 | 52 | 23 | 46 | 18 | 15 | 29 |
学习等级 | 8 | 1 | 4 | 7 | 9 | 5 | 10 | 3 | 2 | 6 |
其中等级10表示最好,1表示最差。试用秩相关检验(Spearman检验和Kendall检验)分别分析学习时间与学习等级有无关系。
解:(1)用Spearman秩检验方法
提出假设:
H0:学习时间与学习等级相互独立
H1:学习时间与学习等级相关
源代码及运行结果:(复制到此处,不要截图)
> a<-c(24,17,20,41,52,23,46,18,15,29)> b<-c(8,1,4,7,9,5,10,3,2,6)> cor.test(a,b,method = "spearman")
Spearman's rank correlation rho
data: a and b
S = 10, p-value < 2.2e-16
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho
0.9393939
结论:P值远小于0.05,拒绝原假设,即学习时间与学习等级相关
(2)用Kendall秩检验方法
源代码及运行结果:(复制到此处,不要截图)
> a<-c(24,17,20,41,52,23,46,18,15,29)> b<-c(8,1,4,7,9,5,10,3,2,6)> cor.test(a,b,method = "kendall")
Kendall's rank correlation tau
data: a and b
T = 41, p-value = 0.0003577
alternative hypothesis: true tau is not equal to 0
sample estimates:
tau
0.8222222
结论:P值远小于0.05,拒绝原假设,即学习时间与学习等级相关
思考:
在对四格表的问题进行独立性检验时,Pearson c2统计量的自由度是多少?一般地,在对于I 行J 列的列联表进行独立性检验时,Pearson c2统计量的自由度是多少?
在对四格表的问题进行独立性检验时,Pearson c2统计量的自由度是1,在对于I 行J 列的列联表进行独立性检验时,Pearson c2统计量的自由度是(I-1)*(J-1)。
在样本数较小时(指单元的期望频数小于4),需要用__Fisher精确________检验来完成独立性检验,该检验是建立在____超几何分布________分布的基础上。在R软件中,做该检验的函数是__fisher.test()________。
Mantel - Haenszel 检验是针对一类特殊的三维列联表(2×2×k)设计的,在R软件中,做该检验的函数是____mantlhaen.test()___________。
相关性检验有哪三种方法?其中哪两种是非参数检验方法?
Pearson相关检验
Spearman相关检验
Kendall相关检验
两个样本的相关系数的绝对值越接近于1,能否说明两个样本所在的总体的相关性越强?为什么?
不能。相关系数的绝对值大小只能说明两个变量之间的线性关系程度,但不能说明相关性的强度。