方差分析练习题
练习学习笔记:
(1)
标准差和标准偏差、均方差是一个东西。标准误差和标准误是一个东西。这两个东西有区别。
(2)单因素方差分析(MATLAB求解)
(3)使用anova1进行单因素方差分析时,要考虑数据是均衡数据还是不均衡数据。所谓均衡就是要求不同的组别内的统计数据个数必须相同,不均衡反之。如果是均衡数据的话,直接在函数里传入要分析的数据就可以了,但如果是不均衡数据的话,还要加入一个参数,这个参数用来给分析的数据贴上标签,告诉计算机每个数据是属于哪个标签的数据。
例如:对于以下单因素不均衡数据进行方差分析
组一(st):82 86 79 83 84 85 86 87
组二(al1):74 82 78 75 76 77
组三(al2):79 79 77 78 82 79
>> strength = [82 86 79 83 84 85 86 87 74 82 78 75 76 77 79 79 77 78 82 79];
>> alloy = {'st','st','st','st','st','st','st','st','al1','al1','al1','al1','al1','al1','al2','al2','al2','al2','al2','al2'};
>> p = anova1(strength,alloy)
(4)探究不同因素的在不同水平的表现是否有显著差异和探究因素对于某一变量是否有显著影响是两个问题
(5)到底是p<0.05还是p<α才是有显著性差异????????是否符合正态分布,判断因素对于一个元是否有显著性影响(判断因素不同水平在同一变量上的数据是否有显著性差异),判断不同因素在同一元上是否有显著性影响,以及判断不同因素在同一元上是否具有交互效应。是否都是通过判断p和α的大小?????我在知乎上看见了一篇非常值得借鉴的文章以及对话,分享给大家
方差分析(ANOVA)分类、应用举例及matlab代码 - 知乎 (zhihu.com)
题目
解答过程
- 进行单因素方差分析:检验四种广告方式下销售量数据是否服从正态分布方差是否相等; 检验四种广告方式下的销售量是否有显著差异(a = 0.01 );若四广告方式下的销售量有显著差异,指出哪些类型的广告效果有显著的不同?
1.1判断四种广告方式下销售量数据是否符合服从正态分布,方差是否相等。
方法一:利用SPSS进行解题
图1
图2
图3
由图1、2、3显示的数据得到,这四种广告形式都服从正态分布,因为显著性都大于α(0.01)。且可看出这四种方式的方差不相等。
方法二:matlab的lillietest()函数
h = 0可以认为数据服从正态分布,h=1则认为不服从正态分布
p >α(0.01)可以认为接受原假设h = 0,则数据服从正态分布
代码:
x=xlsread('表格路径')for i=1:size(x,2)[h,p] = lillietest(x(:,i))end
结果:
h1 = 0
p1 = 0.136174630346454
h2 = 0
p2 = 0.413487427029479
h3 = 0
p3 = 0.240288230148084
h4 = 0
p4 = 0.440277544446158
结果表明四种广告方式下销售量的数据都符合正态分布
1.2判断显著差异,使用MATLAB的anova1()函数进行分析
代码如图4
导入表格的数据每一列数据对应以下四种广告
图4
图5
图6
图7
图8
对于anova1()函数输出的表的解读,如图9
图9
如果p值比α要小,那么认为具有显著性差异。图9中的α是以0.05为例进行讲解的。
最终可以通过判断p值判断是否有显著性差异,p<α那么差异是显著的,p<α那么差异是高度显著的,p>α可以认为没有显著性差异。一种方法是直接看p值(F)的信息。另一种方法是比较F真实值和F查表值的大小关系,n是总体 的df,m是列的df。n是143,m是3,可以查表得到F查表值是3.926,因为F查表值<F真实值=13.48,则认为四种广告方式下的销售量有显著性差异。通过图5和图7可以看出,最后一种类型的广告效果是有显著的不同的。
- 在设计广告效果的试验时,虽然地区差异对销售量的影响并不是我们感兴趣的,但希望排除这一因素的影响。数据集 ADS 记录了各个销售点所在的地区 AREA试用双因素方差分析方法分析销售数据,并指出广告方式和地区对销售量是否有显著影响(a=0.01,0.1)? 广告方式(AD)与地区(AREA)之间有无交互效应?
解题:使用matlab的anova2(x,reps)函数,x为要分析的数据,行数必须为reps的倍数。X的不同行是一个因素的不同水平,X的不同列是另外一个因素的不同水平的数据
anova2函数是用来进行双因素一元方差分析的,也就是分析两个因素在同一元上的数据。同样也是通过判断p值来确定不同因素在数据上是否有显著性差异以及不同的因素是否有交互影响。我分析的数据中,行是不同的广告方式,列是不同的地区。代码运行结果如图11,可知,在α=0.01的情况下,地区对销售量没有显著性影响,而广告方式具有,且二者交互效应不显著。在α=0.1的情况下,地区对销售量没有影响,而广告方式具有,且二者交互效应不显著。
代码如图10
图10
图11