方差分析实例

目录

方差分析步骤

相关概念

基本思想

随机误差

系统误差

组内方差

组间方差

方差的比较

方差分析的前提

1.每个总体都应服从正态分布

2.各个总体的方差必须相同

3.观察值是独立的

原假设成立

备择假设成立

单因素方差分析

提出假设

检验的统计量

水平的均值

全部观察值的总均值

总误差平方和SST

水平项平方和 SSA

误差项平方和 SSE

平方和之间的关系

各自自由度

均方(MS)

F统计量

方差分析表

实例

方差分析中的多重比较

LSD方法

实例颜色对销售额的影响

多因素方差分析

无交互效应的多因素方差分析

有交互效应的多因素方差分析

双因素方差分析步骤

提出假设

构造统计量

实例

提出假设

计算各平方和

计算均方

计算检验统计量(F)

Python方差分析实例


方差分析的基本思想是将总体方差(反映了所有样本的变异程度)分解为组间方差(反映了不同样本均值之间的差异)和组内方差(反映了相同样本内观测值的变异)。如果组间方差远大于组内方差,说明各样本均值之间差异显著;反之,差异不显著。

方差分析步骤

  1. 建立假设:首先,我们需要提出一个原假设和备择假设。原假设通常假设所有样本的均值相等,备择假设则假设至少有一组样本的均值不相等。

  2. 计算方差:通过使用样本数据,计算每个样本的平均值和总体平均值,并计算组间方差和组内方差。

  3. 计算统计量:计算统计量F值,它是组间方差与组内方差的比值,反映了组间与组内变异的相对大小。

  4. 确定临界值:根据显著性水平(通常为0.05或0.01),查找F分布表格或使用统计软件,确定F值对应的临界值。

  5. 假设检验:比较计算得到的F值和临界值。如果计算得到的F值大于临界值,则可以拒绝原假设,认为样本均值差异显著;反之,不能拒绝原假设,认为样本均值无显著差异。

相关概念

  • 因素或因子(factor):所要检验的对象,要分析行业对投诉次数是否有影响,行业是要检验的因素或因子
  • 水平或处理(treatment):因素的不同表现,即每个自变量的不同取值称为因素的水平
  • 观察值:在每个因素水平下得到的样本值,每个行业被投诉的次数就是观察值
  • 试验:这里只涉及一个因素,因此称为单因素四水平的试验
  • 总体:因素的每一个水平可以看作是一个总体,比如零售业、旅游业、航空公司、家电制造业可以看作是四个总体
  • 样本数据:被投诉次数可以看作是从这四个总体中抽取的样本数据

基本思想

  • 比较两类误差,以检验均值是否相等
  • 比较的基础是方差比
  • 如果系统(处理)误差显著地不同于随机误差,则均值就是不相等的;反之,均值就是相等的
随机误差
  • 因素的同一水平(总体)下,样本各观察值之间的差异

  • 比如,同一行业下不同企业被投诉次数是不同的

  • 这种差异可以看成是随机因素的影响,称为随机误差

系统误差
  • 因素的不同水平(不同总体)下,各观察值之间的差异
  • 比如,不同行业之间的被投诉次数之间的差异
  • 这种差异可能是由于抽样的随机性所造成的,也可能是由于行业本身所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差
组内方差
  • 因素的同一水平(同一个总体)下样本数据的方差
  • 比如,零售业被投诉次数的方差
  • 组内方差只包含随机误差
组间方差
  • 因素的不同水平(不同总体)下各样本之间的方差
  • 比如,四个行业被投诉次数之间的方差
  • 组间方差既包括随机误差,也包括系统误差

方差的比较

  • 若不同行业对投诉次数没有影响,则组间误差中只包含随机误差,没有系统误差。这时,组间误差与组内误差经过平均后的数值就应该很接近,它们的比值就会接近1

  • 若不同行业对投诉次数有影响,在组间误差中除了包含随机误差外,还会包含有系统误差,这时组间误差平均后的数值就会大于组内误差平均后的数值,它们之间的比值就会大于1

  • 这个比值大到某种程度时,就可以说不同水平之间存在着显著差异,也就是自变量对因变量有影响

  • 判断行业对投诉次数是否有显著影响,实际上也就是检验被投诉次数的差异主要是由于什么原因所引起的。如果这种差异主要是系统误差,说明不同行业对投诉次数有显著影响

方差分析的前提

1.每个总体都应服从正态分布
  • 对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本
  • 比如,每个行业被投诉的次数必需服从正态分布
2.各个总体的方差必须相同
  • 各组观察数据是从具有相同方差的总体中抽取的
  • 比如,四个行业被投诉次数的方差都相等
3.观察值是独立的
  • 比如,每个行业被投诉的次数与其他行业被投诉的次数独立

在上述假定条件下,判断行业对投诉次数是否有显著影响,实际上也就是检验具有同方差的四个正态总体的均值是否相等

原假设成立

即H0: μ1 = μ2 = μ3 = μ4

四个行业被投诉次数的均值都相等意味着每个样本都来自均值为μ、方差为σ^2的同一正态总体

备择假设成立

即H1: μ1 μ2 μ3 μ4 不完全相等

至少有一个总体的均值是不同的,四个样本分别来自均值不同的四个正态总体

单因素方差分析

模型中有一个自变量(因素)和一个观测变量,就是关于在一个影响因素的不同水平下,观测变量均值差异的显著性检验。

提出假设
  • H0: μ1 = μ2 = 。。。 =μk ,自变量对因变量没有显著影响
  • 即H1: μ1 μ2 。。。μ4 不完全相等, 自变量对因变量有显著影响

拒绝原假设,只表明至少有两个总体的均值不相等,并不意味着所有的均值都不相等

检验的统计量
水平的均值

假定从第i个总体中抽取一个容量为ni的简单随机样本,第i个总体的样本均值为该样本的全部观察值总和除以观察值的个数。

全部观察值的总均值

全部观察值的总和除以观察值的总个数

总误差平方和SST

全部观察值与总平均值的离差平方和,反映全部观察值的离散状况

水平项平方和 SSA

各组平均值与总平均值的离差平方和,反映各总体的样本均值之间的差异程度,又称组间平方和,该平方和既包括随机误差,也包括系统误差。

误差项平方和 SSE

每个水平或组的各样本数据与其组平均值的离差平方和,反映每个样本各观察值的离散状况,又称组内平方和,该平方和反映的是随机误差的大小。

平方和之间的关系

总离差平方和(SST)、误差项离差平方和(SSE)、水平项离差平方和 (SSA) 之间的关系。

SST反映全部数据总的误差程度;SSE反映随机误差的大小;SSA反映随机误差和系统误差的大小。

如果原假设成立,则表明没有系统误差,组间平方和SSA除以自由度后的均方与组内平方和SSE和除以自由度后的均方差异就不会太大;如果组间均方显著地大于组内均方,说明各水平(总体)之间的差异不仅有随机误差,还有系统误差,判断因素的水平是否对其观察值有影响,实际上就是比较组间方差与组内方差之间差异的大小

各自自由度
  • SST 的自由度为n-1,其中n为全部观察值的个数

  • SSA的自由度为k-1,其中k为因素水平(总体)的个数

  • SSE 的自由度为n-k

均方(MS)

各误差平方和的大小与观察值的多少有关,为消除观察值多少对误差平方和大小的影响,需要将其平均,这就是均方,也称为方差,计算方法是用误差平方和除以相应的自由度。

F统计量

将MSA(组间方差,SSA的均方,记为MSA)和MSE(组内方差,SSE的均方,记为MSE)进行对比,即得到所需要的检验统计量F。

根据给定的显著性水平,在F分布表中查找与第一自由度df1=k-1、第二自由度df2=n-k 相应的临界值

  • 若F>Fα ,则拒绝原假设H0 ,表明均值之间的差异是显著的,所检验的因素对观察值有显著影响
  • 若F<Fα ,则不拒绝原假设H0 ,不能认为所检验的因素对观察值有显著影响
方差分析表

实例

在评价某药物耐受性及安全性的I期临床试验中,对符合纳入标准的30名健康自愿者随机分为3组每组10名,各组注射剂量分别为0.5U、1U、2U,观察48小时部分凝血活酶时间(s)试问不同剂量的部分凝血活酶时间有无不同?

提出假设: H0:μ1=μ2=μ3 H1:μ1,μ2,μ3不全相同 显著水平a=0.05

F0.05(2,26) =2.52,F>F0.05(2,26) ,P<0.05

拒绝 H0。 三种不同剂量48小时部分凝血活酶时间不全相同。

方差分析中的多重比较

  • 通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异

  • 可采用Fisher提出的最小显著差异方法,简写为LSD

  • LSD方法是对检验两个总体均值是否相等的t检验方法的总体方差估计而得到的

LSD方法

对k组中的两组的平均数进行比较,当两组样本容量分别为ni,nj都为时,有

实例颜色对销售额的影响

多因素方差分析

主效应与交互效应

  • 主效应(main effect):各个因素对观测变量的单独影响称为主效应。
  • 交互效应(interaction effect):各个因素不同水平的搭配所产生的新的影响称为交互效应。

双因素方差分析的类型

  • 双因素方差分析中因素A和B对结果的影响相互独立时称为无交互效应的双因素方差分析。
  • 如果除了A和B对结果的单独影响外还存在交互效应,这时的双因素方差分析称为有交互效应的双因素方差分析 。
无交互效应的多因素方差分析

离差平方和的分解:

有交互效应的多因素方差分析

离差平方和的分解:

双因素方差分析步骤
提出假设
  • 要说明因素A有无显著影响,就是检验如下假设:

H0:因素A不同水平下观测变量的总体均值无显著差异。

H1:因素A不同水平下观测变量的总体均值存在显著差异。

  • 要说明因素B有无显著影响,就是检验如下假设:

H0:因素B不同水平下观测变量的总体均值无显著差异。

H1:因素B不同水平下观测变量的总体均值存在显著差异。

  • 在有交互效应的双因素方差中,要说明两个因素的交互效应是否显著,还要检验第三组零假设和备择假设:

H0:因素A和因素B的交互效应对观测变量的总体均值无显著差异。

H1:因素A和因素B的交互效应对观测变量的总体均值存在显著差异。

构造统计量

在原假设成立的情况下,三个统计量分别服从自由度为(r-1,rs(m-1))、(s-1,rs(m-1))、((r-1)(s-1),rs(m-1))的F分布。

利用原假设和样本数据分别计算3个F统计量的值和其对应的p值,对比p值和α,结合原假设作出推断。若p<α,则拒绝关于这个因素的原假设,得出此因素不同水平下观测变量各总体均值存在显著差异的结论。

实例

有四个品牌的彩电在五个地区销售,为分析彩电的品牌(品牌因素)和销售地区(地区因素)对销售量是否有影响,对每个品牌在各地区的销售量取得以下数据。试分析品牌和销售地区对彩电的销售量是否有显著影响?(α=0.05)

提出假设
  • 对行因素提出的假设为:

H0: μ1 = μ2 = … = μi = …= μk (μi为第i个水平的均值) H1: μi (i =1,2, … , k) 不全相等

  • 对列因素提出的假设为:

H0: μ1 = μ2 = … = μj = …= μr (mj为第j个水平的均值) H1: μj (j =1,2,…,r) 不全相等

计算各平方和

计算均方

误差平方和除以相应的自由度

  • 总离差平方和SST的自由度为 kr-1
  • 行因素的离差平方和SSR的自由度为 k-1
  • 列因素的离差平方和SSC的自由度为 r-1
  • 随机误差平方和SSE的自由度为 (k-1)×(r-1)
计算检验统计量(F)

FA=18.10777>Fα=3.4903,拒绝原假设H0,说明彩电的品牌对销售量有显著影响

FB=2.100846< Fα=3.2592,接受原假设H0,说明销售地区对彩电的销售量没有显著影响

Python方差分析实例

单因素方差分析

# 3个城市不同用户评分
# 原假设 H0没有显著影响
# 备择假设 H1有显著影响
from scipy.stats import f_oneway
a = [10,9,9,8,8,7,7,8,8,9]        
b = [10,8,9,8,7,7,7,8,9,9]  
c = [9,9,8,8,8,7,6,9,8,9] 
f,p = f_oneway(a,b,c)
print(f)
print(p)# 0.10150375939849626
# 0.9038208903685354
# 不能认为所检验的因素对观察值有显著影响

多因素方差分析

# 多因素方差分析
# 2个因素:环境等级,食材等级
from scipy import stats
import pandas as pd
import numpy as np
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lmenvironmental =  [5,5,5,5,5,4,4,4,4,4,3,3,3,3,3,2,2,2,2,2,1,1,1,1,1]       
ingredients  = [5,4,3,2,1,5,4,3,2,1,5,4,3,2,1,5,4,3,2,1,5,4,3,2,1]    
score = [5,5,4,3,2,5,4,4,3,2,4,4,3,3,2,4,3,2,2,2,3,3,3,2,1]  data = {'E':environmental,'I':ingredients,'S':score}
df = pd.DataFrame(data)
df.head()
formula = 'S~E+I+E:I'
model = ols(formula,df).fit()
results = anova_lm(model)
print(results)
# E和I对结果有显著影响,之间并无交互

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/227260.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于JSP+Servlet+Mysql的建设工程监管信息

基于JSPServletMysql的建设工程监管信息 一、系统介绍二、功能展示1.企业信息列表2.录入项目信息3.项目信息列表 四、其它1.其他系统实现五.获取源码 一、系统介绍 项目名称&#xff1a;基于JSPServlet的建设工程监管信息 项目架构&#xff1a;B/S架构 开发语言&#xff1a;…

漏刻有时数据可视化Echarts组件开发(44)提示框组件与返回多边形

CSS样式表 #lock_box {padding: 0;margin: 0;height: 100%;width: 100%;}.tipsBox {background: transparent url("images/tipsbg.png") top center no-repeat;width: 260px;height: 203px;box-shadow: none;}.tipsBox > p:first-child {padding-left: 35px;font…

git的安装及使用

git的安装及使用 git的安装 官网地址&#xff1a;https://git-scm.com/download/win 在任何位置输入bash或sh,进入git 设置用户名邮箱。 git config --global user.name “wfyfly” git config --global user.email 2423217861qq.com 查看配置信息 git config --list --globa…

C++核心编程思路(1):①程序的内存模型②引用的作用

文章目录 前言一、不同的存储类型变量&#xff0c;会被存储在什么区&#xff1f;①const修饰的局部变量放在栈区&#xff0c;全局变量放在只读数据区。②static修饰的全局和局部变量都放在静态区&#xff08;即数据区中的一个小区&#xff09; 二、栈区1.如果在函数A中定义了一…

2019年AMC8数学竞赛真题的典型考点和详细解析

从战争中学习战争。 对于2024年1月19日的AMC8竞赛&#xff0c;最后一个月的时间如何备考和冲刺取得更好的成绩&#xff1f;很多高分考生的经验是刷真题&#xff0c;查漏补缺。那么如何提高刷真题的效率呢&#xff1f;使用六分成长独家制作的在线真题集练习是个不错的方式&…

基于linux系统的Tomcat+Mysql+Jdk环境搭建(四)linux安装Mysql

1.切换到你需要安装mysql的路径 cd /root/usr/ 2.在线安装 安装网上的安装方式都有很多&#xff0c;可以自己百度一下 我们这里是自己搭建测试环境&#xff0c;可以直接选择在线安装&#xff0c;命令如下&#xff1a;yum install mysql-server&#xff0c; 但是我失败了 ┭┮…

【C++11特性篇】C++11中新增的initializer_list——初始化的小利器(2)

前言 大家好吖&#xff0c;欢迎来到 YY 滴C11系列 &#xff0c;热烈欢迎&#xff01; 本章主要内容面向接触过C的老铁 主要内容含&#xff1a; 欢迎订阅 YY滴C专栏&#xff01;更多干货持续更新&#xff01;以下是传送门&#xff01; 目录 一.探究std::initializer_list是什么…

【MySQL】SQL通用语法 、介绍SQL分类

SQL通用语法 1.SQL语句可以单行或多行书写&#xff0c;以分号结尾 2.MySQL数据库的SQL语句不区分大小写&#xff0c;关键字建议使用大写。 3.注释&#xff1a; 单行注释&#xff1a; -- 或 # 多行注释: /* */ SQL分类 SQL分类主要分为4类 分别是 DDL DML DQL DCL

谷歌浏览器标签页显示内存使用率

Chrome 桌面浏览器的新更新现在可让您查看每个标签页占用了多少内存&#xff0c;这可以帮助您确定哪些标签页占用了多少内存&#xff0c;网站正在减慢您笔记本电脑的速度。 今年早些时候在 Google Chrome 中引入内存节省程序之后&#xff0c;Google 又发布了一项功能&#xff…

论文阅读:PointCLIP V2: Prompting CLIP and GPT for Powerful3D Open-world Learning

https://arxiv.org/abs/2211.11682 0 Abstract 大规模的预训练模型在视觉和语言任务的开放世界中都表现出了良好的表现。然而&#xff0c;它们在三维点云上的传输能力仍然有限&#xff0c;仅局限于分类任务。在本文中&#xff0c;我们首先协作CLIP和GPT成为一个统一的3D开放世…

科大讯飞(深圳)测开面试真题

一面&#xff08;测试组长面&#xff09; 1、上家公司项目以及团队的规模是怎么样的&#xff1f; 2、你负责的项目整体的流程是怎么样的&#xff1f; 3、自动化实施过程中&#xff0c;是如何和业务测试进行沟通的&#xff1f; 4、在上家公司你已经是专职做自动化了&#xf…

医药行业的数据安全革新者:上海迅软DSE成功案例揭秘

随着网络化办公在医药企业中不断的深入应用&#xff0c;企业内部的药品保密配方、研发成果、技术资料等重要信息都散布在电脑或流转于网络之中&#xff0c;同时各种内部系统又集中存放着大量的敏感数据&#xff0c;一旦这些数据资产发生泄密&#xff0c;将对企业的持续运营造成…

基础IO --- 下

目录 1. 理解文件系统中inode的概念 1.1. 了解磁盘 1.1.1. 认识磁盘 1.1.2. 磁盘的物理结构 1.1.3. 简单了解磁盘如何读写数据的 1.1.4. 磁头和盘面没有物理上的接触 1.1.5. 扇区的了解 1.1.6. 如何在物理上找到一个具体的扇区 1.2. 站在OS的角度看待磁盘 1.2.1. …

OSG中几何体的绘制(一)

本章主要介绍一些几何体的绘制方法。绘制几何体在场景中是非常常见的&#xff0c;也是最基本的。在很多应用程序中可以看到相当复杂的场景&#xff0c;但不管场景有多复杂&#xff0c;它们都是由少数几个基本的图形元素构建而成的。只要想想达芬奇那些伟大的作品也是由铅笔和画…

leetcode上升的温度再复习-笛卡尔积(交叉连接)-日期加减函数

重新做上升的温度这一题的时候&#xff0c;看到之前很多的题解&#xff0c;这里结合一些题解看看有什么能学到的&#xff0c;其实这一题我现在返回来看&#xff0c;刚开始看依旧没有思路&#xff0c;还是看了题解才有想法。 理一下学习的思路:这一题就是需要通过连接解题&…

Docker部署wordpress和Jenkins

准备机器&#xff1a; 192.168.58.151 &#xff08;关闭防火墙和selinux&#xff09; 安装好docker服务 &#xff08;详细参照&#xff1a;http://t.csdnimg.cn/usG0s 中的国内源安装docker&#xff09; 部署wordpress: 创建目录&#xff1a; [rootdocker ~]# mkdi…

Unity 使用Input.GetAxis(“Horizontal/Vertical“)移动鼠标没反应的原因

在Unity中&#xff0c;当我们使用Input.GetAxis("Horizontal")和Input.GetAxis("Vertical")通过鼠标移动的返回数值以控制物体移动或其它操作时&#xff0c;却没有反应&#xff0c;令人费解。 首先我们获取返回数值并打印&#xff1a; float horizontal …

TensorFlow神经网络中间层的可视化

TensorFlow神经网络中间层的可视化 TensorFlow神经网络中间层的可视化1. 训练网络并保存为.h5文件2. 通过.h5文件导入网络3. 可视化网络中间层结果&#xff08;1&#xff09;索引取层可视化&#xff08;2&#xff09;通过名字取层可视化 TensorFlow神经网络中间层的可视化 1. …

Redis系列之简单实现watchDog自动续期机制

在分布锁的实际使用中&#xff0c;可能会遇到一种情况&#xff0c;一个业务执行时间很长&#xff0c;已经超过redis加锁的时间&#xff0c;也就是锁已经释放了&#xff0c;但是业务还没执行完成&#xff0c;这时候其它线程还是可以获取锁&#xff0c;那就没保证线程安全 项目环…

完美解决labelimg xml转可视化中文乱码问题,不用matplotlib

背景简述 我们有一批标注项目要转可视化&#xff0c;因为之前没有做过&#xff0c;然后网上随意找了一段代码测试完美&#xff08;并没有&#xff09;搞定&#xff0c;开始疯狂标注&#xff0c;当真正要转的时候傻眼了&#xff0c;因为测试的时候用的是英文标签&#xff0c;实…