第八章方差分析以及线性回归(1)

方差分析

 方差分析是由英国统计学家Fisher在20世纪20年代提出的。
 方差分析的目的是推断两个或者两个以上的总体均值是否有差异的显著性检验。

单因素方差分析

例子

 保险公司为了了解某一险种在4个不同地区索赔额情况是否存在差异。收集了四个地区一年的索赔额记录。这四个地区的索赔额有无显著性差异。
 这里写图片描述
 

概念

 试验指标:研究对象的特征值。例如:索赔额。
 因素:对试验指标产生影响的原因。例如:地区。
 水平:因素中各个不同状态称为水平。例如:A1、A2、A3、A4四个水平。
 单因素方差分析:仅考虑一个因素A对试验指标的影响。

检验假设

 我们假设有r个水平,每个水平下有nj个观察值,j=1,2...r,观察值总数为n
 Xij=μi+εij
 εij~N(0,σ2)
 j=1,2,...nii=1,2,...r
 ri=1ni=n
 X¯¯¯i.=1ninij=1Xij
 X¯¯¯=1nri=1nij=1Xij

原检验

 H0:μ1=μ2=....=μr
 H1:μ1,μ2...μr不全相等

检验假设的方法

 检验假设采用的方法是平方和分解法。
 总离差平方和ST: 表示数据中的差异。这种差异可以认为由两部分因素引起:因素A和随机误差。
 效应平方和SA: 表示由因素A引起的差异。
 误差平方和SE: 表示由随机误差所引起的差异。
 ST=ri=1nij=1(XijX¯¯¯)2
 SA=ri=1(X¯¯¯i.X¯¯¯)2 (又叫做组间差异)
 SE=1nri=1nij=1(XijX¯¯¯i.)2(又叫做组内差异)

选择统计量

 定理如下:
 ST=SA+SE
 
 SEσ2~卡方(n-r) 理由是:对于某一个水平i,nij=1(XijXi.)2是总体N(μi,σ2)的样本方差Sinj1倍,所以nij=1(XijXi.)2σ2~卡方(ni1)(参考链接);又因为各个水平之间相互独立,Xij相互独立,根据卡方分布的可加性,所以SEσ2~卡方(ri=1ni1);等价于最开始的表达式。

 E(SE)=(nr)σ2,可以参考参数估计(PDF版)的练习题。
 
 SESA(参考链接)
 
 当H0为真时,SAσ2~卡方(r-1) 理由是: SA=ri=1(X¯¯¯i.X¯¯¯)2是r个变量ni(X¯¯¯i.X¯¯¯)(i=1,2…r)的平方和,因为H0的假设使得它们之间有一个线性约束条件…..写不下去了,参考一下课本或者直接记住结论。
 最终使用的统计量F=SA/(r1)SE/(nr)~F(r-1,n-r)
 问题的拒绝域F=SA/(r1)SE/(nr)Fα(r1,nr),因为如果各个水平均值相同那么SA不应该太大。

查表计算

未知参数估计

 未知参数有σ2,μ1,μ2...
 σ^2=SEnr=MSE
 μi=X¯¯¯i.
 

两两对比

 比较N(μi,σ2)N(μj,σ2)是否有差异。可以使用区间估计或者假设检验。

区间估计

 E(X¯¯¯i.X¯¯¯j.)=μiμj
 D(X¯¯¯i.X¯¯¯j.)=σ2(1ni+1nj)=MSE(1ni+1nj)
 所以X¯¯¯i.X¯¯¯j.~N(μiμj,MSE(1ni+1nj)),参考以前可以知道置信区间是(X¯¯¯i.X¯¯¯j.±tα/2(nr)MSE(1/ni+1/nj))

假设检验

 H0:μi=μjH1:μiμj
 检验统计量 tij=X¯¯¯i.X¯¯¯j.MSE(1/ni+1/nj))
 当H0成立,tij~t(nr) (这里自由度为什么是n-r?)
 拒绝域 W=|tij|>tα/2(nr)

方差分析的条件

 进行方差分析的三个条件
 1独立性。数据来自r个总体的随机抽样。在实际使用中要注意试验数据、或者采集数据的独立性。
 2 正态性。r个独立总体均为正态分布。实际中几乎没有一个总体真正服从正态分布,只要数据分布比较对称的话就没有问题。F检验对正态性的假设并不敏感。
 3 方差齐性。r个总体方差相同。方差齐性的检查标准是:最大样本标准差不超过最小样本标准差的两倍时,方差分析F检验结果近似准确。
 
 
  
 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/424919.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

react树状组件

最近在react项目中需要一个树状组件,但是又不想因为这个去引入一套UI组件,故自己封装了一个基于react的树状组件, 个人认为比较难得部分在于数据的处理,话不多说直接上代码: 下面是tree.js import React, {Component} …

第四十八期:只因写了一段爬虫,公司200多人被抓!

刚从朋友听到这个消息的时候,我有点不太相信,做为一名程序员来讲,谁还没有写过几段爬虫呢?只因写爬虫程序就被端有点夸张了吧。 作者:纯洁的微笑|2019-10-17 09:51 “一个程序员写了个爬虫程序,整个公司20…

[Leetcode][第647题][JAVA][回文子串][动态规划][中心扩展][Manacher 算法]

【问题描述】[中等] 【解答思路】 1. 暴力 首先明确如何判断一个字符串是否为回文字符串。第一个字符与最后一个字符相同,第二个字符与倒数第二个字符相同…关于中心位置轴对称。 本题要求一共有多少个回文子串,那么就需要判断,索引[i, j]的…

66-加一

给定表示非负整数的非空数字数组,加上整数的1。 存储数字使得最高有效数字位于列表的开头,并且数组中的每个元素包含单个数字。 您可以假设整数不包含任何前导零,除了数字0本身 例1: 输入: [1,2,3] 输出: […

玩转oracle 11g(52):Oracle导出导入表(.sql、.dmp文件)两种方法

提示:在导入sql和dmp文件之前,先建立用户,指明表空间。其中要注意用户名和表空间最好跟sql文件中的一样。 方法一:.sql文件的导出与导入 导出步骤 使用PL/SQL Developer登录你需要备份的数据库;选择工具->导出用…

第八章方差分析以及线性回归(2)

一元线性回归 变量间的关系 变量与变量之间的关系分为确定性关系和相关性关系。  确定性关系是指当自变量给定一个值的时候,就能计算出应变量的值。例如物体下落高度h与下落时间t的关系:h12gt2。  相关性关系是指变量之间的关系不确定,表…

Creating a Pulsing Circle Animation

Creating a Pulsing Circle Animation 原文 https://www.kirupa.com/animations/creating_pulsing_circle_animation.htm Outside of transitions that animate between states, we dont see a whole lot of actual animation in the many UIs we interact with. We dont have …

第四十九期:化繁为简的五种码农必备工具

如今,开发工具已成为了软件开发过程中必不可少的组成部分。本文将向您介绍当前软件开发市场上颇具影响力的五种化繁为简的码农必备工具。 不知您是否已经发现:那些以任务为中心的软件开发工作,会比独立的研究式开发复杂得多。针对软件产品的开…

【数据结构与算法】哈希算法

一、什么是哈希算法? 1.定义 将任意长度的二进制值串映射成固定长度的二进制值串,这个映射的规则就是哈希算法,而通过原始数据映射之后得到的二进制值串就是哈希值。 2.如何设计一个优秀的哈希算法? ①单向哈希: 从哈…

自然语言处理与文本检索

今天开始把翟成祥教授的文本检索课程做一下笔记。 说明:文章内容来源于课程视频和课程ppt。我只学习了课程没有做习题。文章不是翻译,是我对课程的理解。 nlp的主要内容 1 词语处理(lexical analysis part-of-speech tagging):分词与词性标…

第五十期:工作强度超996,失业半年即出局,硅谷为何如此“嗜血”?

在硅谷,靠创业发财的人被称为中了“硅谷六合彩”,大多数个体的艰难挣扎,最终换来了硅谷长久的繁荣昌盛。 划重点 1、在硅谷,靠创业发财的人被称为中了“硅谷六合彩”。 2、谷歌的合同工必须比正式工早两小时到公司打卡&#xff…

分块入门笔记

祝劳动快乐 数列分块 数列分块入门5 蒲公英 莫队 小Z的袜子 数颜色/维护队列 乱搞 块速递推 块状链表 文本编辑器 树上分块 王室联邦 树的统计 转载于:https://www.cnblogs.com/HenryHuang-Never-Settle/p/10804588.html

【数据结构与算法】二叉树

树 1.树、二叉树 2.二叉查找树 3.平衡二叉树、红黑树 4.递归树 一、树 1.树的常用概念 根节点、叶子节点、父节点、子节点、兄弟节点,还有节点的高度、深度以及层数,树的高度。 2.概念解释 节点:树中的每个元素称为节点 父子关系&#xff…

第二十四期:面试问:Kafka为什么速度那么快?该怎么回答

针对Kafka的基准测试可以参考,Apache Kafka基准测试:每秒写入2百万(在三台廉价机器上)下面从数据写入和读取两方面分析,为什么Kafka速度这么快 Kafka的消息是保存或缓存在磁盘上的,一般认为在磁盘上读写数据是会降低性能的&#x…

leetcode 91. Decode Ways

91. Decode Ways https://www.cnblogs.com/grandyang/p/4313384.html 当前位置只可能来自前一个位置和前两个位置的dp,来自前一个位置的话,当前的数字不能是0;来自前两个位置,必须是1到26之间 class Solution { public:int numDec…

文本搜索

说明:文章内容来源于课程视频和课程ppt。我只学习了课程没有做习题。文章不是翻译,是我对课程的理解。 什么是文本搜索(Text Retrieval) 存在一个文档集,用户输入查询语句表示查询需求,搜索引擎返回搜索结果。这个过程一般被称为信…

【数据结构与算法】平衡二叉树、红黑树

1.树、二叉树 2.二叉查找树 3.平衡二叉树、红黑树 4.递归树 一,什么是“平衡二叉查找树” 1,定义:二叉树中任意一个节点的左右子树的高度相差不能大于1。 所以:完全二叉树,满二叉树都是平衡二叉树,非完全…

第五十一期:互联网不如国企,去BAT的程序员都是diao丝?

要说互联网是目前最热门的行业,应该没人反驳吧。尤其是技术,大家都想毕业后去BAT大厂,甚至比如微软、google等外企科技公司,学编程出身的高校学子,去国企的还是比较少。除非为了拿一线城市的户口,不然可能真…

linux基本命令2

一.文件打包与压缩工具 1.zip可以压缩多个文件或目录 压缩多个文件zip /tmp/backp.zip /etc/hosts /etc/inittab 案例如下[rootlocalhost tmp]# zip backup.zip file5 file6 adding: file5 (deflated 63%) adding: file6 (stored 0%)[rootlocalhost tmp]# ll backup.zip -rw-r-…

文档排序--相似度模型--VSM

说明:文章内容来源于课程视频和课程ppt。我只学习了课程没有做习题。文章不是翻译,是我对课程的理解。 上文提到文档排序函数是TR的核心。文档排序函数的实现有几种思路,其中一种是基于相似度的模型。这种模型具体是用空间向量模型(Vector Sp…