R--线性回归诊断(一)

线性回归诊断--R

 【转载时请注明来源】:http://www.cnblogs.com/runner-ljt/

    Ljt   勿忘初心  无畏未来

    作为一个初学者,水平有限,欢迎交流指正。

 


 

  在R中线性回归,一般使用lm函数就可以得到线性回归模型,但是得到的模型到底合不合适?在我们使用所得到的线性模型之前就需要进行回归诊断。

    线性回归的诊断,主要是检验线性回归模型的假设是否成立。

    线性回归模型    y=Θ01x12x2+.......+Θmxm+ε    (自变量与因变量之间是线性关系)

    基本假设:

(1)随机干扰项 ε 服从零均值,同方差,零协方差(相互独立)的正态分布

           E(εi)=0  ;   var(εi)=σ2   ;   cov(εi , εj)=0     ;

           εi~N(0,σ2)

(2)随机干扰项 ε 与解释变量间不相关

           cov(Xi , εi) =0

 


 

(一)显著性检验

  (1)回归方程显著性 F 检验 : 看自变量 X1 , X2 .....Xm  从整体上对随机变量Y是否有明显的影响 。

          原假设 H0:Θ1 2=.....=Θm=0        (H若被接受则表明随机变量Y与X1 , X2 .....X之间的关系由线性回归模型表示不合适)

          P值<α  :  拒绝原假设 。即在显著性水平 α 下,Y 与 X1 , X2 .....Xm 有显著的线性关系,回归方程是显著的。(自变量全体对因变量产生线性影响)

 

  (2)回归系数显著性 t 检验:看单个的自变量 Xi 对Y是否有明显影响。

          原假设   H0i :Θi =0            (H0i 若被接受则表明自变量Xi 对因变量Y的线性效果不显著)

          P值<α  :   拒绝原假设 。即在显著性水平 α 下,Y 与 Xi 有显著的线性关系。

 

         对于一元线性回归这两种检验是等价的;

         对于多元线性回归,这两种检验是不等价的:

         F检验显著,说明Y对自变量X1 , X2 .....Xm 整体的线性回归效果是显著的,但不等于Y对每个自变量Xi 的效果都显著;反之,某个或某几个Xi 的系数不显著,回归方程显著性的F检验仍然有可能是显著的。由于某些自变量不显著,因而在多元回归中并不是包含在回归方程中的自变量越多越好,需要剔除对Y无显著影响的自变量。

 

(二)拟合优度

        拟合优度用于检验回归方程对样本观测值的拟合程度。

        样本决定系数 R= SSR/SST = 1 - SSE/SST      (R2属于[0,1] )

              R2 越接近 1 ,表明回归拟合的效果越好;

              R越接近 0 ,表明回归拟合的效果越差。

        与F检验相比,R2 可以更清楚直观地反映回归拟合的效果,但是并不能作为严格的显著性检验。需要指出的是,拟合优度并不是检验模型优劣的唯一标准,有时为了使模型从结构上有较合理的经济解释,在样本量n 较大时,R2 等于0.7左右我们也给回归模型以肯定态度。需要注意的是 R2与回归方程汇中自变量的数目以及样本量n有关,当样本量n与自变量的个数接近时,R2易接近于1,其中隐含着一些虚假的成分。

 


 

下面结合实例对R语言中线性拟合函数lm的结果进行分析

 

 

> 
> 
> head(bank)y     x1     x2    x3     x4
1 1018.4  96259 2239.1 50760 1132.3
2 1258.9  97542 2619.4 39370 1146.4
3 1359.4  98705 2976.1 44530 1159.9
4 1545.6 100072 3309.1 39790 1175.8
5 1761.6 101654 3637.9 33130 1212.3
6 1960.8 103008 4020.5 34710 1367.0
> 
> fline<-lm(y~x1+x2+x3+x4,data=bank)
> summary(fline)Call:
lm(formula = y ~ x1 + x2 + x3 + x4, data = bank)Residuals:Min      1Q  Median      3Q     Max 
-487.35  -78.89   -2.65  137.02  403.78 Coefficients:Estimate Std. Error t value Pr(>|t|)    
(Intercept) -4.168e+03  1.193e+03  -3.495 0.002998 ** 
x1           5.842e-02  1.216e-02   4.805 0.000194 ***
x2           4.142e-01  3.218e-02  12.871 7.41e-10 ***
x3          -1.384e-02  8.520e-03  -1.624 0.123826    
x4          -7.062e-01  1.750e-01  -4.035 0.000959 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1Residual standard error: 217.7 on 16 degrees of freedom
Multiple R-squared:  0.9982,	Adjusted R-squared:  0.9978 
F-statistic:  2222 on 4 and 16 DF,  p-value: < 2.2e-16> 
> 

 

  

回归结果的诊断:

 (1)F-statistic

         回归方程显著性 F 检验中的F统计量,其P值<2.2e-16<0.05 ,表明Y 与 X1 , X2 ,X3,X4有显著的线性关系,回归方程整体是显著的。

 (2)Coefficients

         Estimate 即回归系数的估计值,其对应的 P(>|t|)为各回归系数t检验的P值。

         从回归结果看,X3的P值为0.123826>0.05,表明X3对Y没有显著影响,应考虑删除变量X3;其他三个变量的P值都<0.05,对Y 都有显著的影响。

 

   ---------以上两个回归检验的结果也表明,自变量整体对于因变量有显著影响,并不表明每个自变量对因变量都有显著影响。

 

 (3)Multiple R-squared  ;   Adjusted R-squared

         分别表示 ‘拟合优度’  ,‘修正的拟合优度’

         拟合优度值为 0.9982  很接近于 1 ,表明回归方程对样本观测值的拟合程度较高。

 


 

 

相关图形诊断:

  (1)残差图 

          残差图分析法是一种直观、方便的分析方法。它以残差ei 为纵坐标,以其他适宜的变量(如样本拟合值)为横坐标画散点图,主要用来检验是否存在异方差。

          一般情况下,当回归模型满足所有假定时,残差图上的n个点的散布应该是随机的,无任何规律。如果残差图上的点的散布呈现出一定趋势(随横坐标的增大而增大或减小),则可以判断回归模型存在异方差。

           异方差:某一因素或某些因素随着解释变量观测值的变化而对被解释变量产生不同的影响,导致随机误差产生不同方差。

                       当存在异方差时,普通最小二乘估计存在以下问题:

                       (i)  参数估计值虽然是无偏的,但不是最小方差线性无偏估计;

                       (ii) 参数的显著性检验失效;

                       (iii) 回归方程的应用效果极不理想。

 

  (2)Q-Q图

          Q-Q图主要用来检验样本是否近似服从正态分布。

          对于标准状态分布而言,Q-Q图上的点近似在Y=X直线附近。

 

  (3)标准化残差方根散点图

          此图类似于残差图,只是其纵坐标变为了标准化残差的绝对值开方。

       

  (4)Cook距离图

          库克距离用来判断强影响点是否为Y的异常值点。

          一般认为  当D<0.5时认为不是异常值点;当D>0.5时认为是异常值点。

    

> 
> par(mfrow=c(2,2))
> plot(fline,which=c(1:4))
> 

 

                            

 

   从回归的四个图形结果来看:

          残差图   Residuals vs Fitted  :  图上的点基本服从随机分布,可以认为不存在异方差的情况;

          标准Q-Q图  Normal Q-Q       :  图上的点基本都在y=x直线附件,可认为样本近似服从正态分布;

          标准化残差方根散点图 Scale-Location:类似与残差图,点的分布基本是随机的。

          库克距离图 Cook‘s distance   :  最大的库克距离为0.3左右,可以认为没有异常值点。

              

   

    

 

 

 

 

 

 

 

 

 

 

 

 

 

 


 

转载于:https://www.cnblogs.com/runner-ljt/p/4581622.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/257166.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CSS属性(根据继承性分为两类)

一、可继承属性 1》所有标签可继承&#xff1a; visibility:行高 cursor: 2》内联标签可继承&#xff1a; line-height:行高 color:文字颜色 font-family:文字字体 font-size:文字大小 font-weight:文字加粗 text-decoration:文字下划线 3》块级标签可继承&#xff1a; text-in…

妙趣横生的算法--栈和队列

栈 栈的特点是先进后出&#xff0c;一张图简单介绍一下。 #include "stdio.h" #include "math.h" #include "stdlib.h" #define STACK_INIT_SIZE 20 #define STACKINCRE…

win10系统开不了机

电脑装了双系统&#xff0c;从ubuntu切回win10系统后&#xff0c;win10系统开不了机&#xff0c;一直转圈&#xff0c;修复结果是什么C:\WINDOWS\System32\Logfiles\Srt\SrtTrail.txt问题&#xff0c;是了网上的常用方法都没成功。 最后我的解决方案&#xff1a;强制关机后开机…

Android SDK打包

2015年6月18日 14:38:49 星期四 eclipse: 1. 将写好的代码上传版本库 2. 删除 /bin/* 3. eclipse->project->clean... 4. 上一步自动生成 /bin/xx.jar 5. 复制/bin/xx.jar 到 /libs/xx.jar 6. 删除 /src/* 7. 连同demo和刚才的工程文件夹压缩给到对方(这样可以避免包命…

MySQL 5.7.11 重置root密码

1.修改/etc/my.conf&#xff0c;添加参数skip-grant-tables 2.重启mysql service mysqld stop service mysqld start 3.用root 直接登录 [rootbogon ~]# mysql -uroot Welcome to the MySQL monitor. Commands end with ; or \g. Your MySQL connection id is 4 Server versio…

resure挽救笔记本系统和一些相关的操作记录

使用fedora23很久了, 但是感觉不是很流畅, 出现了一些不太稳定的体验, 所以想改到centos7. 因为centos7的很多东西 跟 fedora23 很相近了. 所以应该是无缝过渡是选择32位的系统还是选择64位的系统?还是要使用 32位的 它是90%的人的选择使用, 是普通人的通用选择, 几乎支持linu…

2021-06-08

opencv无法读取mp4文件opencv读取mp4文件时&#xff0c;总是VideoCapture.isopen()返回0,即无法打开cap。解决方法&#xff0c;将opencv安装包的opencv_videoio_ffmpeg451_64文件复制进工程中。

Web网页布局的主要方式

一、静态布局&#xff08;static layout&#xff09; 即传统Web设计&#xff0c;网页上的所有元素的尺寸一律使用px作为单位。 1、布局特点 不管浏览器尺寸具体是多少&#xff0c;网页布局始终按照最初写代码时的布局来显示。常规的pc的网站都是静态&#xff08;定宽度&#xf…

HDU 3966 Aragorn's Story (树链点权剖分,成段修改单点查询)

题目链接&#xff1a;http://acm.hdu.edu.cn/showproblem.php?pid3966 树链剖分的模版&#xff0c;成段更新单点查询。熟悉线段树的成段更新的话就小case啦。 1 //树链剖分 边权修改 单点查询2 #include <iostream>3 #include <cstring>4 #include <algorithm&…

微信分享无响应的解决

微信分享无响应的解决 最近使用友盟的社会化分享&#xff0c;集成到程序中进行分享功能的开发。 可是一开始还是可以正常使用&#xff0c;今天突然发现微信分享&#xff08;好友分享和朋友圈分享&#xff09;均是点击没有响应&#xff0c;也就是点击后&#xff0c;没有任何回馈…

x64电脑连接x32共享打印机

下载64位打印机驱动到64位电脑&#xff0c;在连接32位共享打印机出错时出现在本地寻找相关inf文件&#xff0c;此时将64位打印机驱动解压(不在64位本地安装)并找到相应inf文件&#xff0c;载入即可连接成功。

HTML中的br标签讲解(菜鸟)

br标签&#xff1a;如何在HTML中换行&#xff1f;可以使用br标签 1.br标签作用&#xff1a;换行 2.br标签格式&#xff1a;<br/> 3.br标签的注意点&#xff1a; 3.1多个br标签可以连续使用&#xff0c;使用了多少个br标签就会换多少行 3.2由于HTML的作用就是用来给文本添…

Cocos2d-3.x版的HelloWorld工程分析 (二)

我们HelloWorld 从applicationDidFinishLaunching()后&#xff0c; 大部分人都会从这部分代码开始研究&#xff0c;如果想要研究main函数 如何调用applicationDidFinishLaunching() 传送门 http://blog.csdn.net/hiwoshixiaoyu/article/details/51472707 #include "App…

安卓中bundle的使用

Bundle类用作携带数据&#xff0c;它类似于Map&#xff0c;用于存放key-value形式的值&#xff0c;相对于Map&#xff0c;它提供了各种常用类型的putXxx()/getXxx()方法&#xff0c;Bundle的内部实际上是使用了HashMap类型的变量来存放PutXxx()方法存入的值。 SDK里是这样描述&…

NO.1 python_人工智能_学习路线

***##学习路线&#xff1a;* 1.python基础 计算机组成原理、python开发环境、python变量、流程控制语句、文件操作、异常处理、模块与包、飞机大战游戏制作等 2.python高级应用 网络编程、并发编程、数据库编程、正则表达式、Linux系统应用、函数的高级应用、python的语法进阶…

wds+mdt 分布式自动部署 操作系统

一、 安装准备 1、工具的准备 首先介绍本次项目所涉及到的内容&#xff1a; MDT Microsoft Deployment Toolkit 2012&#xff08;简称MDT 2012&#xff09;是微软最新一代部署工具&#xff0c;通过它可以自动完成桌面和服务器部署的推荐操作进程和工具&#xff0c;MDT主要…

iOS开发网络篇—数据缓存

iOS开发网络篇—数据缓存 一、关于同一个URL的多次请求 有时候&#xff0c;对同一个URL请求多次&#xff0c;返回的数据可能都是一样的&#xff0c;比如服务器上的某张图片&#xff0c;无论下载多少次&#xff0c;返回的数据都是一样的。 上面的情况会造成以下问题 &#xff08…

[WinError 10061] 由于目标计算机积极拒绝,无法连接错误解决办法

爬虫的时候会经常出现"[WinError 10061] 由于目标计算机积极拒绝&#xff0c;无法连接"错误这种情况&#xff0c;有可能是LAN口设置不正确 我是在爬取全国天气情况的时候出现的这种错误&#xff0c;后面调了以后可以了1.控制面板——网络和 Internet—— Internet选项…

Chrome浏览器设置小窗口视频

快捷工具先安装1.28版本后用1.31版本替换&#xff0c;以实现视频弹窗和双击关闭标签页功能。 首先下载Chrome扩展快捷工具1.28版的CRX安装包&#xff1a;http://pan.baidu.com/s/1pJ4T4td&#xff1b; 然后拖放到chrome扩展管理页面中安装。 接着&#xff0c;下载打包好的快捷…

这门课有什么用?

每个老师都苦恼于学生常问的问题&#xff1a;“某某课学了有什么用&#xff1f;”老师费劲巴拉解释一通&#xff0c;结果还是&#xff1a;然并卵。 一门课有什么用&#xff0c;很难解释得令人信服&#xff0c;因为这和人的认知水平有关。认知水平达不到&#xff0c;解释的多深入…