R--线性回归诊断(一)

线性回归诊断--R

 【转载时请注明来源】:http://www.cnblogs.com/runner-ljt/

    Ljt   勿忘初心  无畏未来

    作为一个初学者,水平有限,欢迎交流指正。

 


 

  在R中线性回归,一般使用lm函数就可以得到线性回归模型,但是得到的模型到底合不合适?在我们使用所得到的线性模型之前就需要进行回归诊断。

    线性回归的诊断,主要是检验线性回归模型的假设是否成立。

    线性回归模型    y=Θ01x12x2+.......+Θmxm+ε    (自变量与因变量之间是线性关系)

    基本假设:

(1)随机干扰项 ε 服从零均值,同方差,零协方差(相互独立)的正态分布

           E(εi)=0  ;   var(εi)=σ2   ;   cov(εi , εj)=0     ;

           εi~N(0,σ2)

(2)随机干扰项 ε 与解释变量间不相关

           cov(Xi , εi) =0

 


 

(一)显著性检验

  (1)回归方程显著性 F 检验 : 看自变量 X1 , X2 .....Xm  从整体上对随机变量Y是否有明显的影响 。

          原假设 H0:Θ1 2=.....=Θm=0        (H若被接受则表明随机变量Y与X1 , X2 .....X之间的关系由线性回归模型表示不合适)

          P值<α  :  拒绝原假设 。即在显著性水平 α 下,Y 与 X1 , X2 .....Xm 有显著的线性关系,回归方程是显著的。(自变量全体对因变量产生线性影响)

 

  (2)回归系数显著性 t 检验:看单个的自变量 Xi 对Y是否有明显影响。

          原假设   H0i :Θi =0            (H0i 若被接受则表明自变量Xi 对因变量Y的线性效果不显著)

          P值<α  :   拒绝原假设 。即在显著性水平 α 下,Y 与 Xi 有显著的线性关系。

 

         对于一元线性回归这两种检验是等价的;

         对于多元线性回归,这两种检验是不等价的:

         F检验显著,说明Y对自变量X1 , X2 .....Xm 整体的线性回归效果是显著的,但不等于Y对每个自变量Xi 的效果都显著;反之,某个或某几个Xi 的系数不显著,回归方程显著性的F检验仍然有可能是显著的。由于某些自变量不显著,因而在多元回归中并不是包含在回归方程中的自变量越多越好,需要剔除对Y无显著影响的自变量。

 

(二)拟合优度

        拟合优度用于检验回归方程对样本观测值的拟合程度。

        样本决定系数 R= SSR/SST = 1 - SSE/SST      (R2属于[0,1] )

              R2 越接近 1 ,表明回归拟合的效果越好;

              R越接近 0 ,表明回归拟合的效果越差。

        与F检验相比,R2 可以更清楚直观地反映回归拟合的效果,但是并不能作为严格的显著性检验。需要指出的是,拟合优度并不是检验模型优劣的唯一标准,有时为了使模型从结构上有较合理的经济解释,在样本量n 较大时,R2 等于0.7左右我们也给回归模型以肯定态度。需要注意的是 R2与回归方程汇中自变量的数目以及样本量n有关,当样本量n与自变量的个数接近时,R2易接近于1,其中隐含着一些虚假的成分。

 


 

下面结合实例对R语言中线性拟合函数lm的结果进行分析

 

 

> 
> 
> head(bank)y     x1     x2    x3     x4
1 1018.4  96259 2239.1 50760 1132.3
2 1258.9  97542 2619.4 39370 1146.4
3 1359.4  98705 2976.1 44530 1159.9
4 1545.6 100072 3309.1 39790 1175.8
5 1761.6 101654 3637.9 33130 1212.3
6 1960.8 103008 4020.5 34710 1367.0
> 
> fline<-lm(y~x1+x2+x3+x4,data=bank)
> summary(fline)Call:
lm(formula = y ~ x1 + x2 + x3 + x4, data = bank)Residuals:Min      1Q  Median      3Q     Max 
-487.35  -78.89   -2.65  137.02  403.78 Coefficients:Estimate Std. Error t value Pr(>|t|)    
(Intercept) -4.168e+03  1.193e+03  -3.495 0.002998 ** 
x1           5.842e-02  1.216e-02   4.805 0.000194 ***
x2           4.142e-01  3.218e-02  12.871 7.41e-10 ***
x3          -1.384e-02  8.520e-03  -1.624 0.123826    
x4          -7.062e-01  1.750e-01  -4.035 0.000959 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1Residual standard error: 217.7 on 16 degrees of freedom
Multiple R-squared:  0.9982,	Adjusted R-squared:  0.9978 
F-statistic:  2222 on 4 and 16 DF,  p-value: < 2.2e-16> 
> 

 

  

回归结果的诊断:

 (1)F-statistic

         回归方程显著性 F 检验中的F统计量,其P值<2.2e-16<0.05 ,表明Y 与 X1 , X2 ,X3,X4有显著的线性关系,回归方程整体是显著的。

 (2)Coefficients

         Estimate 即回归系数的估计值,其对应的 P(>|t|)为各回归系数t检验的P值。

         从回归结果看,X3的P值为0.123826>0.05,表明X3对Y没有显著影响,应考虑删除变量X3;其他三个变量的P值都<0.05,对Y 都有显著的影响。

 

   ---------以上两个回归检验的结果也表明,自变量整体对于因变量有显著影响,并不表明每个自变量对因变量都有显著影响。

 

 (3)Multiple R-squared  ;   Adjusted R-squared

         分别表示 ‘拟合优度’  ,‘修正的拟合优度’

         拟合优度值为 0.9982  很接近于 1 ,表明回归方程对样本观测值的拟合程度较高。

 


 

 

相关图形诊断:

  (1)残差图 

          残差图分析法是一种直观、方便的分析方法。它以残差ei 为纵坐标,以其他适宜的变量(如样本拟合值)为横坐标画散点图,主要用来检验是否存在异方差。

          一般情况下,当回归模型满足所有假定时,残差图上的n个点的散布应该是随机的,无任何规律。如果残差图上的点的散布呈现出一定趋势(随横坐标的增大而增大或减小),则可以判断回归模型存在异方差。

           异方差:某一因素或某些因素随着解释变量观测值的变化而对被解释变量产生不同的影响,导致随机误差产生不同方差。

                       当存在异方差时,普通最小二乘估计存在以下问题:

                       (i)  参数估计值虽然是无偏的,但不是最小方差线性无偏估计;

                       (ii) 参数的显著性检验失效;

                       (iii) 回归方程的应用效果极不理想。

 

  (2)Q-Q图

          Q-Q图主要用来检验样本是否近似服从正态分布。

          对于标准状态分布而言,Q-Q图上的点近似在Y=X直线附近。

 

  (3)标准化残差方根散点图

          此图类似于残差图,只是其纵坐标变为了标准化残差的绝对值开方。

       

  (4)Cook距离图

          库克距离用来判断强影响点是否为Y的异常值点。

          一般认为  当D<0.5时认为不是异常值点;当D>0.5时认为是异常值点。

    

> 
> par(mfrow=c(2,2))
> plot(fline,which=c(1:4))
> 

 

                            

 

   从回归的四个图形结果来看:

          残差图   Residuals vs Fitted  :  图上的点基本服从随机分布,可以认为不存在异方差的情况;

          标准Q-Q图  Normal Q-Q       :  图上的点基本都在y=x直线附件,可认为样本近似服从正态分布;

          标准化残差方根散点图 Scale-Location:类似与残差图,点的分布基本是随机的。

          库克距离图 Cook‘s distance   :  最大的库克距离为0.3左右,可以认为没有异常值点。

              

   

    

 

 

 

 

 

 

 

 

 

 

 

 

 

 


 

转载于:https://www.cnblogs.com/runner-ljt/p/4581622.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/257166.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

妙趣横生的算法--栈和队列

栈 栈的特点是先进后出&#xff0c;一张图简单介绍一下。 #include "stdio.h" #include "math.h" #include "stdlib.h" #define STACK_INIT_SIZE 20 #define STACKINCRE…

resure挽救笔记本系统和一些相关的操作记录

使用fedora23很久了, 但是感觉不是很流畅, 出现了一些不太稳定的体验, 所以想改到centos7. 因为centos7的很多东西 跟 fedora23 很相近了. 所以应该是无缝过渡是选择32位的系统还是选择64位的系统?还是要使用 32位的 它是90%的人的选择使用, 是普通人的通用选择, 几乎支持linu…

2021-06-08

opencv无法读取mp4文件opencv读取mp4文件时&#xff0c;总是VideoCapture.isopen()返回0,即无法打开cap。解决方法&#xff0c;将opencv安装包的opencv_videoio_ffmpeg451_64文件复制进工程中。

Cocos2d-3.x版的HelloWorld工程分析 (二)

我们HelloWorld 从applicationDidFinishLaunching()后&#xff0c; 大部分人都会从这部分代码开始研究&#xff0c;如果想要研究main函数 如何调用applicationDidFinishLaunching() 传送门 http://blog.csdn.net/hiwoshixiaoyu/article/details/51472707 #include "App…

NO.1 python_人工智能_学习路线

***##学习路线&#xff1a;* 1.python基础 计算机组成原理、python开发环境、python变量、流程控制语句、文件操作、异常处理、模块与包、飞机大战游戏制作等 2.python高级应用 网络编程、并发编程、数据库编程、正则表达式、Linux系统应用、函数的高级应用、python的语法进阶…

iOS开发网络篇—数据缓存

iOS开发网络篇—数据缓存 一、关于同一个URL的多次请求 有时候&#xff0c;对同一个URL请求多次&#xff0c;返回的数据可能都是一样的&#xff0c;比如服务器上的某张图片&#xff0c;无论下载多少次&#xff0c;返回的数据都是一样的。 上面的情况会造成以下问题 &#xff08…

[WinError 10061] 由于目标计算机积极拒绝,无法连接错误解决办法

爬虫的时候会经常出现"[WinError 10061] 由于目标计算机积极拒绝&#xff0c;无法连接"错误这种情况&#xff0c;有可能是LAN口设置不正确 我是在爬取全国天气情况的时候出现的这种错误&#xff0c;后面调了以后可以了1.控制面板——网络和 Internet—— Internet选项…

这门课有什么用?

每个老师都苦恼于学生常问的问题&#xff1a;“某某课学了有什么用&#xff1f;”老师费劲巴拉解释一通&#xff0c;结果还是&#xff1a;然并卵。 一门课有什么用&#xff0c;很难解释得令人信服&#xff0c;因为这和人的认知水平有关。认知水平达不到&#xff0c;解释的多深入…

NO.1_python_scrapy组成爬取多页数据连接数据库配置文件书写

scrapy框架组成及各部分作用 item pipelines: 用于存放需要存储数据的数据模型&#xff0c;一般格式为&#xff1a; #需要存储多少中类型的数据就写多少行&#xff0c;一般是key_value组合 数据名称&#xff0c;即key scrapy.Field()spiders 用于解析返回来的response im…

“智云大咖秀”:大咖摄影师谈惊艳亮相的“大咖级”设备

古人云&#xff0c;善书者不择笔。 古人又云&#xff0c;工欲善其事必先利其器。 古人很矛盾。 这两句话如果用在影像创作这个领域&#xff0c;可以说都有道理&#xff1a;没有好的设备&#xff0c;创意大师一样能够拍出足够惊艳的作品&#xff1b;有足够强的设备&#xff0c;但…

Cobub无码埋点关键技术的实现

随着大数据时代的到来&#xff0c;数据采集也已经变的越来越重要。前端埋点作为一个比较成熟的数据接入手段被广泛应用着。目前埋点分为两种方式&#xff0c;有码与无码埋点。有码埋点比较容易理解&#xff0c;即调用SDK的API&#xff0c;在代码中插入埋点的相关代码&#xff0…

Dedesql数据库类详解(二次开发必备教程)(转)

http://www.dedecms.com/help/development/2009/1028/1076.html 织梦DedeCMS的二次开发不仅仅是会写写织梦的标签&#xff0c;会制作织梦的模板。很多时候&#xff0c;我们需要对织梦DedeCMS的数据库进行查询、插入、删除等等之类的操作&#xff0c;进行这一类的操作之前&#…

留言板

本软件是作为部门内员工之间留言及发送消息使用。 系统必须通过口令验证&#xff0c;登录进入。方法是从数据库内取出用户姓名和口令的数据进行校验。 系统包含四部分功能 1 登录&#xff1a;验证用户名与口令&#xff0c;保存会话信息&#xff0c;进入主界面。 界面显示代码 &…

2017-2018-1 20155301 《信息安全系统设计基础》第7周学习总结

2017-2018-1 20155301 《信息安全系统设计基础》第7周学习总结 教材学习内容总结 作为我们处理器实现的运行实例&#xff0c;因为受x86-64指令集的启发&#xff0c;它被俗称为“x86”&#xff0c;所以我们称我们的指令集为“Y86-64”&#xff0c;与“x86-64”相比&#xff0c;Y…

Dubbo原理解析-监控

Dubbo发布代码中&#xff0c;自带了一个简易的监控中心实现。对于一般的小业务这个监控中心应该能够满足需求&#xff0c;对于那些大业务量的大公司一般都会有自己的监控中心&#xff0c;更加丰富的功能如常用的报警短信通知等等。这章讲解分析使得读者能够了解一般的监控中心实…

学习笔记(04):Python网络编程并发编程-什么是socket

立即学习:https://edu.csdn.net/course/play/24458/296233?utm_sourceblogtoedu 1.什么是网络编程&#xff1f; 答&#xff1a;网络编程也叫做socket编程即套接字编程&#xff0c;基于遵循socket套接字的规定进行的编程 2.什么是socket&#xff1f; 答&#xff1a;socket就是…

JeeSite 4.0 说说前端的那些事

2019独角兽企业重金招聘Python工程师标准>>> 引言 一个不得不说的话题&#xff0c;经过近几年的发展&#xff0c;Web前端开发已经不是一个新有的岗位了&#xff0c;前端技术发展非常迅速&#xff0c;技术更新换代也很快&#xff0c;对于前端工程师来说是一个很大的挑…

程序包com.sun.istack.internal不存在

添加一下依赖 <!-- https://mvnrepository.com/artifact/com.sun.xml.bind/jaxb-impl --><dependency> <groupId>com.sun.xml.bind</groupId> <artifactId>jaxb-impl</artifactId> <version>2.2.11</version></dependency&…

iOS微博项目(七)发微博和定位

class a导入class b&#xff0c;class b导入class a 会出现错误 如果keyboard不显示&#xff0c;应该是hardware-》connect选择了 1. 发微博UI 2.定位 一直不回调&#xff0c;后来发现是ios8后方法更新了&#xff1a;http://blog.devzeng.com/blog/ios8-corelocation-framework…

设计模式之UML类图

在学设计模式的过程中经常碰到各式各样的UML类图。那些眼花缭乱的符号有什么含义呢&#xff1f; 类图含义 类图中的关系 从网上找来一张图作为实例 依赖关系&#xff1a;比如动物依赖氧气和水&#xff0c;这里如学生要依赖自行车。用虚线箭头表示。关联关系&#xff1a;学生和身…