线性回归模型与检验 6个适用条件

当因变量与自变量间存在线性相关关系时,可以使用线性回归分析方法确定它们之间的相互依赖的定量关系。此处所说的定量关系,并非严格的因果关系,而是自变量X对因变量Y的影响或预测的作用。

例如分析广告费、产品单价、产品满意度、服务满意度对销售收入的影响,如果各自变量与因变量间存在线性相关关系,可建立以销售收入作为因变量,其他4个变量作为自变量的线性回归模型,用于分析它们之间的线性相关关系,或者说研究销售收入的影响因素,并对销售收入进行预测。

本节主要介绍线性回归模型的相关概念,并通过具体实例对多重线性回归、哑变量线性回归做具体研究分析,SPSSAU分析路径为【通用方法】→【线性回归】以及【进阶方法】→【逐步回归】。

一、线性回归模型与检验

1. 回归模型与种类

线性回归可通过回归函数定量化地解释自变量与因变量的关系,这种回归函数称作线性回归模型,用样本数据估计所得的回归方程表达式如下:

上式中, Y^ 为因变量的估计值,β0为常数项,也叫截距,X1,X2,Xp为自变量,β1,β2,βp为偏回归系数,它表示其他自变量不变时指定的某自变量X每变动一个单位时因变量Y的平均变化量。ε称为残差,是因变量真是取值与估计值之间的差值,是一个随机变量。

一般用普通最小二乘法(记为OLS),通过样本数据估计出未知的β,拟合出一条直线使得各样本点与直线的纵向距离最小。

根据线性回归中自变量的个数多少,当线性回归中仅有一个自变量时,称作一元线性回归,比如研究产品质量评分与顾客满意度间的相关关系;当含有多个自变量时,称作多重线性回归(常通俗叫做多元线性回归),其回归系数称之为偏回归系数。例如以销售收入为因变量,同时研究广告费、产品单价、产品满意度、服务满意度与因变量销售收入的相关关系。

多重线性回归,根据自变量引入模型和筛选的方式,可以分为强制引入法多重线性回归和逐步多重线性回归。

2. 模型检验和评价

拟合出线性回归模型后,应对模型总体拟合状况进行检验和评价,通过检验后方可用于影响因素分析或回归预测,模型检验的项目见表 5-8。

(1) 回归方程总体显著性检验

采用方差分析检验,对回归方程总体上是否显著(有统计学意义)进行检验。该检验原假设回归方程中至少有一个自变量的回归系数不为0,当回归模型检验的概率p值小于0.05则说明模型显著,即至少有一个自变量对因变量的影响有统计学意义,反之若p值大于0.05则说明模型不成立。

(2) 回归系数显著性检验

回归方程总体显著,如果想进一步判断哪些自变量的回归系数是显著的,则需进行t检验。原假设自变量回归系数等于0,回归系数t检验概率p值如果小于0.05则说明该变量回归系数不为0,回归系数有统计学意义,其对因变量有显著影响。反之若p值大于0.05则说明该自变量的回归系数为0,自变量的影响无统计学意义。

(3) 回归方程拟合度评价

拟合优度指的是样本数据各点围绕回归直线的密集程度,用来评价回归模型的拟合质量。一般是用决定系数R方作为评价指标,R方接近1说明回归方程拟合优度良好,R方接近于0则说明回归方程拟合优度差。R方一般解释为回归方程对因变量Y总变异的解释力度,例如R方为0.8,即回归方程可解释因变量Y总变异原因的80%。

一元线性回归时仅输出R方,多重线性回归时同时输出R方和调整后R方。 R方会随着自变量的个数或样本量增加而增大,为了消除这种影响,引进调整后R方,因此多重线性回归时决定系数用调整后R方。

二、线性回归适用条件

线性回归对数据资料是有要求的,因变量须是定量数据,自变量可以是定量也可以是定类,遇到分类数据自变量,此时应以根据实际情况考虑以哑变量形式进行线性回归。线性回归的正确使用,还应满足以下主要适用条件,见表 5-9。

前验指的是在线性回归开始之前进行的检验,后验则是线性回归后利用回归结果(如残差)进行的检验。残差即因变量的观测值与利用回归模型求出的预测值之间的差值,反映了利用回归模型进行预测引起的误差。

(1) 线性关系

自变量与因变量间存在线性关系,这是线性回归最基本的条件。一般在开始线性回归之前,通过绘制自变量与因变量的散点图或进行二者的相关分析可加以判断。如果自变量与因变量是非线性关系,那么需要数据转换后线性回归或进行曲线回归。

(2) 残差正态性

线性回归模型要求其残差服从均值为0方差为 σ2 的正态分布,回归拟合后对其残差进行正态性检验,常用方法例如残差直方图、残差P-P图/Q-Q图,或采用显著性检验方法。如果残差不服从正态性,可考虑对因变量进行正态转换使其满足条件,例如对因变量取对数函数后再重新回归分析。

(3) 残差等方差性

残差等方差性即残差齐次,理论上指的是要求自变量不同取值时,因变量Y的方差相等,可通俗理解为不同Y预测值情况下,残差的方差相等。可利用残差数据绘制残差散点图,用以观察残差与随因变量取值或随预测值的变化趋势。如果残差随机分布,无明显规律可循则说明残差等方差;如果残差的分布有迹可循,例如自变量X值越大,残差项越大或越小,常见的比如残差呈现“喇叭状”,说明残差分布不均,模型具有异方差性,模型质量较差。如果有明显的异方差性,建议处理后重新进行回归分析,比如对Y取对数后再次构建模型等。

(4) 残差独立性

针对回归残差的独立性条件,通常采用Durbin和Watson提出的D-W检验方法。如果D-W值在2附近(1.7~2.3之间),则说明残差独立即没有自相关性,反之若D-W值明显偏离2,则表明存在自相关性(卢纹岱,朱红兵,2015)。如果有明显自相关性,则考虑对因变量进行差分处理或更换分析方法。

(5) 无多重共线性

线性回归中的多重共线性,是指线性回归模型中的自变量之间由于存在强相关关系而使模型估计失真或难以准确估计。对共线性的判断,常见方法是分析变量间的相关性以及排查方差膨胀因子VIF值。如果自变量中出现VIF大于10(严格一些也可以将VIF大于5作为标准),则说明模型中存在严重的多重共线性问题,模型结果不可靠;反之若VIF小于10(或小于5)则说明模型存在共线性问题不严重(贾俊平,2014)。如果呈现出共线性问题,可考虑使用逐步回归分析、主成分回归,或者利用专业经验及变量间的相关性考虑删除个别自变量。

(6) 无明显异常值

异常值的存在对于回归直线方程的拟合、判定系数及显著性检验的结果都有很大的影响,因此对线性回归中异常值的分析不容忽视。可通过残差散点图进行观察,如果发现有明显的离群点应当重视,必要时予以删除或替换处理。


以上内容摘自《SPSSAU科研数据分析方法与应用》第5章——相关影响关系研究,书中不仅涵盖了数据清理、统计分析和模型构建等内容,还提供了丰富的案例,以便于读者在实际研究中应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/58099.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

说它是谁就是谁—Python语言中的鸭子类型

鸭子类型(Duck Typing)是动态类型语言中的一种类型推断风格,尤其在Python语言中得到了广泛的应用。它的核心思想是:“如果它走起路来像鸭子,叫起来像鸭子,那么它就是鸭子”。这句话的意思是,我们…

python_httpstat库

Python httpstat是一个基于Python的命令行工具,用于测量HTTP请求的性能和状态信息。它能够向目标服务器发送HTTP请求,并显示详细的统计信息,包括DNS解析时间、建立连接时间、TLS/SSL握手时间、首字节时间、总时间等。这些信息对于排查网络问题…

你是个优秀的人,但不是个好Leader

管理过程中,总有人长叹分身乏术,自己事必躬亲却收效甚微;总有人深陷日常繁琐,四处救火,似乎总有做不完的工作,操不完的心,这是为什么? 很大程度上是因为他们不懂管理的核心。无论…

详解varint,zigzag编码, 以及在Go标准库中的实现

文章目录 为啥需要varint编码为啥需要zigzag编码varint编码解码 zigzag编码解码 局限性 为啥需要varint编码 当我们用定长数字类型int32来表示整数时,为了传输一个整数1,我们需要传输00000000 00000000 00000000 00000001 32 个 bits,而有价…

使用 FastGPT + Ollama 搭建本地 AI 客服小助手

在数字化转型的背景下,越来越多的企业希望在服务体系中引入人工智能,以提供更高效的客户服务。而 AI 客服小助手的构建不仅可以解答客户的常见问题,还能减轻客服人员的工作压力,提高客户满意度。本文将介绍如何使用 FastGPT 和 Ol…

SQLite3库增删改查实现数据管理

1. SQLite3简介 SQLite3是一个轻量级的、嵌入式的关系型数据库管理系统,在保存测序数据或结果等时可使用,简单高效,并且有无需服务器、单文件存储数据、支持标准SQL、支持跨平台等优势。 本文以Sqlite3数据库为基础,创建代码示例…

tomcat基本配置

目录 1.java容器简介介绍 2.部署tomcat 2.1上传jdk 2.2创建一个软连接 2.3配置环境变量 2.4读取环境文件并且查看java版本 2.5检查jdk tomcat信息 2.6启动tomcat 2.7检测 3.tomcat 目录结构 3.1总体目录 3.2 bin目录 3.3conf 3.4 logs日志 4.运行代码 4.…

如何确保电子商务网站服务器的正常运行时间

对于电商网站而言,服务器的正常运行时间至关重要。网站宕机会直接影响销售额、客户体验以及品牌声誉。本文将详细探讨如何监控并保障服务器的正常运行时间,确保您的电商网站始终保持在线状态, 为什么监控正常运行时间很重要? 减…

【Oracle实验】字段为空的,无法通过排除判断

Oracle相关文档,希望互相学习,共同进步 风123456789~-CSDN博客 1.场景描述 需求:查询不是某个机构的数据。 同事SQL:where substr(bank_code,1,9) not in(014009001); 看SQL似乎没什么问题,分析…

【modbus协议】libmodbus库移植基于linux平台

文章目录 下载库函数源码编译路径添加libmodbus 源码分析核心数据结构常用接口函数 开发 TCP Server 端开发TCP Client 端 下载库函数源码 编译路径添加 libmodbus 源码分析 核心数据结构 modbus_t结构体: 这是 libmodbus 的核心数据结构,代表一个 Mod…

【学术会议投稿】Imagen:重塑图像生成领域的革命性突破

【连续七届已快稳ei检索】第八届电子信息技术与计算机工程国际学术会议(EITCE 2024)_艾思科蓝_学术一站式服务平台 更多学术会议请看 https://ais.cn/u/nuyAF3 目录 引言 一、Imagen模型的技术原理 1. 模型概述 2. 工作流程 3. 技术创新 二、Ima…

达实智能深度融入鸿蒙生态,自研AIoT平台引领智慧空间新风向

10月22日,华为隆重举办了原生鸿蒙之夜暨华为全场景新品发布会,正式展示了HarmonyOS NEXT鸿蒙操作系统的最新进展和未来规划。华为常务董事、终端BG董事长、智能汽车解决方案BU董事长余承东公布了HarmonyOS NEXT(鸿蒙OS5)&#xff…

OSPF特殊区域及其他特性

不用的链路这状态信息没必要一直保存,要不路由器承受不了。用OSPF 特殊区域解决 1. Stub区域和Totally Stub区域 R1作为ASBR引入多个外部网段,如果Area 2是普通区域,则R3将向该区域注入5类和4类LSA。 当把Area 2配置为Stub区域后&#xff1a…

node升级package.json中的版本

由于项目使用时间过老,升级对应包版本,可以使用新功能 1.使用npm-check-updates这个工具,先全局安装 npm install -g npm-check-updates2.检查package.json中dependencies的最新版本 ncu3.更新dependencies到新版本 ncu -u也是一样的 npx…

探索Python安全字符串处理的奥秘:MarkupSafe库揭秘

文章目录 探索Python安全字符串处理的奥秘:MarkupSafe库揭秘第一部分:背景介绍第二部分:MarkupSafe是什么?第三部分:如何安装MarkupSafe?第四部分:MarkupSafe的简单使用方法1. 使用escape函数2.…

机器视觉运动控制一体机在DELTA并联机械手视觉上下料应用

市场应用背景 DELTA并联机械手是由三个相同的支链所组成,每个支链包含一个转动关节和一个移动关节,具有结构紧凑、占地面积小、高速高灵活性等特点,可在有限的空间内进行高效的作业,广泛应用于柔性上下料、包装、分拣、装配等需要…

【C++】类和对象(二):this指针

大家好,我是苏貝,本篇博客带大家了解C的this指针,如果你觉得我写的还不错的话,可以给我一个赞👍吗,感谢❤️ 目录 1 this指针的引出2 this指针的特性 1 this指针的引出 我们先来定义一个日期类Date 问&am…

华为原生鸿蒙操作系统的发布有何重大意义和影响:

#1024程序员节 | 征文# 一、华为原生鸿蒙操作系统的发布对中国的意义可以从多个层面进行分析: 1. 技术自主创新 鸿蒙操作系统的推出标志着中国在操作系统领域的自主创新能力的提升。过去,中国在高端操作系统方面依赖于外国技术,鸿蒙的发布…

HttpContext模块 --- http上下文模块

目录 模块设计思想 模块代码实现 模块设计思想 上下文模块是Http协议模块中最重要的一个模块,他需要控制请求处理的节奏,需要保存一个HttpRequest对象,后续关于这个连接的http的处理的信息全部都是在这个上下文中保存。 首先,…

等保测评与风险管理:识别、评估和缓解潜在的安全威胁

在信息化时代,数据已成为企业最宝贵的资产之一,而信息安全则成为守护这份资产免受侵害的重中之重。等保测评(信息安全等级保护测评)作为保障信息系统安全的重要手段,其核心在于通过科学、规范、专业的评估手段&#xf…