当因变量与自变量间存在线性相关关系时,可以使用线性回归分析方法确定它们之间的相互依赖的定量关系。此处所说的定量关系,并非严格的因果关系,而是自变量X对因变量Y的影响或预测的作用。
例如分析广告费、产品单价、产品满意度、服务满意度对销售收入的影响,如果各自变量与因变量间存在线性相关关系,可建立以销售收入作为因变量,其他4个变量作为自变量的线性回归模型,用于分析它们之间的线性相关关系,或者说研究销售收入的影响因素,并对销售收入进行预测。
本节主要介绍线性回归模型的相关概念,并通过具体实例对多重线性回归、哑变量线性回归做具体研究分析,SPSSAU分析路径为【通用方法】→【线性回归】以及【进阶方法】→【逐步回归】。
一、线性回归模型与检验
1. 回归模型与种类
线性回归可通过回归函数定量化地解释自变量与因变量的关系,这种回归函数称作线性回归模型,用样本数据估计所得的回归方程表达式如下:
上式中, Y^ 为因变量的估计值,β0为常数项,也叫截距,X1,X2,Xp为自变量,β1,β2,βp为偏回归系数,它表示其他自变量不变时指定的某自变量X每变动一个单位时因变量Y的平均变化量。ε称为残差,是因变量真是取值与估计值之间的差值,是一个随机变量。
一般用普通最小二乘法(记为OLS),通过样本数据估计出未知的β,拟合出一条直线使得各样本点与直线的纵向距离最小。
根据线性回归中自变量的个数多少,当线性回归中仅有一个自变量时,称作一元线性回归,比如研究产品质量评分与顾客满意度间的相关关系;当含有多个自变量时,称作多重线性回归(常通俗叫做多元线性回归),其回归系数称之为偏回归系数。例如以销售收入为因变量,同时研究广告费、产品单价、产品满意度、服务满意度与因变量销售收入的相关关系。
多重线性回归,根据自变量引入模型和筛选的方式,可以分为强制引入法多重线性回归和逐步多重线性回归。
2. 模型检验和评价
拟合出线性回归模型后,应对模型总体拟合状况进行检验和评价,通过检验后方可用于影响因素分析或回归预测,模型检验的项目见表 5-8。
(1) 回归方程总体显著性检验
采用方差分析F 检验,对回归方程总体上是否显著(有统计学意义)进行检验。该检验原假设回归方程中至少有一个自变量的回归系数不为0,当回归模型F 检验的概率p值小于0.05则说明模型显著,即至少有一个自变量对因变量的影响有统计学意义,反之若p值大于0.05则说明模型不成立。
(2) 回归系数显著性检验
回归方程总体显著,如果想进一步判断哪些自变量的回归系数是显著的,则需进行t检验。原假设自变量回归系数等于0,回归系数t检验概率p值如果小于0.05则说明该变量回归系数不为0,回归系数有统计学意义,其对因变量有显著影响。反之若p值大于0.05则说明该自变量的回归系数为0,自变量的影响无统计学意义。
(3) 回归方程拟合度评价
拟合优度指的是样本数据各点围绕回归直线的密集程度,用来评价回归模型的拟合质量。一般是用决定系数R方作为评价指标,R方接近1说明回归方程拟合优度良好,R方接近于0则说明回归方程拟合优度差。R方一般解释为回归方程对因变量Y总变异的解释力度,例如R方为0.8,即回归方程可解释因变量Y总变异原因的80%。
一元线性回归时仅输出R方,多重线性回归时同时输出R方和调整后R方。 R方会随着自变量的个数或样本量增加而增大,为了消除这种影响,引进调整后R方,因此多重线性回归时决定系数用调整后R方。
二、线性回归适用条件
线性回归对数据资料是有要求的,因变量须是定量数据,自变量可以是定量也可以是定类,遇到分类数据自变量,此时应以根据实际情况考虑以哑变量形式进行线性回归。线性回归的正确使用,还应满足以下主要适用条件,见表 5-9。
前验指的是在线性回归开始之前进行的检验,后验则是线性回归后利用回归结果(如残差)进行的检验。残差即因变量的观测值与利用回归模型求出的预测值之间的差值,反映了利用回归模型进行预测引起的误差。
(1) 线性关系
自变量与因变量间存在线性关系,这是线性回归最基本的条件。一般在开始线性回归之前,通过绘制自变量与因变量的散点图或进行二者的相关分析可加以判断。如果自变量与因变量是非线性关系,那么需要数据转换后线性回归或进行曲线回归。
(2) 残差正态性
线性回归模型要求其残差服从均值为0方差为 σ2 的正态分布,回归拟合后对其残差进行正态性检验,常用方法例如残差直方图、残差P-P图/Q-Q图,或采用显著性检验方法。如果残差不服从正态性,可考虑对因变量进行正态转换使其满足条件,例如对因变量取对数函数后再重新回归分析。
(3) 残差等方差性
残差等方差性即残差齐次,理论上指的是要求自变量不同取值时,因变量Y的方差相等,可通俗理解为不同Y预测值情况下,残差的方差相等。可利用残差数据绘制残差散点图,用以观察残差与随因变量取值或随预测值的变化趋势。如果残差随机分布,无明显规律可循则说明残差等方差;如果残差的分布有迹可循,例如自变量X值越大,残差项越大或越小,常见的比如残差呈现“喇叭状”,说明残差分布不均,模型具有异方差性,模型质量较差。如果有明显的异方差性,建议处理后重新进行回归分析,比如对Y取对数后再次构建模型等。
(4) 残差独立性
针对回归残差的独立性条件,通常采用Durbin和Watson提出的D-W检验方法。如果D-W值在2附近(1.7~2.3之间),则说明残差独立即没有自相关性,反之若D-W值明显偏离2,则表明存在自相关性(卢纹岱,朱红兵,2015)。如果有明显自相关性,则考虑对因变量进行差分处理或更换分析方法。
(5) 无多重共线性
线性回归中的多重共线性,是指线性回归模型中的自变量之间由于存在强相关关系而使模型估计失真或难以准确估计。对共线性的判断,常见方法是分析变量间的相关性以及排查方差膨胀因子VIF值。如果自变量中出现VIF大于10(严格一些也可以将VIF大于5作为标准),则说明模型中存在严重的多重共线性问题,模型结果不可靠;反之若VIF小于10(或小于5)则说明模型存在共线性问题不严重(贾俊平,2014)。如果呈现出共线性问题,可考虑使用逐步回归分析、主成分回归,或者利用专业经验及变量间的相关性考虑删除个别自变量。
(6) 无明显异常值
异常值的存在对于回归直线方程的拟合、判定系数及显著性检验的结果都有很大的影响,因此对线性回归中异常值的分析不容忽视。可通过残差散点图进行观察,如果发现有明显的离群点应当重视,必要时予以删除或替换处理。
以上内容摘自《SPSSAU科研数据分析方法与应用》第5章——相关影响关系研究,书中不仅涵盖了数据清理、统计分析和模型构建等内容,还提供了丰富的案例,以便于读者在实际研究中应用。