目录
一、定义与基本假设
二、参数估计
三、模型评估
四、假设检验
五、线性回归的变种
一、定义与基本假设
定义:
线性回归是一种通过建立一个或多个自变量(解释变量)与因变量(响应变量)之间的线性关系模型,来预测因变量数值的统计方法。它假设因变量与自变量之间存在线性关系,即可以通过自变量的线性组合来近似或预测因变量的值。
基本假设:
- 线性关系:因变量与自变量之间存在线性关系,可以表示为 Y=β0+β1X1+β2X2+...+βnXn+ϵ。
- 误差项的正态分布:误差项 ϵ 假设为均值为0,方差为常数的正态分布,且独立于自变量。
- 同方差性:误差项的方差不随自变量的变化而变化,即方差恒定。
- 独立性:观测值之间相互独立,不存在自相关。
- 无多重共线性:自变量之间不存在严格的线性关系,以保证回归系数的唯一性和稳定性。
二、参数估计
最小二乘法:
线性回归中,参数的估计通常使用最小二乘法。该方法通过最小化误差项的平方和(残差平方和RSS)来找到最优的回归系数 β0,β1,...,βn。具体地,就是求解使RSS最小的 β 值。这通常涉及到矩阵运算,特别是解正规方程或使用优化算法(如梯度下降)来求解。
三、模型评估
评估指标:
- 决定系数(R-squared):R-squared是模型预测值与实际值之间相关系数的平方,用于衡量模型拟合的好坏。取值范围为0到1,越接近1表示模型拟合效果越好。
- 均方误差(MSE):MSE是残差平方和的平均值,反映了模型预测值与实际值之间的差异程度。MSE越小表示模型预测越准确。
- 均方根误差(RMSE):RMSE是MSE的平方根,与MSE相比,RMSE与观测值的量纲相同,更便于直观理解。
残差分析:
残差图是评估线性回归模型的一个重要工具,它可以直观地展示每个观测值的残差(即实际值与预测值之差)的分布情况。如果残差图呈现随机分布,没有明显的规律或异常值,则说明模型假设可能成立;如果残差图呈现某种规律或存在异常值,则可能说明模型存在问题,需要进一步检查和调整。
四、假设检验
t检验:
在线性回归中,我们还需要对回归系数的显著性进行检验。t检验是一种常用的检验方法,它通过计算t统计量并与相应的临界值进行比较来判断回归系数是否显著不为0。如果t统计量的绝对值大于临界值(或对应的p值小于显著性水平),则拒绝原假设(即认为回归系数显著不为0)。
F检验:
F检验主要用于多元线性回归中,用于检验整个模型是否显著。它比较了模型预测值与实际值之间的差异与仅使用均值预测时的差异之间的比例关系。如果F统计量足够大(或对应的p值足够小),则拒绝原假设(即认为模型整体显著)。
五、线性回归的变种
除了基本的线性回归外,还有多种变种以适应不同的数据特性和需求。例如:
- 多元线性回归:涉及多个自变量的线性回归模型。
- 多项式回归:当自变量与因变量之间不是简单的线性关系时,可以使用多项式回归来拟合更复杂的曲线关系。
- 岭回归:用于处理自变量间的多重共线性问题,通过在损失函数中加入正则项来约束回归系数的取值范围。
- 套索回归(Lasso Regression):与岭回归类似,但正则项采用L1范数形式,可以实现变量的自动选择和压缩。