虽然之前用python做线性回归的时候看上去好像很简单,但是直到我在excel上实践了线性回归,发现有很多指标值得去参考,对于在python上实现有指导作用。
打开excel2016,先找个数据
我们这里直接选择做线性回归,在菜单栏选择数据----找到数据分析
点进去后
选择回归,点确定
x值就是指自变量,y值就是因变量
根据线性回归公式
这里是多元线性回归公式,有截距项,有每个自变量的权重,还有随机扰动项
在本案例里,就是两个自变量和一个因变量,因变量选择行驶时间,自变量就是行驶路程和分送次数。
先来看结果
第一个是对模型的解释程度,需要注意是R-Square,这是一个衡量线性回归模型能否很好解释变量的变异程度的指标,R-Square越高模型越好。
R-Square的公式=
什么是SSR:回归平方和,对应下图被直线截取的下部分什么是SST:总离差平方和,对应下图整段
什么是SSE:残差平方和,对应被截取得上部分
也就是说,R-Square其实是回归平方和在总离差平方和的比例,因此引申出来:当线性回归模型增加自变量的时候,SSR是会增大的,SSE会减少,因而R-Square会增大
第二个是方差分析,这里注意F统计量和Significance-F
df是指自由度,SS离差平方和,MS均方离差。
方差分析这里的F统计量,是反映总体回归关系是否存在,因为我们是用样本来估计总体参数,所以当我们评估了样本的模型的R-Square之后,就要进行总体回归关系评估,这里采用的是假设检验的思想:
原假设是认为自变量的系数为0,也就是说自变量和因变量并无线性相关关系
备择假设便是不为0,具有线性相关关系
这里是置信水平95%下,双侧检验的用F统计量来衡量的假设检验
用显著性水平α=0.05,这里的Significance-F < α,代表着:落入拒绝域,也就是拒绝原假设。这里的Significance-F可以理解为p-value
F统计量:
MSR:均方回归离差平方和
MSE:均方残差平方和
关于F统计量,分子是解释所有自变量能够解释因变量的变异,而分母是所有自变量不能解释因变量的变异,因此对于F统计量来说,F值越大,越能说明总体回归关系越强。
所以根据上表,15个观测值的F统计量值大于30.8517的概率是1.8627E-05。这个概率和显著性水平0.05相比较,明显比它要小,因此落入拒绝域,也就是说当所有自变量的系数都为0时,总计15个观测值的F统计量大于30.8517的概率是1.8627E-05。
第三个
当我们知道总体回归关系很强,我们还需要分别看每一个自变量和因变量之间的关系是否显著。这里涉及到t统计量,如上图第二列,截距的值以及自变量的值都估计好了。再看t统计量和对应的p-value 只有截距是大于显著性水平,也就是说我们可以认为它是为0的,不拒绝原假设即截距为0。我们做检验,做置信区间的参数估计,发现在置信水平95%,上限和下限只有截距是包含了0。
这个时候就要考虑,0是否重要。在这里由于样本并没有0,而且截距是根据最小二乘法外推出来的,因此可以选择忽略。但如果样本有0则需要多加留意。
根据统计学的知识,样本参数是总体参数的点估计,所以在估计总体参数的时候引入了置信区间,而95%的置信水平是指从总体随机抽样,100个样本参数的区间有95个样本参数区间包括了总体的参数。
再看剩下那两个参数,它们的p值都小于显著性水平0.05,而且区间不包括0,那么我们就有95%的信心相信,这两个自变量的系数不是0,也就是原假设不成立。
t统计量=
实际上t统计量检验和F统计量检验是一样的。
第四个补充残差
在前面我们知道线性回归的公式里面存在随机扰动项,一般而言,对于我们想要知道是否是有效估计,这个时候我们要用到方程里面的随机扰动项。线性回归方程里任意一组的自变量的取值的残差符合随机扰动项符合均值为0,同方差性的正态分布,也是相互独立的。为了检验是否存在有效性,我们要借助两个工具:一个是回归残差和自变量之间的散点图,以及回归残差和因变量预测值的散点图。
工具一:
可以看到两个变量与残差的散点分布图,残差围绕在0的两侧随机分布,证明了随机扰动项是服从均值为0,同方差的正态分布,也是互相独立的。
a.
但如果看到是服从扇形分布的残差分布,虽然是围绕0的两侧随机分布,但是离散性不一样,代表着并不是同方差的。
b.
如果服从下凸形的分布,说明x的极小值和极大值下,残差是极大的,在x的极大极小之间残差是比较小的,说明了该模型在x的极大极小值的时候高估了它们的预测值,而相对应的则是低估了预测值。
c.
若分布是偏态的,就是不满足正态分布的条件
d.
若符合这种分布,证明随机扰动项并不是独立的,把4个点当一组来看,第二个点总比第一个大而比第三个小,这种只有在时间序列数据里面才会出现的情况。
如果出现上面四种情况,我们就知道了,随机扰动项这项不满足回归分析必要条件,因而我们能质疑该模型能否很好的预测结果,也就是推断结果的可信度大打折扣。
工具二:
利用预测值和回归残差的散点图,如果散点都能围绕在0的附近并保持着较为一致的分布,那么我们就有理由认为,该多元线性回归模型的必要条件没有被违反,是具有可信度的。
总结:
进行线性回归的时候,首先根据得出的直线方程,去判断样本线性回归模型是否具有解释度(SSR,SST,R-Square),是否可信(依据随机扰动项的条件、残差、自变量、因变量散点图),假如样本ok,那么就去推断总体回归关系(假设检验,F统计,p-value,MSR,MSE),然后进行回归参数检验(t检验,p-value,置信区间,置信水平),验证截距项为0是否有意义(下次会讲)
PS:个别图手画太丑请见谅(逃)