回归分析(一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析以及逻辑回归分析)
回归分析中,一般首先绘制自变量和因变量间的散点图,然后通过数据在散点图中的分布特点选择所要进行回归分析的类型,是使用线性回归分析还是某种非线性的回归分析。
回归分析与相关分析对比:
在回归分析中,变量y称为因变量,处于被解释的特殊地位;;而在相关分析中,变量y与变量x处于平等的地位。
在回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以 是非随机的确定变量;而在相关分析中,变量x和变量y都是随机变量。
相关分析是测定变量之间的关系密切程度,所使用的工具是相关系数; 而回归分析则是侧重于考察变量之间的数量变化规律。
统计检验概念:
为了确定从样本(sample)统计结果推论至总体时所犯错的概率。
F值和t值就是这些统计检定值,与它们相对应的概率分布,就是F分布和t分布。统计显著性(sig)就是出现目前样本这结果的机率。
标准差表示数据的离散程度,标准误表示抽样误差的大小。
统计检验的分类:
拟合优度检验:检验样本数据聚集在样本回归直线周围的密集程度,从而判断回归方程对样本数据的代表程度。 回归方程的拟合优度检验一般用判定系数R2实现。
回归方程的显著性检验(F检验):是对因变量与所有自变量之间的线性关系是否显著的一种假设检验。 回归方程的显著性检验一般采用F检验。
回归系数的显著性检验(t检验): 根据样本估计的结果对总体回归系数的有关假设进行检验。
1.一元线性回归分析
定义:在排除其他影响因素或假定其他影响因素确定的条件下,分析某一个因素(自变量)是如何影响另一事物(因变量)的过程。
SPSS操作
2.多元线性回归分析
定义:研究在线性相关条件下,两个或两个以上自变量对一个因变量的数量变化关系。
表现这一数量关系的数学公式,称为多元线性回归模型。
SPSS操作
3.非线性回归分析
定义:研究在非线性相关条件下,自变量对因变量的数量变化关系
非线性回归问题大多数可以化为线性回归问题来求解,也就是通过对非线性 回归模型进行适当的变量变换,使其化为线性模型来求解。
常见的非线性回归模型:双曲线模型、幂函数模型、指数函数模型、对数函数模型、多项式模型
4.曲线估计
曲线估计的方法:首先根据实际问题本身特点,同时选择几种模型;
然后SPSS自动完成模型的参数估计,并显示R2、F检验值、相伴概率值等统计量;
最后,选择具有R2统计量值最大的模型作为此问题的回归模型,并作一些预测。
SPSS操作
5.时间序列的曲线估计
定义:把时间设为自变量x,代表具体的经济或社会现象的变量设为因变量y, 研究变量x与y之间关系的方法
SPSS操作
6.含虚拟自变量的回归分析
考虑定性变量且回归模型的参数不再是固定不变的
如果在回归模型中需要引入多个0-1型虚拟变量D时,虚拟变量的个数应按下 列原则来确定:对于包含一个具有k种特征或状态的质因素的回归模型,如果回归模型不带常数项,则中需引入k个0-1型虚拟变量D;如果有常数项,则只需引入 k-1个0-1型虚拟变量D。当k=2时,只需要引入一个0-1型虚拟变量D。
SPSS操作
7.逻辑回归分析
定义:逻辑回归分析是对定性变量的回归分析
处理定性因变量的统计分析方法有:判别分析(Discriminant analysis)、Probit分析、Logistic回归分析和对数线性模型等。
Logistic回归分析根据因变量取值类别不同,又可以分为Binary Logistic回归分析和Multinominal Logistic回归分析。Binary Logistic回归模型中因变量只能取两个值1和0(虚拟因变量),而 Multinomial Logistic回归模型中因变量可以取多个值。
常用的检验统计量:对数似然值、 伪R2、Wald统计量
SPSS操作