先直接回答问题,R方表示可决系数,反映模型的拟合优度,也就是模型的解释能力如何,也可以理解为模型中的各个解释变量联合起来能够在多大程度上解释被解释变量;F值用于模型整体的统计显著性,对应的P值越小,比如在0.05以下,则说明模型整体上具备统计显著性。
下面看个例子:
6.1.3 最小二乘线性回归分析示例
本节我们使用“数据6”数据文件为例。“数据6”中记录的是XX生产制造企业1997-2021年营业利润水平(profit)、固定资产投资(invest)、平均职工人数(labor)、研究开发支出(rd)等数据,如图6.1所示。
下面我们以营业利润水平作为因变量,以固定资产投资、平均职工人数、研究开发支出作为自变量,开展线性回归分析。
1. 线性回归分析
打开上述数据文件之后,在主界面的命令窗口中依次输入命令:
regress profit invest labor rd
本命令的含义是以营业利润水平作为因变量,以固定资产投资、平均职工人数、研究开发支出作为自变量,开展线性回归分析(regress命令后面紧邻的第一个变量是因变量,其他所有的变量都是自变量)。分析结果如图6.2所示。
从上述分析结果中可以得到很多信息,可以看出共有25个样本参与了分析( Number of obs = 25),模型的F值(3, 21) =1650.89,P值(Prob > F)= 0.0000,说明模型整体上是非常显著的。模型的可决系数(R-squared)为0.9958,模型修正的可决系数(Adj R-squared)= 0.9952,说明模型的解释能力是非常高的。
模型的回归方程是:
profit=2.859037*invest+2.6269*labor+3.127479*rd-315.6367
变量invest的系数标准误是0.9396771,t值为3.04,P值为0.006,系数是非常显著的,95%的置信区间为[0.904872,4.813203]。变量labor的系数标准误是0.413203,t值为6.36,P值为0.000,系数是非常显著的,95%的置信区间为[1.767598,3.486203]。变量rd的系数标准误是1.151358,t值为2.72,P值为0.013,系数是非常显著的,95%的置信区间为[0.7330987,5.52186]。常数项的系数标准误是474.8465,t值为-0.66,P值为0.513,系数也是非常显著的,95%的置信区间为[-1303.134,671.8607]。
从上面的分析可以看出固定资产投资、平均职工人数、研究开发支出3个自变量对于因变量的营业利润水平都是正向显著影响,自变量每一单位的增长都会显著引起因变量的增长。
本案例节选自《Stata统计分析从入门到精通》 杨维忠、张甜 清华大学出版社。关于学习Stata与计量经济学的问题,如果大家只是为了写论文,而不是专门的计量经济学专业、研究计量理论方法的,推荐学习路径如下:如果是新手可以先学习这本书《Stata统计分析从入门到精通》 杨维忠、张甜 清华大学出版社。
2022年新书,山东大学陈强教授作序推荐。
本书专为计量经济学基础薄弱或学不进去,但又有写论文的读者入门所设计,注重应用,较少数学推导。边看书边操作,学的差不多了以后,再多看你目标研究领域的高质量的研究文献,看看人家用的什么方法,比如政策效应检验、结构方程模型等等,再针对性的学习那些相对较难、比较专业的方法就可以(到了那个阶段和层次,基本就可以通过看文献自学了;而针对一些前沿的方法或者要更加系统的学习,参加陈强老师的培训班也是一个很好的选择)。
创作不易,恳请多多点赞,欢迎大家多多关注我,一起学习Stata/SPSS/Python,感谢大家的厚爱支持!