为综合评价我国2006年省级地区服务业发展水平,现构建我国省级地区服务业发展水平综合评价指标体系,具体如下:铁路运输业职工人数(人)、城市公共交通业职工人数(人)、邮政业职工人数(人)、电信和其他信息传输服务业职工人数(人)、客运量(万人)、接待入境旅游人数(万人次)、普通高校师生比(%)、星级住宿业营业额(亿元),请利用主成分分析法抽取主成分,并对我国31个省级地区服务业发展水平进行综合排名。
数据如下:
北 京 87695 175786 28780 57792 8751 390.29 15.81 190.9天 津 16257 15663 4637 14158 5443 88.05 16.59 22.5河 北 75136 21819 23226 49072 83955 72.48 18.16 30.8山 西 107516 16601 19061 32639 42240 57.37 17.77 26.0内蒙古 81222 10919 12107 30309 35307 123.24 15.54 17.4辽 宁 111074 41256 18891 36133 63942 161.29 17.48 53.1吉 林 71198 15570 14207 26692 28903 43.48 16.86 17.3黑龙江 120681 12677 20762 38268 60200 106.37 17.96 14.4上 海 25701 103478 14101 21430 8505 464.63 17.46 145.7江 苏 59902 39137 23320 50086 161297 445.19 18.54 104.9浙 江 23989 35009 20080 41466 175090 426.82 18.67 154.5安 徽 31825 26078 13794 27293 78938 80.37 18.47 24.6福 建 28761 19630 16159 33712 58883 229.67 17.33 50.5江 西 57727 12683 16785 24877 42996 49.72 18.91 17.4山 东 69993 43983 19092 44768 109471 193.13 17.07 84.1河 南 101546 36253 24254 41819 107915 75.74 18.40 45.8湖 北 70165 35820 16366 51588 73930 105.57 17.79 35.1湖 南 72584 24540 18312 32765 118466 97.08 18.66 44.6广 东 53057 87894 36132 94211 186996 2089.71 18.15 236.3广 西 45537 16018 11917 27365 55705 170.77 17.19 30.3海 南 3560 2172 3039 6929 31571 61.69 19.07 32.1重 庆 21249 22175 10596 22286 61128 60.32 18.20 23.1四 川 47224 31774 19902 44004 194712 140.17 18.21 40.7贵 州 29076 9626 8435 12100 69270 32.14 18.39 10.6云 南 39792 11122 11021 24846 43387 181.00 17.60 29.6西 藏 145 226 2161 2904 483 15.48 14.11 2.4陕 西 92679 10431 18084 22524 43331 106.10 15.84 27.1甘 肃 45759 21160 6594 15011 19083 30.32 18.01 8.8青 海 13775 4566 1922 6664 5243 4.21 14.13 3.1宁 夏 12009 2348 3102 4452 7548 0.86 17.27 4.1新 疆 35886 13213 11959 17608 25504 36.25 16.69 24.3
操作步骤如下:
1、将数据导入spss,并定义变量,将铁路运输业职工人数(人)、城市公共交通业职工人数(人)、邮政业职工人数(人)、电信和其他信息传输服务业职工人数(人)、客运量(万人)、接待入境旅游人数(万人次)、普通高校师生比(%)、星级住宿业营业额(亿元)分别定义为x1,x2,x3,x4,x5,x6,x7,x8
如图:
2、对数据进行标准化处理
①选择【分析】—【描述统计】—【描述】
②添加要标准化的变量,勾选【将标准化值另存为变量(Z)】,再点确定
③返回原来的数据窗口就可以看见标准化后的变量了
3、SPSS软件本身不提供主成份分析,我们的操作是利用因子分析的一些功能完成主成分分析,操作如下:
①选择【分析】—【降维】—【因子】
②将标准化后的变量选入变量框中
③点击【描述】进入描述框,勾选【系数】,再点击【继续】【确定】
4、在数据输出窗口,可以看到下面三个表格,表1、表2、表3:
表1:
表2:
表3:
从表1可知x1与x3、x3与x4、x6与x8等几个指标存在着极其显著的关系。可见许多变量之间直接的相关性比较强,证明他们存在信息上的重叠。
主成分个数提取原则主要包括两个标准,第一个是为主成分对应的特征值大于1的前m个主成分,第二个是前m个主成分累计贡献率大于85%。
对于第一个原则:特征值在某种程度上可以被看成是表示主成分影响力度大小的指标,如果特征值小于1,说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大,因此一般可以用特征值大于1作为纳入标准。对于第二个原则,累计贡献率反映了前m个主成分,反映了原来总体样本85%以上的信息,基本反应了原来数据的总体情况。
通过表2可知,前三个主成分的特征值大于1,且累计贡献率达到87.777%,前4个主成分的累计贡献率达到94.614%,并不同时满足两个选择主成分的标准。我们可以选择以下处理方法:
①坚持特征至大于1的原则(本例可提取前3个主成分,即m=3)
②坚持累计贡献率大于85%的原则(本例可提取3个主成分,即m=3)
③从解释变量的角度出发,两者兼顾,看提取几个主成分更容易从经济学的角度对各主成分进行解释,更能说明问题;
本例子中,由三个处理方法可知,选择提取3个主成分最合适,结合表3,我们可知:
第一个主成分中x2、x3、x4、x5、x6、x8较大,说明第一主成分基本反映了这些指标的信息;
x7在第二主成分上有较大,说明第二主成分基本反映了x7这个指标的信息;
x1在第三个主成分中较大,说明第三主成分基本反映了x1这个指标的信息;
我们发现,提取3个主成分因子时,从经济学上很容易对三个主成分进行解释,第一个主成分反映地区经济发展水平,第二个主成分反映地区教育发展水平,第三个主成分反映地区铁路运输发展水平。我们可以以此为依据对3个主成分进行命名。
有时候根据处理方法的原则,分为默认的几个成分是不可取的,比如本例分了三个成分,可是有可能事先我们不能根据经验判断需要分几个成分,那么该怎么办呢???
那我们可以再做以下操作,前面的操作我们是按特征值大于1的标准进行提取,是默认选择,由前面的分析可知,在这里我们是提取3个因子的,那么这次我们尝试提取4个因子,再看看它的结果是怎么样的:
操作如下:选择【分析】—【降维】—【因子】—【提取】,勾选【因子的固定数目】,在【要提取的因子数】填入4,然后点击继续、确定,得到表4、表5
按4个因子进行提取后,我们在结果输出窗口,可以看到表4和表5与表2和表3有一些不同。
表4
表5
从表5(成分矩阵)中可以看出:
第一个主成分中x2、x3、x4、x5、x6、x8较大,说明第一主成分基本反映了这些指标的信息;
x7在第二主成分上有较大,说明第二主成分基本反映了x7这个指标的信息;
x1在第三个主成分中较大,说明第三主成分基本反映了x1这个指标的信息;
可是第四主成分里面没有较大的指标,没有反映哪个指标,所以还是分为三个成分比较好。那么如果再继续提取5、6…个因子也就没有意义了
温馨提示!!!
如果不知道提取几个因子,除了可以根据上述几个原则判断外,我们也可以选择笨一点的办法,多试着提取不同数的因子呗
5、将表3(成分矩阵)的3列数据复制粘贴到数据编辑窗口,并定义变量为:B1、B2、B3
6、计算:【 成分矩阵数据 / sqrt(主成分相对应的特征值) 】 便得到3个主成分中每个指标所对应的系数。
①点击【转换】—【计算变量】
②分别计算特征向量A1、A2、A3
A1=B1 / SQR(4.465)、A2=B2/SQR(1.402)、A3=B3/SQR(1.154)
③得到结果
7、将得到的特征向量与标准化后的数据相乘,然后就可以得出主成分得分值。将前面9个指标转换成F1、F2、F3 三个指标来反映地区服务业发展水平,F1、F2、F3 的线性组合为:
8、以每个主成分所对应的特征值占所提取主成分总的特征值之和的比例作为权重计算主成分综合评价模型:
特征值在表2中
9、可以利用Excel计算F1,F2,F3,F4,当然也可以用其他软件进行计算
10、结语:
依据综合评价排名可对各省级地区的服务业发展水平排序,可知前三名是广东、北京、江苏,所以依据这个结果可知,在我国2006年省级地区的服务业中广东发展水平最高,北京次之,江苏第三,还可以根据综合评价排名得出2006年其他省级地区服务业发展水平高低。由于我自身水平有限,读者还可以根据自己的想法来评价上述内容。
加油!!! |