先了解什么是莫兰指数?
莫兰指数(Moran's I)是一种用于衡量空间自相关性的统计量,即它可以帮助我们了解一个地理区域内的观测值是否彼此相关以及这种相关性的强度和方向。
白话版:一句话就是判断数据在空间上有没有自相关性。
莫兰指数分类:
- 全局莫兰指数 (Global Moran's I):用于检测整个研究区域内观测值的空间自相关性。如果全局莫兰指数显著不为零,则表明整个区域的数据点在空间上不是随机分布的。
- 局部莫兰指数 (Local Moran's I):由 Luc Anselin 教授在 1995 年提出,用于识别特定位置及其邻域的空间自相关性。这有助于识别热点(高值聚集区)、冷点(低值聚集区)或异常值等局部模式。
莫兰指数的取值范围:
- Moran's I 值范围在(-1,1)之间。Moran's I >0表示空间正相关性,其值越大,空间相关性越明显。Moran's I <0表示空间负相关性,其值越小,空间差异越大,否则,Moran's I = 0,空间呈随机性
应用场景:
- 在地理信息系统 (GIS) 中,莫兰指数常常被用来分析诸如人口密度、疾病分布、环境污染等现象的空间分布模式。
本篇文章着重介绍全局莫兰指数 (Global Moran's I),通过人口普查数据来看我们人口分布在空间上的相关性,我们这里用了2000-2020年这20年的三次人口普查数据,并在省、市、自治区的行政尺度下进行分析,数据来源国家统计局:普查数据 - 国家统计局 (stats.gov.cn),
我们打开工具箱,在【空间统计工具】——>【分析模式】——>【空间自相关】;
输入要分析的图层和需要判断空间相关性的要素字段,另外最好勾选生成报表,这样我们对空间自相会有直观的了解,空间关系的概念化选:INVERSE_DISTANCE 意为:与远处的要素相比,附近的邻近要素对目标要素的计算的影响要大一些,更多空间关系类型可以参考官方文档:
空间自相关 (Global Moran's I) (空间统计)—ArcMap | 文档 (arcgis.com),标准化选:ROW,通常,Global Moran's I 指数介于 -1.0 到 1.0 之间。是只有我们对权重进行了标准化时才会这样。如果没有对权重进行标准化处理,则指数值可能会落在-1.0 到 1.0 的范围之外;
点击确定,生成结果会在下面这个文件夹路径生成,每个人的默认保存路径不同,可以自行查看;
打开这个MoransI_Result.html 的文件,该文件将在默认的浏览器中打开,我们可以看到五个值:Moran's I 指数、预期指数、方差、z 得分及 p 值,
Moran's I 指数、z 得分及 p 值三个值的关系到底怎么看,先看谁?
- p 值用于判断空间自相关性的显著性,帮助我们决定数据是否可以用;
- z 值用于评估 Moran's I 指数与预期随机分布之间的偏差程度,帮助我们了解数据在空间上是否有聚集或离散的趋势;
- Moran's I 指数本身用于量化空间自相关性的强度,帮助我们确定数据是正相关还是负相关。
我们把关注点放在三个值上Moran's I 指数、z 得分及 p 值,我们先看p值;
p 值是在假设检验中用来评估结果的统计显著性的关键指标。在 Moran's I 指数中,p 值用于测试数据是否存在空间自相关性,那我们怎么测试,我们首先要有预期假设,在计算之前我们假设研究区域内的要素之间是随机分布,没有相关性,也就是零假设;
零假设
零假设:所分析的属性在研究区域内的要素之间是随机分布的。
说明在零假设条件下,空间内所分析的属性是不存在自相关性的。在该假设条件下,通过p值和z得分来判断是否拒绝零假设,若拒绝则表明空间中所分析的属性存在自相关性。
p 值
当 p 值小于某个显著性水平(例如 0.1 或 0.01),我们拒绝原假设,这意味着数据中存在空间自相关性,并且这种自相关性不太可能是由随机性造成的。具体来说:
- 如果 p < 0.1,我们可以说在 90% 的置信水平上拒绝原假设,即数据具有空间自相关性。
- 如果 p < 0.01,我们可以说在 99% 的置信水平上拒绝原假设,即数据具有高度的空间自相关性。
- 如果 p > 0.1,我们接受原假设,即数据不具有空间自相关性。
好,新的名词置信水平是什么意思?
置信水平是用来表示对一个估计值的信心程度的概念,通常以百分比的形式表示。常见的置信水平包括:
- 90%置信水平: 表示我们有90%的信心认为真实的参数值位于计算出的置信区间内。
- 99%置信水平: 表示我们有99%的信心认为真实的参数值位于计算出的置信区间内。这个置信水平更高,对于一些要求较高置信度的研究或决策可能会选择使用。
也就是拒绝原假设的信心程度,p < 0.01,即我有99%的信心认为空间中所分析的属性存在自相关性;
z得分
z得分用于衡量观测值与预期值之间的差距。z得分(scores)表示标准差的倍数:
- 当 z > 1.65 时,这通常意味着 Moran's I 指数显著高于随机分布的预期值,数据呈现出聚集分布。
- 当 z < -1.65 时,这通常意味着 Moran's I 指数显著低于随机分布的预期值,数据呈现出离散分布。
- 当 z 在 -1.65 和 1.65 之间时,这通常意味着 Moran's I 指数接近随机分布的预期值,数据呈现出随机分布。
Moran's I 指数本身
Moran's I 指数的值本身提供了关于空间自相关性的强度信息。即使 p 值通过了显著性检验,Moran's I 的值也可以很小,这仅表示存在一定程度的空间效应。然而,当 Moran's I 的值大于 0.2 或者小于 -0.2 时,这表明数据具有明显的空间自相关性。换句话说:
- 如果 Moran's I 接近 +1,表示正的空间自相关性非常强,相邻的数据点有相似的值。
- 如果 Moran's I 接近 -1,表示负的空间自相关性非常强,相邻的数据点有截然不同的值。
- 如果 Moran's I 接近 0,表示数据点之间的值没有明显的关系,接近于随机分布。
那说了这么多,图上的3这个值合起来代表什么意思?
- Moran's I 指数: 这里显示的值为0.049936,这是计算得到的 Moran's I 指数。这个指数用于度量空间数据的自相关性,指数值接近于零,表明数据点之间的关系并不强烈,但仍然显示出一定的正向空间自相关性(因为该值为正)。
- z 得分: 这里的值为0.952106,它是将 Moran's I 指数转换成标准单位后的得分。z 在 -1.65 和 1.65 之间,因此我们可以推断出数据集中的空间自相关性并不显著。
- p 值: 这里的值为0.341043,这是进行假设检验后得出的概率值。我们看p值符合那个标准,p > 0.1,因此我们不能拒绝原假设(即数据是随机分布的),从而无法确认数据存在空间自相关性。
结论就是2020年七普人口数据在空间上不具有空间自相关性。
我们回归主题,再来看一下2010年六普的Moran's I 指数;
2000年五普的Moran's I 指数;
结论
我们通过3次的人口普查数据,可以发现虽然每次对单一年份人口普查数据做空间相关性分析得到的结果都是在空间上无法确认数据存在空间自相关性,但是从Moran's I 指数值上我们可以看出数据集整体表现出轻微的正向空间自相关性,且这种空间自相关性在逐渐减弱,20年间由0.089462减少到0.049936,那造成这些因素的可能的原因是哪些呢?
-
随着户籍制度的淡化,人口可以在不同城市和地区之间更加自由地迁移,这可能导致人口分布更加均匀,减少特定地区的人口密集程度,从而降低空间自相关性。
-
公共服务均等化:随着公共服务的均等化,这可能会减少城乡之间在教育、医疗、社会保障等方面的差距,从而影响人们的选择居住地点的决策,使人口分布更加均衡。
-
劳动力市场的变化:随着户籍限制的放松,劳动力可以在不同地区之间更加自由地流动,这可能会导致劳动力市场更加灵活,减少因户籍因素造成的人力资源分布不均的现象。
文末放一下原始数据:【免费】2024全国行政区边界(省、市、县)资源-CSDN文库
【免费】人口普查数据(五、六、七普)资源-CSDN文库
文章仅用于分享个人学习成果与个人存档之用,分享知识,如有侵权,请联系作者进行删除。所有信息均基于作者的个人理解和经验,不代表任何官方立场或权威解读。