基于无监督学习算法的滑坡易发性评价的实施
- 1. k均值聚类
- 2. 谱聚类
- 3. Hier聚类
- 4. 基于上述聚类方法的易发性实施
本研究中的数据集和代码可从以下链接下载:
- 数据集
- 实施代码
1. k均值聚类
K-Means 聚类是一种矢量量化方法,最初来自信号处理,旨在将 N 个观测值划分为 K 个聚类,其中每个观测值都属于具有最接近均值的聚类(聚类中心或聚类质心),作为聚类的原型。这导致将数据空间划分为 Voronoi 单元。k-means 聚类最小化了聚类内方差(欧几里得距离的平方),但不能最小化正则欧几里得距离,这将是更困难的韦伯问题:均值优化平方误差,而只有几何中位数最小化欧几里得距离。例如,使用 k 中位数和 k-中位数可以找到更好的欧几里得解。
2. 谱聚类
在多元统计中,谱聚类技术利用数据相似性矩阵的谱(特征值)在聚类到较少的维度之前执行降维。相似性矩阵作为输入提供,包括对数据集中每对点的相对相似度的定量评估。
在图像分割的应用中,光谱聚类被称为基于分割的对象分类。
聚类前
聚类后
3. Hier聚类
在数据挖掘和统计中,分层聚类(也称为分层聚类分析或 HCA)是一种聚类分析方法,旨在构建聚类层次结构。分层聚类的策略通常分为两类:
聚集:这是一种“自下而上”的方法:每个观测点从其自己的聚类开始,随着聚类的向上移动,成对的聚类会合并。
除法:这是一种“自上而下”的方法:所有观察值都从一个聚类开始,当一个聚类向下移动时,以递归方式执行拆分。
一般来说,合并和拆分是以贪婪的方式确定的。分层聚类[1]的结果通常以树状图的形式呈现。
分层聚类具有明显的优势,即可以使用任何有效的距离度量。事实上,观测本身并不是必需的:所使用的只是一个距离矩阵。另一方面,除了单联动距离的特殊情况外,其他算法可以保证找到最佳解决方案。
聚类前
聚类后
4. 基于上述聚类方法的易发性实施
数据集见链接:埕岛海域数据集
- 通过gis数据处理得到同一投影坐标系下的海底滑坡相关的因子
在这里插入代码片
因子——水深、坡度、坡向、沉积物类型、波致剪应力
2. 对数据进行重分类,采用Arcgis空间分析中的重分类工具
#数据探索
import rasterio
rs1=rasterio.open(r'Sea_mct_560_evaluate\Reclass_560\Rebathy.tif')
result1=rs1.read(masked=True)
rs2=rasterio.open(r'Sea_mct_560_evaluate\Reclass_560\Reslope.tif')
result2=rs2.read(masked=True)
rs3=rasterio.open(r'Sea_mct_560_evaluate\Reclass_560\Reaspect.tif')
result3=rs3.read(masked=True)
rs4=rasterio.open(r'Sea_mct_560_evaluate\Reclass_560\Resediment.tif')
result4=rs4.read(masked=True)
rs5=rasterio.open(r'Sea_mct_560_evaluate\Reclass_560\Reshear.tif')
result5=rs5.read(masked=True)
import matplotlib.pyplot as plt
from rasterio.plot import show
from matplotlib import colors,cm
fig,ax=plt