K-maens算法:
算法的原理:
在论文中时,可以把一些可以流程化的算法的流程图加上去
优点:
缺点:
点容易受异常值的影响,且受影响较大
k-means++算法:
使用SPSS进行聚类分析:
S默认使用的是Kmeans++算法
当遇到各变量之间存在量纲的影响时,可以进行标准化,在SPSS中的操作方法为:
分析-描述-描述性统计-勾选将标准化值另存为变量
内容:层次聚类
一.算法流程:
二.距离算法
1.绝对值距离
2.欧式距离
3.马氏距离
4.Minkowski距离
5.Chebyshev距离
三.层次聚类中,组内距离使用方法
1.最短距离法
2.最长距离法
3.组间平均链接法
4.组内平均链接法
5.重心法
方法都是多种多样的,你使用它能解释得通即可
四.SPSS实现
1.分析-分类-系统聚类
2.勾选谱系图
3.选项方法可以选择类与类之间的距离
4.根据数据情况选择是否标准化
5.保存中可以选择聚类的最终类数,也可以不选择,因为可以通过结果中的谱系图来判断选择k值,也可以用算法来选择k
五.肘部法则:用来选择k
1.图的画法:
内容:DBSCAN算法
一.介绍
1.基于密度的算法,前两种都是基于距离的聚类算法,具体原理是:
二.优点
三.缺点
只对本身就有形状的图才有好效果