聚类
- 1.K-mean
- 2.系统聚类
- 3.DBSCAN聚类算法
聚类:无监督学习,将相似的样本聚为一类。核心如何定义相似。
分类:有监督学习,依据分类准则,将样本划分为不同的类。核心分类器的设计(KNN)
聚类:根据彼此不同的属性进行辨认,将具有相似属性的事物聚为一类,使得同一类的事物具有高度的相似性。
1.K-mean
- 随机选取k个类别中心
- 计算每个样本点到每个中心的距离,将样本归类到距离最近的类中。
- 依据每个类的样本更新类中心
- 重复2,3直至类中心变化小于某个阈值。
K-meas 算法的优点:简介快速,时间复杂度O(nkt)
K-meas 算法的缺点:需要预先知道/设定聚类数量k
2.系统聚类
自底向上的一种方法:初始时,各个样本自成一类,依据定义的相似度,每次合并一个类,不断向上合并直至到达设定了类别数
- 定义样本间距离和类间距离的计算方法,每个样本自成一类
- 计算任意两个类间距离,将距离最短的两个类合并
- 重复步骤2直至聚为k类
样本间距离:欧几里得距离、均方距离、曼哈顿距离(1范数)、余弦距离、最大距离(无穷范数)
类间距离:最大距离、最小距离、平均距离、离差平方和距离
系统聚类的优点:灵活定义的距离对昂使得他有广泛的适用性
系统聚类的缺点:时间复杂度高,一般为o(n3)o(n^3)o(n3)。
3.DBSCAN聚类算法
DBSCAN:density-based spatial clustering of applications with noise
将类定义为:密度相连的点的最大集合,通过在样本空间中不断寻找最大集合从而完成聚类
有几个基本定义:ϵ\epsilonϵ领域,核心对象,直接密度可达,密度可达,密度相连
密度可达是直接密度可达的传递闭包
- 定义半径ϵ\epsilonϵ和MinPts
- 抽取未被访问的样本点q
- 检验是否为核心对象,是-进入步骤4,否-返回步骤2
- 找出该样本点所有密度可达的对象,构成聚类CqC_qCq.
- 重复步骤2,直至所有样本点都被访问过一遍
能在带噪声的样本空间中发现任意形状的聚类并排除噪声
DBSCAN聚类的优点:能够过滤低密度区域,发现稠密样本点。不需要制定聚类数,可以过滤噪声,时间复杂度o(nlogn)o(n\log n)o(nlogn)
(概念稍微复杂点的一个聚类算法)