聚类的应用和评估时一个非常定性的过程,通常在数据分析的探索阶段很有帮助。
主要有三种聚类算法:k均值、DBSCAN、凝聚聚类。
这三种算法都可以控制聚类的粒度:k均值和凝聚聚类允许指定想要的簇的数量,而DBSCAN允许你用eps参数定义接近程度,从而简洁影响簇的大小。三种方法都可以用于大型的现实世界数据集,都相对容易理解,也都可以聚类为多个簇。
每种算法的优点:
k均值可以用簇的平均值来表示簇,它还可以被看做一种分解方法,每个数据点都由其簇中心表示;
DBSCAN可以检测到没有分配任何簇的“噪声点”,还可以帮助自动判断簇的数量,它还允许簇具有复杂的形状,DBSCAN有时还会生成大小差别很大的簇(这也可能是它的缺点)。
凝聚聚类可以提供数据的可能划分的整个层次结构,可以通过树状图轻松查看。