给定样本集 D = {Xl) 的,… ,xm}, “k 均值” (k-means )算法针对聚类所 得簇划分 C = {C1, C2,…, Ck} 最小化平方误差 ι
E=LL Ilx 一队IIL i=l æEGi
其中队=甘il LæEGi X 是簇 q 的均值向量.在一定程度上 刻画了簇内样本围绕簇均值向量的紧密程度, E 值越小则簇内样本相似度越高.
最小化式并不容易,找到它的最优解需考察样本集 D 所有可能的簇 划分,这是一个 NP 难问题. 因此, k 均值算法采用了贪心策 略,通过迭代优化来近似求解式. 算法流程其中第 1 行对 均值向量进行初始化7 在第 4-8 行与第 9一16 行依次对当前簇划分及均值向量选 代更新?若迭代更新后聚类结果保持不变,则在第 18 行将当前簇划分结果返回.