k-means 算法介绍
k-means 算法是一种经典的聚类算法,其目的是将数据集分成 ( k ) 个不同的簇,每个簇内的数据点尽可能接近。算法的基本思想是通过反复迭代优化簇中心的位置,使得每个簇内的点与簇中心的距离之和最小。k-means 算法的具体步骤如下:
-
初始化:随机选择 ( k ) 个点作为初始簇中心。
-
分配簇:对于数据集中每一个点,计算其到所有簇中心的距离,并将其分配到最近的簇。
-
更新中心:重新计算每个簇的中心,即簇内所有点的平均值。
-
重复步骤2和3,直到簇中心不再发生变化或达到预设的迭代次数。
代码示例及可视化
以下是一个使用 Python 实现 k-means 算法并进行可视化的示例:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans# 生成示例数据
np.random.seed(42)
X, _ = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)# 运行 k-means 算法
kmeans = KMeans(n_clusters=4)
kmeans.fit(X)
y_kmeans = kmeans.predict(X)# 绘制结果
plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, s=50, cmap='viridis')# 绘制簇中心
centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, alpha=0.75)
plt.title('k-means Clustering')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.show()
运行结果:
代码解释
-
数据生成:使用
make_blobs
函数生成300个样本点,分成4个簇,每个簇的标准差为0.60。 -
k-means 算法:使用
KMeans
类进行聚类,指定聚类数为4。通过fit
方法对数据进行聚类,并用predict
方法预测每个样本的簇。 -
可视化:使用 Matplotlib 绘制聚类结果。样本点根据其簇类别着色,并用红色标记簇中心。
这个示例展示了如何使用 k-means 算法对数据进行聚类,并通过可视化展示聚类结果和簇中心的位置。
以上内容总结自网络,如有帮助欢迎转发,我们下次再见!