1、导入数据
#导入花萼数据
from sklearn.datasets import load_iris
iris=load_iris()
iris.data
前四列为花萼长度,花萼宽度,花瓣长度,花瓣宽度等4个用于识别鸢尾花的属性
2、建模
#创建kmeans聚类
from sklearn.cluster import KMeans
kmeans=KMeans(n_clusters=3,init='k-means++',random_state=123) #分为三类
y_kmeans=kmeans.fit_predict(iris.data)
y_kmeans
可以看出0聚类得很好,但是2当中夹杂着1,1中夹杂着2,1和2存在混淆
3、可视化聚类模型
import matplotlib.pyplot as plt
#画出了三个类的中心点位置
plt.scatter(iris.data[y_kmeans==0,2],iris.data[y_kmeans==0,3],s=100,c='red',label='Cluter 1')
plt.scatter(iris.data[y_kmeans==1,2],iris.data[y_kmeans==1,3],s=100,c='blue',label='Cluter 2')
plt.scatter(iris.data[y_kmeans==2,2],iris.data[y_kmeans==2,3],s=100,c='green',label='Cluter 3')plt.scatter(kmeans.cluster_centers_[:,2],kmeans.cluster_centers_[:,3],s=100,c='black',label='Controids')
plt.legend()
plt.show()
从图上可以看出,第0类为花瓣长度,花瓣宽度较低的类别,第1类为花瓣长度,花瓣宽度居中的类别,图中黑点为三个类别的中心点
4、模型优化
对于聚类模型,分多少类是关键点,每类数据到其中心点的距离之和,值越小据类越好,但是当类别越多,k自然就越小,值对应的也就越小,因此有一种判定方法当快速下降趋于平缓下降的转折点,为聚类的最好情况。
vess=[]
for i in range(1,4):kmeans=KMeans(n_clusters=i,init='k-means++',random_state=42)kmeans.fit(iris.data)vess.append(kmeans.inertia_)#kmeans.inertia_ 每类数据到其中心点的距离之和
plt.plot(range(1,4),vess)
plt.show()
可以发现到横坐标为2时,中心点距离缓慢下降,所以分成两类会比较好
以上简单的聚类模型建立完毕啦,后续再优化吧