目录
1)Unsupervised learning introduction
2)K-means algorithm
3)Optimization objective
4)Random initialization
5)Choosing the number of clusters
1)Unsupervised learning introduction
下图是我们之前学习的监督学习,监督学习样本是有标签的,而另一张图是无监督学习样本,是没有标签的。
2)K-means algorithm
k均值是最普及的聚类算法,算法接受一个未标记的数据集,然后将数据集聚类成不同的组。
- k均值是一个迭代算法,假设我们想要将数据聚类成n个组,其方法为;
- 首先选择K个随机的点,称为聚类中心;
- 对于数据集中的每一个数据,按照距离K个中心店的距离,将其与距离最近的中心点关联起来,与同一个中心店关联的所有点聚成一类,计算每一个组的平均值,将该组所关联的中心点移动到平均值的位置。
- 重复上述步骤至中心点不再变化。
下面是一个聚类示例:
下面是K均值算法:
- 对于每一个样例i,计算其应该属于的类 :
- 对于每一个类k,重新计算平均值:
3)Optimization objective
和监督学习类似,我们介绍代价函数:
4)Random initialization
我们前面介绍了K均值算法,代价函数为:
随机初始化:
5)Choosing the number of clusters
聚类数的选择这里提到了肘部法则,但更多的是根据实际问题来选择。