两套学习资料都类似,可参考聚类算法实战
一、聚类
聚类:物以类聚,人以群分,是无监督学习中的一种。
没有y,只有x,把不同的x根据相似度自动的聚成好多堆儿
本质上,N个样本,映射到K个簇中,每个簇中至少含有一个样本,一个样本只属于一个簇
最基本:先给定一个初始划分,迭代
改变样本和簇的隶属关系,每次都比前一次好
二、相似度用于场景
Ⅰ,系统推荐
两点在二维空间距离公式:
两点在三维空间距离公式:
闵可夫斯基距离公式:
当p=2时,即为欧氏距离;当p=1时,即为曼哈顿距离(Block Distance);当p趋近于∞,即为切比雪夫距离。
Jaccard similarity coefficient,用于比较有限样本集之间的相似性与差异性
Jaccard系数值越大,样本相似度越高
例如:狗蛋儿喜欢1,2,3,4,5
系统给狗蛋儿推荐方案①[1,2,3,6,7,8],方案②[1,2,3]
这两个方案按个推荐的效果好?此时就可以通过Jaccard相似系数来进行比较
方案①:3/8、方案②:3/5
故方案②效果更佳
集合A和集合B相交越多,它的相似性越强,当然要考虑它们并在一起的大小,因为集合越大越可能相交的越多,这就有了Jaccard相似系数
可以度量集合,考虑热门商品
空间嵌入点的问题,有时会用欧式距离,有时会用余弦距离,度量文档相似性
Ⅱ,网页去重、防考试作弊、论文抄袭检查等
Ⅲ,余弦相似度
余弦距离,余弦相似度
余弦值的范围在[-1,1]之间,值越趋近于1,代表两个向量的方向越接近;越趋近于-1,他们的方向越相反;越趋近于0,这两个向量几乎正交
最常见的应用是计算文本相似度,将两个文本根据他们的词,来建立两个向量,计算这两个向量的余弦值,就可以知道这两个文本在统计学方法中他们的相似度情况
文档相似度测量考虑推荐SimHash
余弦其实就是Jaccard的分母,看重的是相同的部分,如果是欧氏距离,看重的是差异
Ⅳ,Person相关系数(只能测量线性相关性,1为最相似)和相对熵
①Person相关系数
当该公式中的X^和Y ^为零时,就变成了余弦相似度
两个变量之间的皮尔逊相关系数定义为:两个变量之间的协方差(分子)和标准差(分母)的商
②相对熵
P和Q相同,相对熵为0
相对熵为交集∩,交叉熵为并集∪