十二、聚类算法——相似度测量

两套学习资料都类似,可参考聚类算法实战

一、聚类

聚类:物以类聚,人以群分,是无监督学习中的一种。
没有y,只有x,把不同的x根据相似度自动的聚成好多堆儿
本质上,N个样本,映射到K个簇中,每个簇中至少含有一个样本,一个样本只属于一个簇
最基本:先给定一个初始划分,迭代改变样本和簇的隶属关系,每次都比前一次好

二、相似度用于场景

Ⅰ,系统推荐

两点在二维空间距离公式:在这里插入图片描述
两点在三维空间距离公式:在这里插入图片描述
闵可夫斯基距离公式:在这里插入图片描述
当p=2时,即为欧氏距离;当p=1时,即为曼哈顿距离(Block Distance);当p趋近于∞,即为切比雪夫距离。

Jaccard similarity coefficient,用于比较有限样本集之间的相似性与差异性
Jaccard系数值越大,样本相似度越高
在这里插入图片描述
例如:狗蛋儿喜欢1,2,3,4,5
系统给狗蛋儿推荐方案①[1,2,3,6,7,8],方案②[1,2,3]
这两个方案按个推荐的效果好?此时就可以通过Jaccard相似系数来进行比较
方案①:3/8、方案②:3/5
故方案②效果更佳

在这里插入图片描述

集合A和集合B相交越多,它的相似性越强,当然要考虑它们并在一起的大小,因为集合越大越可能相交的越多,这就有了Jaccard相似系数
可以度量集合,考虑热门商品
空间嵌入点的问题,有时会用欧式距离,有时会用余弦距离,度量文档相似性

Ⅱ,网页去重、防考试作弊、论文抄袭检查等

在这里插入图片描述

Ⅲ,余弦相似度

余弦距离,余弦相似度
在这里插入图片描述
在这里插入图片描述
余弦值的范围在[-1,1]之间,值越趋近于1,代表两个向量的方向越接近;越趋近于-1,他们的方向越相反;越趋近于0,这两个向量几乎正交
最常见的应用是计算文本相似度,将两个文本根据他们的词,来建立两个向量,计算这两个向量的余弦值,就可以知道这两个文本在统计学方法中他们的相似度情况
文档相似度测量考虑推荐SimHash
余弦其实就是Jaccard的分母,看重的是相同的部分,如果是欧氏距离,看重的是差异

Ⅳ,Person相关系数(只能测量线性相关性,1为最相似)和相对熵

①Person相关系数

在这里插入图片描述
在这里插入图片描述
当该公式中的X^和Y ^为零时,就变成了余弦相似度

两个变量之间的皮尔逊相关系数定义为:两个变量之间的协方差(分子)和标准差(分母)的商

②相对熵

P和Q相同,相对熵为0
在这里插入图片描述
相对熵为交集∩,交叉熵为并集∪

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/377749.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

leetcode 344. 反转字符串 541. 反转字符串 II 双指针解

目录leetcode 344.反转字符串1、题目2、思考leetcode 541. 反转字符串 II1、题目2、思考leetcode 344.反转字符串 1、题目 2、思考 典型的双指针解法: 一个从前往后,一个从后往前,指针对应的交换即可。 class Solution { public:void reve…

十三、聚类算法

六、聚类算法实战 一、聚类 聚类是一种无监督的机器学习任务,可以自动将数据划分为类cluster,因此聚类分组不需要提前被告知所划分的组应该是什么样子的。因为我们甚至可能都不知道我们在寻找什么,所以聚类是用于知识发现而不是预测。 聚类…

pl/sql中的赋值运算符_如何在SQL中使用AND / OR运算符?

pl/sql中的赋值运算符Basically, AND / OR operator is used to retrieving the record from the database. If we give more than one conditions by using AND Operator, then it retrieves the data from the database when both the conditions are true. And if we use OR…

【C++grammar】名字隐藏与重定义

目录1、继承中的名字隐藏1.基类同名函数被隐藏的现象描述2.问题理解3.避免现象2、重定义1.现象描述2.重定义与重载的区别3.能否使用 using 将基类成员引入到派生类定义中1、继承中的名字隐藏 1.基类同名函数被隐藏的现象描述 在学习变量作用域的时候知道,全局变量…

十四、聚类实战——图片压缩

对同一像素点值的像素点归为一类,通过平均值进行取代,从而将图像进行压缩并且保证图像尽可能不失真,关键信息仍保留。 from PIL import Image import numpy as np from sklearn.cluster import KMeans import matplotlib import matplotlib.…

步骤菜单使用css3实现

代码库:http://thecodeplayer.com/walkthrough/css3-breadcrumb-navigation 有兴趣的可以看一下,看完绝对让你大饱眼福。首先截图,看效果看着很酷吧,其实实现起来也不是很难,里边需要用的技术有:box-shadow,计数器&…

【嵌入式系统】STM32串口通信的四种方法(基于RTOS)

目录1、串行通信的基本参数2、轮询方式代码效果3、中断方式代码效果4、中断加上时间戳方式代码及效果5、DMA空闲中断方式接收数据1、串行通信的基本参数 串行端口的通信方式是将字节拆分成一个接一个的位再传输出去,接收方再将此一个一个的位组合成原来的字符&…

十五、聚类的评估

一、Given Label 均一性homogeneity:一个簇中只包含一个类别样本,Precision 完整性completeness:同类别样本被归到同一个簇中,Recall 将均一性h和完整性c进行结合(二者加权平均)得到V-Measure,,β为权重 …

SQL SERVER作业的Schedules浅析

SQL SERVER作业的计划(Schedules),如果你没仔细研究过或没有应用一些复杂的计划(Schedules),那么你觉得SQL SERVER作业的计划(Schedules)非常好用,也没啥问题,但是我要告诉你一个“残…

leetcode 51. N 皇后 思考分析

目录题目思考AC代码题目 n 皇后问题研究的是如何将 n 个皇后放置在 nn 的棋盘上,并且使皇后彼此之间不能相互攻击。 思考 首先以N4为例,画出解空间树的一部分: 根据模板: void backtracking(参数) {if(终止条件){存放结果…

No module named ‘tensorflow.examples‘解决方案

想从tensorflow中导入mnist手写数字数据集,结果报错 from tensorflow.examples.tutorials.mnist import input_data import tensorflow.compat.v1 as tf tf.disable_v2_behavior()my_mnist input_data.read_data_sets("MNIST_data_bak/", one_hotTrue)&…

.NET通用基本权限系统

DEMO下载地址: http://download.csdn.net/detail/shecixiong/5372895 一、开发技术:B/S(.NET C# ) 1、Windows XP以上 (支援最新Win 8) 2、Microsoft Visual Studio 2010/2012 C#.NET 3、.NET Framework 4.0以上 (支援最新4.5版本) 4、SQL Server 2005以…

leetcode 37. 解数独 思考分析

目录题目核心思路的不断细化1、核心框架2、考虑到每个位置的工作3、考虑到到达最后一列、该位置的数已经预置的情况4、判断是否符合规则的函数5、确定递归终止条件确定函数返回值AC代码题目 编写一个程序,通过填充空格来解决数独问题。 一个数独的解法需遵循如下规…

快速完成兼职外包开发任务

做了很多年的开发相关的工作,做过兼职开发,也做过外包一些开发项目。 兼职人员角色时 正是经历这些事情时,每次就要提前很费经的跟公司沟通,让他们把公司内部的svn开发出去,但是就是很难,会涉及到安全各方的…

使用YOLOv5训练NEU-DET数据集

一、下载YOLOv5源码和NEU-DET(钢材表面缺陷)数据集 YOLOv5源码 NEU-DET(钢材表面缺陷)数据集 这里的数据集已经经过处理了,下载即可 若通过其他途径下载的原始数据集标签为xml格式,需要转化为txt格式XML转txt格式脚本 二、数据集准备 NEU-DET(钢材表…

带分页功能的SSH整合,DAO层经典封装

任何一个封装讲究的是,使用,多状态。Action:任何一个Action继承分页有关参数类PageManage,自然考虑的到分页效果,我们必须定义下几个分页的参数。并根据这个参数进行查值。然后在继承ServiceManage,Service…

leetcode 198. 打家劫舍 思考分析

目录1、题目2、求解思路3、代码1、题目 你是一个专业的小偷,计划偷窃沿街的房屋。每间房内都藏有一定的现金,影响你偷窃的唯一制约因素就是相邻的房屋装有相互连通的防盗系统,如果两间相邻的房屋在同一晚上被小偷闯入,系统会自动…

找不到Windows照片查看器解决方法

桌面创建一个txt文本 复制这些命令,之后将后缀改为.reg,右击管理员身份运行即可 Windows Registry Editor Version 5.00 ; Change Extensions File Type [HKEY_CURRENT_USER\Software\Classes\.jpg] "PhotoViewer.FileAssoc.Tiff" ; Change E…

伙伴分配器的一个极简实现

提起buddy system相信很多人不会陌生,它是一种经典的内存分配算法,大名鼎鼎的Linux底层的内存管理用的就是它。这里不探讨内核这么复杂实现,而仅仅是将该算法抽象提取出来,同时给出一份及其简洁的源码实现,以便定制扩展…

[USACO3.2.3 Spinning Wheels]

[关键字]:模拟 枚举 [题目大意]:有5个轮子,每个轮子优r个缺口并且会按一定速度不停转动,问什么时候可以使一条光线射过所有轮子。 // [分析]:从0到1000(或其他的)枚举分钟然后判断,当…