机器学习之聚类概述

什么是聚类

聚类就是对大量未知标注的数据集,按照数据 内部存在的数据特征 将数据集划分为 多个不同的类别 ,使 类别内的数据比较相似,类别之间的数据相似度比较小;属于 无监督学习

聚类算法的重点是计算样本项之间的 相似度,有时候也称为样本间的 距离

和分类算法的区别:

  • 分类算法是有监督学习,基于有标注的历史数据进行算法模型构建
  • 聚类算法是无监督学习,数据集中的数据是没有标注的

有个成语到“物以类聚”,说的就是聚类的概念。直白来讲,就是把认为是一类的物体聚在一起,也就是归为一类(聚在一起的叫一个 簇)。

聚类的思想

给定一个有M个对象的数据集,构建一个具有k个 簇 的模型,其中k<=M(这是肯定的,不可能有3个对象,我划分成4个类吧)。满足以下条件:

  • 每个簇至少包含一个对象
  • 每个对象属于且仅属于一个簇
  • 将满足上述条件的k个簇成为一个合理的聚类划分

总的一个思路就是:对于给定的类别数目k,首先给定初始划分,通过迭代改变样本和簇的隶属关系,使的每次处理后得到的划分方式 比上一次的好 (总的数据集之间的距离和变小了)

相似度/距离公式

上面一直提到什么相似度或距离,特征空间中两个实例点的距离就是两个实例点相似程度的反映。我们也经常用到欧式距离,除此之外还有哪些,这里罗列一些相关公式,因为好多不常用,所以只做简要介绍,或者仅仅提及一下。

1. 闵可夫斯基距离(Minkowski),也叫范式

对于两个 n 维的数据 X,Y 

dist(X,Y)=\sqrt[^{^{^{^p}}}]{\sum_{i=1}^n|x_i - y_i|^p} 这里  p \geq1

也就是先求各维度的差值,然后把这些差值都取 p 次方,接着累加起来,最后把累加的结果开p次方。

(1) 当 p=1 p=1p=1 时,称为曼哈顿距离( Manhattan distance,也称为曼哈顿城市距离),也叫1范式,即

M\_dist = \sum_{i=1}^n |x_i - y_i|

以两维的数据为例:

å¨è¿éæå¥å¾çæè¿°

上面的图就像我们的城市公路,比如说从左下角到右上角,我们可以按红线(就是两点间的曼哈顿距离)、蓝线或黄线走,最终都可等效成红线。而绿线就是下面说的欧氏距离。

(2)当 p=2 p=2p=2 时,称为欧氏距离 (Euclidean distance) ,也叫2范式,即

E\_dist=\sqrt{\sum_{i=1}^n|x_i - y_i|^2}

(3)当 p=∞  时,称为切比雪夫距离(Chebyshev distance)

C\_dist=\sqrt[^{^{^{^\infty}}}]{\sum_{i=1}^n|x_i - y_i|^\infty}= \max _i(|x_i - y_i |)

也就是上图中,如果横轴的差值大于纵轴的差值,则就为红线中的横线部分;反之就是纵线部分。即,只关心主要的,忽略次要的。

2 . 标准化欧式距离(Standardized Euclidean Distance)

X^* = \frac{X-\bar{X}}{s}

这是进行标准化,在数据处理时经常用到。s 表示方差,s=\sqrt{\frac{\sum_{i=1}^n ( s_i - \bar{s})}{n}}s

标准的欧式距离 \quad S\_E\_D = \sqrt{\sum_{i=1}^n \left( \frac{x_i -y_i}{s_i} \right)}

 

3 . 夹角余弦相似度(Cosine)

a = (x_{11},x_{12},...,x_{1n}), b = (x_{21},x_{22},...,x_{2n})
\cos(\theta) = \frac{\sum_{k=1}^n x_{1k}x_{2k}}{\sqrt{\sum_{k=1}^n x_{1k}^2}*\sqrt{\sum_{k=1}^n x_{1k}^2}} = \frac{a^T \cdot b}{|a||b|}

其实就是利用了我们中学所学的余弦定理。

4 . KL距离(相对熵)
D(P||Q)=\sum_x P(x) \log \left( \frac{P(x)}{Q{x}} \right)

KL距离在信息检索领域,以及自然语言方面有重要的运用。具体内容可以参考《【ML算法】KL距离》

5 . 杰卡德相似系数(Jaccard)

J(A,B)=\frac{|A \cap B|}{A \cup B}

目标检测中,经常遇到的IOU,就是这种形式。

dist(A,B)=1-J(A,B)=\frac{|A \cup B|-|A \cap B|}{|A \cup B|}

很显然,杰卡德距离是用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度。

6 . Pearson相关系数

\rho _{XY} = \frac{Cov(X,Y)}{\sqrt{D(X)} \sqrt{D(Y)}} = \frac{E[(X-E(X))(Y-E(Y))]}{\sqrt{D(X)} \sqrt{D(Y)}}=\frac{\sum_{i=1}^n (X_i-\mu_X)(Y_i-\mu_Y)}{\sqrt{\sum_{i=1}^n(X_i-\mu_X)^2}*\sqrt{\sum_{i=1}^n(Y_i-\mu_Y)^2}}

dist(X,Y)=1-\rho_{XY}    

Pearson相关系数是统计学三大相关系数之一,具体内容可以参考《如何理解皮尔逊相关系数(Pearson Correlation Coefficient)?》

常见聚类算法

常见的算法,按照不同的思想可进行以下划分,当然还会有一些相应的优化算法,随后的博客也会一一介绍。

å¨è¿éæå¥å¾çæè¿°

实际中,用的比较多的是划分聚类,尤其k-means。在古典目标识别中,经常用到Selective Search(选择搜索)这种图像bouding boxes提取算法,本质就是层次聚类。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/454347.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

qt release打包发布_几种解决Qt程序打包后无法连接数据库问题的方法

Qt是一个跨平台C图形用户界面应用程序开发框架&#xff0c;使用它不仅可以方便地开发GUI程序&#xff0c;也可以开发非GUI程序&#xff0c;可以一次编写&#xff0c;处处编译。今天遇到的问题比较怪异&#xff0c;我开发的是一个桌面版订单管理系统&#xff0c;整体架构就是一个…

机器学习之拉格朗日乘子法和 KKT

有约束的最优化问题 最优化问题一般是指对于某一个函数而言&#xff0c;求解在其指定作用域上的全局最小值问题&#xff0c;一般分为以下三种情况(备注&#xff1a;以下几种方式求出来的解都有可能是局部极小值&#xff0c;只有当函数是凸函数的时候&#xff0c;才可以得到全局…

pmp思维导图 第六版_PMP考试技巧攻略(上)

PMP考试需要有保证足够的时间投入&#xff1a;获得PMP 考试并拿到5A 成绩&#xff0c;并且还需要理解性记忆&#xff1a;PMP 指定教材PMBOK第六版&#xff08;教材为必看三遍以上&#xff09;&#xff0c;学习起来是有趣的&#xff0c;同时也是痛苦的。因为看书时字面的字我们认…

浅谈MVC MVP MVVM

复杂的软件必须有清晰合理的架构&#xff0c;否则无法开发和维护。 MVC&#xff08;Model-View-Controller&#xff09;是最常见的软件架构之一&#xff0c;业界有着广泛应用。 它本身很容易理解&#xff0c;但是要讲清楚&#xff0c;它与衍生的 MVP 和 MVVM 架构的区别就不容易…

商务搜索引擎_外贸研修 | 世界各国常用搜索引擎,开发客户必备!

我们平时生活中也好&#xff0c;开发客户也好&#xff0c;搜索引擎是我们离不开的工具。最佳没有之一的当属谷歌了。谷歌网址&#xff1a;www.google.com谷歌高级搜索&#xff1a;https://www.google.com/advanced_search (通过设置/排除一些字词缩小精确搜索范围)作为普通使用…

HaProxy+Keepalived+Mycat高可用群集配置

概述 本章节主要介绍配置HaProxyKeepalived高可用群集&#xff0c;Mycat的配置就不在这里做介绍&#xff0c;可以参考我前面写的几篇关于Mycat的文章。 部署图&#xff1a; 配置 HaProxy安装 181和179两台服务器安装haproxy的步骤一致 --创建haproxy用户 useradd haproxy--…

奇怪的bug,不懂Atom在添加markdown-themeable-pdf,在配置好phantomjs的情况下报错

本来打算用一下atom但是导出pdf报错&#xff0c;可是在预览的情况下就没有问题&#xff0c;顺便吐槽一下谷歌浏览器自己的markdown在线预览插件无法适配&#xff0c;用搜狗搭载谷歌的插件才能导出pdf&#xff0c;一下感觉逼格少了很多&#xff0c;等忙完这阵再来看一下。先贴出…

Python 面试题

Python面试315道题第一部 Python面试题基础篇&#xff08;80道&#xff09;1、为什么学习Python&#xff1f;2、通过什么途径学习的Python&#xff1f;3、Python和Java、PHP、C、C#、C等其他语言的对比&#xff1f;PHPjavacc#c4、简述解释型和编译型编程语言&#xff1f;编译型…

bzoj1038500AC!

序列dp 先开始想了一个类似区间dp的东西...少了一维 然后发现似乎不太对&#xff0c;因为女生的最大差和男生的最大差并不相等 dp[i][j][x][y]表示当前有i个人&#xff0c;j个男生&#xff0c;男生和女生的后缀最大差是x&#xff0c;女生和男生最大差是y&#xff0c;x,y>0,转…

android生命周期_Android开发 View的生命周期结合代码详解

咱们以TextView控件为例&#xff1a;/*** Created by SunshineBoy on 2020/9/23.*/public class TestTextView extends android.support.v7.widget.AppCompatTextView {public TestTextView(Context context) {super(context);Log.e("TestTextView","TestTextVi…

机器学习算法之支持向量机 SVM

距离知识 点到直线/平面的距离公式&#xff1a; 1、假定点p(x0,y0)&#xff0c;平面方程为f(x,y)AxByC&#xff0c;那么点p到平面f(x)的距离为&#xff1a; 2、从三维空间扩展到多维空间中&#xff0c;如果存在一个超平面f(X)θXb; 那么某一个点X0到这个超平面的距离为: 参考…

VMware Horizon虚拟桌面工具箱2.0-审计,远程协助,控制台,电源

各位朋友,大家好,VMware Horizon 虚拟桌面工具箱2.0版本,已经面世啦!在2.0 版本中我们添加了vSphere虚拟机控制台访问、开机策略和图形化安装这三个新功能&#xff0c;并改进了部分老的功能。老版本即1.5版本的相关知识可以参考我的博文VMware Horizon虚拟桌面工具箱之审计与远…

python词云改颜色_一种用Python生成词云

一种用Python生成词云 我们在阅读一篇很长的文章时&#xff0c;总先看看文章的关键词来获知文章的大概内容。今天我们就来制作一个词云程序&#xff0c;将文章中出现次数较多的词语提取出来&#xff0c;生成一张词云图。词云图的生成原理&#xff1a; 程序会将这篇文章中的所有…

机器学习之 朴素贝叶斯、贝叶斯网络

目录 贝叶斯定理 朴素贝叶斯算法 高斯朴素贝叶斯 伯努利朴素贝叶斯 多项式朴素贝叶斯 贝叶斯网络 最简单的贝叶斯网络 全连接贝叶斯网络 一般化的贝叶斯网络 引子 参赛者会看见三扇关闭了的门&#xff0c;其中一扇的后面有一辆汽车&#xff0c;选中后面有车的那扇门可…

attention机制_简析Attention机制—优缺点,实现,应用

什么是Attention机制&#xff1f;Attention机制的本质来自于人类视觉注意力机制。人们在看东西的时候一般不会从到头看到尾全部都看&#xff0c;往往只会根据需求观察注意特定的一部分。简单来说&#xff0c;就是一种权重参数的分配机制&#xff0c;目标是协助模型捕捉重要信息…

pycharm Debug问题

pycharm Debug问题 参考链接:https://blog.csdn.net/weixin_43472408/article/details/85072640 Debug的调试方式如下所示&#xff1a; 1.show execution point (F10) 显示当前所有断点 2.step over(F8) 单步调试。 若函数A内存在子函数a时&#xff0c;不会进入子函数a内执…

php执行npm命令_npm系列之命令执行

当我想使用vue的脚手架来创建一个项目的时候&#xff0c;我应该怎么做&#xff1f;执行命令 npm install -g vue/cli 全局安装&#xff0c;之后就可以在控制台中使用vue create programName 来创建一个项目。为什么可以直接使用vue命令&#xff1f;这类支持命令的依赖会在项目中…

模拟产品展示 Flash无法展示的追踪过程

鼠标滑过小图时&#xff0c;左侧前四张大图可以&#xff0c;但是最后那张大图无法展示&#xff1a; falsh产品展示需要通过参数传递&#xff0c;把关联产品id的图片get出来&#xff0c;如&#xff1a; http://192.168.8.166:90/category/prod_img.aspx?prodid101 结果&#xf…

c语言贪吃蛇最简单代码_C语言指针,这可能是史上最干最全的讲解啦(附代码)!!!...

点击上方“大鱼机器人”&#xff0c;选择“置顶/星标公众号”福利干货&#xff0c;第一时间送达&#xff01;指针对于C来说太重要。然而&#xff0c;想要全面理解指针&#xff0c;除了要对C语言有熟练的掌握外&#xff0c;还要有计算机硬件以及操作系统等方方面面的基本知识。所…

SpringSecurity深度解析与实践(3)

这里写自定义目录标题 引言SpringSecurity之授权授权介绍java权限集成 登录失败三次用户上锁 引言 SpringSecurity深度解析与实践&#xff08;2&#xff09;的网址 SpringSecurity之授权 授权介绍 Spring Security 中的授权分为两种类型&#xff1a; 基于角色的授权&#…