机器学习之聚类概述

什么是聚类

聚类就是对大量未知标注的数据集,按照数据 内部存在的数据特征 将数据集划分为 多个不同的类别 ,使 类别内的数据比较相似,类别之间的数据相似度比较小;属于 无监督学习

聚类算法的重点是计算样本项之间的 相似度,有时候也称为样本间的 距离

和分类算法的区别:

  • 分类算法是有监督学习,基于有标注的历史数据进行算法模型构建
  • 聚类算法是无监督学习,数据集中的数据是没有标注的

有个成语到“物以类聚”,说的就是聚类的概念。直白来讲,就是把认为是一类的物体聚在一起,也就是归为一类(聚在一起的叫一个 簇)。

聚类的思想

给定一个有M个对象的数据集,构建一个具有k个 簇 的模型,其中k<=M(这是肯定的,不可能有3个对象,我划分成4个类吧)。满足以下条件:

  • 每个簇至少包含一个对象
  • 每个对象属于且仅属于一个簇
  • 将满足上述条件的k个簇成为一个合理的聚类划分

总的一个思路就是:对于给定的类别数目k,首先给定初始划分,通过迭代改变样本和簇的隶属关系,使的每次处理后得到的划分方式 比上一次的好 (总的数据集之间的距离和变小了)

相似度/距离公式

上面一直提到什么相似度或距离,特征空间中两个实例点的距离就是两个实例点相似程度的反映。我们也经常用到欧式距离,除此之外还有哪些,这里罗列一些相关公式,因为好多不常用,所以只做简要介绍,或者仅仅提及一下。

1. 闵可夫斯基距离(Minkowski),也叫范式

对于两个 n 维的数据 X,Y 

dist(X,Y)=\sqrt[^{^{^{^p}}}]{\sum_{i=1}^n|x_i - y_i|^p} 这里  p \geq1

也就是先求各维度的差值,然后把这些差值都取 p 次方,接着累加起来,最后把累加的结果开p次方。

(1) 当 p=1 p=1p=1 时,称为曼哈顿距离( Manhattan distance,也称为曼哈顿城市距离),也叫1范式,即

M\_dist = \sum_{i=1}^n |x_i - y_i|

以两维的数据为例:

å¨è¿éæå¥å¾çæè¿°

上面的图就像我们的城市公路,比如说从左下角到右上角,我们可以按红线(就是两点间的曼哈顿距离)、蓝线或黄线走,最终都可等效成红线。而绿线就是下面说的欧氏距离。

(2)当 p=2 p=2p=2 时,称为欧氏距离 (Euclidean distance) ,也叫2范式,即

E\_dist=\sqrt{\sum_{i=1}^n|x_i - y_i|^2}

(3)当 p=∞  时,称为切比雪夫距离(Chebyshev distance)

C\_dist=\sqrt[^{^{^{^\infty}}}]{\sum_{i=1}^n|x_i - y_i|^\infty}= \max _i(|x_i - y_i |)

也就是上图中,如果横轴的差值大于纵轴的差值,则就为红线中的横线部分;反之就是纵线部分。即,只关心主要的,忽略次要的。

2 . 标准化欧式距离(Standardized Euclidean Distance)

X^* = \frac{X-\bar{X}}{s}

这是进行标准化,在数据处理时经常用到。s 表示方差,s=\sqrt{\frac{\sum_{i=1}^n ( s_i - \bar{s})}{n}}s

标准的欧式距离 \quad S\_E\_D = \sqrt{\sum_{i=1}^n \left( \frac{x_i -y_i}{s_i} \right)}

 

3 . 夹角余弦相似度(Cosine)

a = (x_{11},x_{12},...,x_{1n}), b = (x_{21},x_{22},...,x_{2n})
\cos(\theta) = \frac{\sum_{k=1}^n x_{1k}x_{2k}}{\sqrt{\sum_{k=1}^n x_{1k}^2}*\sqrt{\sum_{k=1}^n x_{1k}^2}} = \frac{a^T \cdot b}{|a||b|}

其实就是利用了我们中学所学的余弦定理。

4 . KL距离(相对熵)
D(P||Q)=\sum_x P(x) \log \left( \frac{P(x)}{Q{x}} \right)

KL距离在信息检索领域,以及自然语言方面有重要的运用。具体内容可以参考《【ML算法】KL距离》

5 . 杰卡德相似系数(Jaccard)

J(A,B)=\frac{|A \cap B|}{A \cup B}

目标检测中,经常遇到的IOU,就是这种形式。

dist(A,B)=1-J(A,B)=\frac{|A \cup B|-|A \cap B|}{|A \cup B|}

很显然,杰卡德距离是用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度。

6 . Pearson相关系数

\rho _{XY} = \frac{Cov(X,Y)}{\sqrt{D(X)} \sqrt{D(Y)}} = \frac{E[(X-E(X))(Y-E(Y))]}{\sqrt{D(X)} \sqrt{D(Y)}}=\frac{\sum_{i=1}^n (X_i-\mu_X)(Y_i-\mu_Y)}{\sqrt{\sum_{i=1}^n(X_i-\mu_X)^2}*\sqrt{\sum_{i=1}^n(Y_i-\mu_Y)^2}}

dist(X,Y)=1-\rho_{XY}    

Pearson相关系数是统计学三大相关系数之一,具体内容可以参考《如何理解皮尔逊相关系数(Pearson Correlation Coefficient)?》

常见聚类算法

常见的算法,按照不同的思想可进行以下划分,当然还会有一些相应的优化算法,随后的博客也会一一介绍。

å¨è¿éæå¥å¾çæè¿°

实际中,用的比较多的是划分聚类,尤其k-means。在古典目标识别中,经常用到Selective Search(选择搜索)这种图像bouding boxes提取算法,本质就是层次聚类。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/454347.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

程序员-建立你的商业意识 闫辉 著

1 程序员为什么需要商业意识 几 年前&#xff0c;当我刚刚认识Fishman的时候&#xff0c;听到他神奇的创业经历&#xff0c;觉得非常不可思议。甚至还专门写了一篇报道发到《电脑报》上&#xff0c;题目是《从程序员到 CEO》。不久&#xff0c;Fishman将创建的又一个新公司…

qt release打包发布_几种解决Qt程序打包后无法连接数据库问题的方法

Qt是一个跨平台C图形用户界面应用程序开发框架&#xff0c;使用它不仅可以方便地开发GUI程序&#xff0c;也可以开发非GUI程序&#xff0c;可以一次编写&#xff0c;处处编译。今天遇到的问题比较怪异&#xff0c;我开发的是一个桌面版订单管理系统&#xff0c;整体架构就是一个…

Java操作MongoDB

先引入mongo-java-dirver驱动 123456<!-- mongo-java-dirver --><dependency><groupId>org.mongodb</groupId> <artifactId>mongo-java-driver</artifactId> <version>3.4.2</version> </dependency>代码操作演示&#…

机器学习之拉格朗日乘子法和 KKT

有约束的最优化问题 最优化问题一般是指对于某一个函数而言&#xff0c;求解在其指定作用域上的全局最小值问题&#xff0c;一般分为以下三种情况(备注&#xff1a;以下几种方式求出来的解都有可能是局部极小值&#xff0c;只有当函数是凸函数的时候&#xff0c;才可以得到全局…

定长顺序串的实现

string.h #define MAXSTRLEN 255#define ERROR 0#define OK 1 typedef int Status;typedef char String[MAXSTRLEN 1]; //初始化字符串Status StrAssign(String T, char e); //有串S复制得串TStatus StrCopy(String T,String S); //比较两个串的大小Status StrCompare(String …

pmp思维导图 第六版_PMP考试技巧攻略(上)

PMP考试需要有保证足够的时间投入&#xff1a;获得PMP 考试并拿到5A 成绩&#xff0c;并且还需要理解性记忆&#xff1a;PMP 指定教材PMBOK第六版&#xff08;教材为必看三遍以上&#xff09;&#xff0c;学习起来是有趣的&#xff0c;同时也是痛苦的。因为看书时字面的字我们认…

程序员应该具备的素质(来自csdn)

程序员是一种技术工作&#xff0c;在IT的发展中有相当重要的地位&#xff0c;从底层硬件通讯协议的建立&#xff0c; 到数据传输层的处理&#xff0c;到操作系统的建设&#xff0c;到数据库平台的建设&#xff0c;一直到应用层上各种数 据营销平台的搭建&#xff0c;程序员在里…

linux的du使用方法

该命令的各个选项含义如下&#xff1a; -s 对每个Names参数只给出占用的数据块总数。 -a 递归地显示指定目录中各文件及子孙目录中各文件占用的数据块数。若既不指定-s&#xff0c;也不指定-a&#xff0c;则只显示Names中的每一个目录及其中的各子目录所占的磁盘块数-b 以字节为…

浅谈MVC MVP MVVM

复杂的软件必须有清晰合理的架构&#xff0c;否则无法开发和维护。 MVC&#xff08;Model-View-Controller&#xff09;是最常见的软件架构之一&#xff0c;业界有着广泛应用。 它本身很容易理解&#xff0c;但是要讲清楚&#xff0c;它与衍生的 MVP 和 MVVM 架构的区别就不容易…

机器学习接口和代码之 线性回归

线性回归sklearn 接口和代码 官网api&#xff1a;https://scikit-learn.org/stable/modules/linear_model.html#ordinary-least-squares LinearRegression class sklearn.linear_model.LinearRegression(fit_interceptTrue, normalizeFalse, copy_XTrue, n_jobs1)参数说明&a…

中国智慧VS西方智慧-看中国IT风云与IT产业怪状

为什么国外没有一家互联网公司在中国取得成功&#xff0c;为什么他们都水土不服&#xff0c;为什么他们都在中国都混不下去&#xff0c;YAHOO, EBAY等等这样享誉全球的互联网公司都在中国无法取得成功&#xff01;为什么连让IT巨无霸微软都觉得发抖&#xff0c;让比尔盖茨夜夜做…

商务搜索引擎_外贸研修 | 世界各国常用搜索引擎,开发客户必备!

我们平时生活中也好&#xff0c;开发客户也好&#xff0c;搜索引擎是我们离不开的工具。最佳没有之一的当属谷歌了。谷歌网址&#xff1a;www.google.com谷歌高级搜索&#xff1a;https://www.google.com/advanced_search (通过设置/排除一些字词缩小精确搜索范围)作为普通使用…

HaProxy+Keepalived+Mycat高可用群集配置

概述 本章节主要介绍配置HaProxyKeepalived高可用群集&#xff0c;Mycat的配置就不在这里做介绍&#xff0c;可以参考我前面写的几篇关于Mycat的文章。 部署图&#xff1a; 配置 HaProxy安装 181和179两台服务器安装haproxy的步骤一致 --创建haproxy用户 useradd haproxy--…

奇怪的bug,不懂Atom在添加markdown-themeable-pdf,在配置好phantomjs的情况下报错

本来打算用一下atom但是导出pdf报错&#xff0c;可是在预览的情况下就没有问题&#xff0c;顺便吐槽一下谷歌浏览器自己的markdown在线预览插件无法适配&#xff0c;用搜狗搭载谷歌的插件才能导出pdf&#xff0c;一下感觉逼格少了很多&#xff0c;等忙完这阵再来看一下。先贴出…

机器学习之 sklearn.preprocessing 模块

sklearn.preprocessing.PolynomialFeatures 多项式扩展。 它是使用多项式的方法来进行的&#xff0c;如果有a&#xff0c;b两个特征&#xff0c;那么它的2次多项式为&#xff08;1,a,b,a^2,ab, b^2&#xff09;&#xff0c;这个多项式的形式是使用poly的效果。 api class s…

Python 面试题

Python面试315道题第一部 Python面试题基础篇&#xff08;80道&#xff09;1、为什么学习Python&#xff1f;2、通过什么途径学习的Python&#xff1f;3、Python和Java、PHP、C、C#、C等其他语言的对比&#xff1f;PHPjavacc#c4、简述解释型和编译型编程语言&#xff1f;编译型…

周鸿祎,高司令

还是感到有必要将自己的一些想法快速记下来。 首先是对周鸿祎新员工演讲的看法。 就说实话这一点来说&#xff0c;周鸿祎比很多人强。所以我比较喜欢引用他的话&#xff0c;确实比较实在&#xff0c;不装逼。 至于一个公司招人的风格&#xff0c;是公司自己定的&#xff0c;别人…

JDBC与JNDI应用比较

JNDI用了多年但是一直没去弄懂其和JDBC的区别&#xff0c;今天在网上搜了下&#xff0c;发下些资料说明的还不错记录下。 JNDI是 Java 命名与目录接口&#xff08;Java Naming and Directory Interface&#xff09;&#xff0c;在J2EE规范中是重要的规范之一&#xff0c;不少专…

bzoj1038500AC!

序列dp 先开始想了一个类似区间dp的东西...少了一维 然后发现似乎不太对&#xff0c;因为女生的最大差和男生的最大差并不相等 dp[i][j][x][y]表示当前有i个人&#xff0c;j个男生&#xff0c;男生和女生的后缀最大差是x&#xff0c;女生和男生最大差是y&#xff0c;x,y>0,转…

机器学习接口代码之 Ridge、Lasso、Elasitc Net

目录 Ridge Regression &#xff08;岭回归&#xff09; Lasso Regression Elasitc Net&#xff08;弹性网络&#xff09; 案例&#xff1a;葡萄酒质量预测 官网地址https://scikit-learn.org/stable/modules/linear_model.html Ridge Regression &#xff08;岭回归&…