机器学习之聚类算法的原理推导及相关知识总结

文章目录

  • 1、知道几个关于"差"的概念
  • 2、理解相似度度量的各种方法和相互关系
    • 2.1、欧氏距离
    • 2.2、jaccard相似系数
    • 2.3、余弦相似度
    • 2.4、Pearson相似系数
    • 2.5、相对熵
  • 3、掌握掌握K-Means算法
    • 3.1、知道聚类的思想
    • 3.2、K-Means算法原理
    • 3.3、知道K-Mediods聚类
    • 3.4、如何选取K-means的初始值
    • 3.5、K-means的目标函数
  • 4、知道聚类的衡量效果的指标
  • 5、了解层次聚类的思路和方法
  • 6、理解密度聚类
  • 7、掌握谱聚类的算法
    • 7.1、了解谱(方阵的全体特征值称为方阵的谱)以及谱半径(最大的特征值称为谱半径)
    • 7.2、几个概念
    • di代表行列式的第i行的累加值。 邻接矩阵W(又称为相似矩阵)又为对称矩阵(Wij与Wji的值相等即i、j的距离相等),主对角线的值取0 ![这里写图片描述](https://img-blog.csdn.net/20180915165407777?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzE2NjMzNDA1/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70) 7.2、了解谱分析的整体的过程
    • 7.3、其他谱聚类算法
  • 8、知道拉布拉斯矩阵
  • 9、知道标签传递算法

1、知道几个关于"差"的概念

均值、方差、标准差、协方差:
这里写图片描述
协方差就是这样一种用来度量两个随机变量关系的统计量,我们可以仿照方差的定义:
这里写图片描述

2、理解相似度度量的各种方法和相互关系

这里写图片描述

2.1、欧氏距离

欧氏距离:p=2(又称为第二范式)。曼哈顿距离:p=1(又称为第一范式,p为多少也就为第几范式)。

2.2、jaccard相似系数

用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大,样本相似度越高。

2.3、余弦相似度

这里写图片描述

2.4、Pearson相似系数

两个变量之间的协方差和标准差的商。
这里写图片描述

  • 当两个变量的线性关系增强时,相关系数趋于1或-1;
  • 当一个变量增大,另一个变量也增大时,表明它们之间是正相关的,相关系数大于0;
  • 如果一个变量增大,另一个变量却减小,表明它们之间是负相关的,相关系数小于0;
  • 如果相关系数等于0,表明它们之间不存在线性相关关系。

2.5、相对熵

又称为KL散度(Kullback–Leibler divergence,简称KLD)[1],信息散度(information divergence),信息增益(information gain)

余弦相似度与Pearson相似系数之间的关系
这里写图片描述

3、掌握掌握K-Means算法

3.1、知道聚类的思想

先做一个初始的划分之后通过迭代来改变样本和簇之间的隶属关系。
这里写图片描述

3.2、K-Means算法原理

1、选取初始的K个类别中心数据(可以自定义也可以随机选取K个样本)
2、对于每个样本将其标记为距离类别中心最近的类别(对样本进行聚类处理)。
3、将每个类别中心更新为隶属于该类别的所有样本的均值。
4、重复2、3直到类别中心的变化小于某阈值(迭代次数/簇中心变化率/最小平方误差MSE)
这里写图片描述

3.3、知道K-Mediods聚类

类别中心的更新依据从数据的均值改为中位数。
这里写图片描述

3.4、如何选取K-means的初始值

首先,知道K-means是初值敏感的(K的输入很关键),也就是每个类别中初始值的选择是很关键的。那么如何有效的选取K-Means的初始值?
得到第一个初始值后求其他点到该初始值的距离时将距离初始值较远的点作为簇点的概率大些,这样就可以得到较好的初始簇点。
这里写图片描述

3.5、K-means的目标函数

目标函数:求每个簇的样本点到每个簇中心的距离的加和;求导后就相当于将周围点的平均值付给μ作为新的簇中心。
这里写图片描述

4、知道聚类的衡量效果的指标

均一性和完整性就类似于之前半监督中的准确率和召回率
V-measure:均一性和完整性的加权平均
这里写图片描述
了解这个轮廓系数(衡量分类好坏的指标):
先了解上面的簇内不相似系数ai(越小越好):簇内的样本点i到簇内其他样本点平均距离。
这里写图片描述
簇间不相似系数bi(越大越好):样本i到某簇的所有样本的平均距离。
轮廓系数含义见下图
这里写图片描述

5、了解层次聚类的思路和方法

知道这两个算法AGNES和DIANA
这里写图片描述
这里写图片描述
这里写图片描述

6、理解密度聚类

这里写图片描述
了解DBSCAN算法:
算法原理:
1、如果点p的邻域包含多于m个对象,则创建一个p作为核心对象的新簇。
2、寻找并合并核心对象周围直接密度可达的对象
3、没有新点可以更新簇时,算法结束。
这里写图片描述

7、掌握谱聚类的算法

7.1、了解谱(方阵的全体特征值称为方阵的谱)以及谱半径(最大的特征值称为谱半径)

这里写图片描述

7.2、几个概念

di代表行列式的第i行的累加值。
邻接矩阵W(又称为相似矩阵)又为对称矩阵(Wij与Wji的值相等即i、j的距离相等),主对角线的值取0
这里写图片描述
7.2、了解谱分析的整体的过程

任意两个点之间的相似度可以用径向量机函数来求(也就是两点之间的距离)
这里写图片描述
过程:
1、由度矩阵D和邻接矩阵W得到对应的L(拉普拉斯矩阵)的特征值行列式。
2、特征值值行列式中的每个λ代表的一个列向量
3、分成K个类别也就是取前K个特征值,如下图所示。
4、特征值行列式的行向量的第i行也就代表第i个样本的特征表示
5、有了m个样本的特征表示就可以利用K-Means来进行聚类处理。

7.3、其他谱聚类算法

不同的谱聚类算法只是对应的拉普拉斯矩阵改变了,其他的步骤都没变。
这里写图片描述

8、知道拉布拉斯矩阵

这里写图片描述
这里写图片描述

9、知道标签传递算法

这里写图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/456453.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Flex 布局教程:语法

Java数组声明的三种方式 第一种(声明并初始化): 数据类型[] 数组名{值,值,...}; 例:int[] a {1,2,3,4,5,6,7,8}; 第二种(声明后赋值): 数据类型[] 数组名 new 数据类型[数组长度]; 数组名[下标1]值…

注意:匿名函数调用直接加载函数名setInterval(move,30)

setInterval要求第一个参数必须是含Javascript命令的字符串或函数对象,所以 setInterval("move()",300) 以及 setInterval(move,300) 这两个都是正确的。 而 setInterval(move(),300) 当Javascript运行到这个语句时,会立即执行move这个函数&am…

vue import组件的使用

vue import组件的使用 1新建/src/component/firstcomponent.vue <template><div id"firstcomponent"><h1>I am a title.</h1></div> </template>2在app.vue引入组件 并且注册 <script> import firstcomponent from ./comp…

牵丝戏

余少能视鬼&#xff0c;尝于雪夜野寺逢一提傀儡翁&#xff0c;鹤发褴褛&#xff0c;唯持一木偶制作极精&#xff0c;宛如娇女&#xff0c;绘珠泪盈睫&#xff0c;惹人见怜。 时云彤雪狂&#xff0c;二人比肩向火&#xff0c;翁自述曰&#xff1a;少时好观牵丝戏&#xff0c;耽…

机器学习之EM算法的原理推导及相关知识总结

文章目录1、知道先验概率和后验概率2、了解高斯混合模型GMM3、通过最大似然估计推导EM算法的过程的实例4、EM算法5、知道pLSA模型1、知道先验概率和后验概率 先验概率&#xff08;prior probability&#xff09;是指根据以往经验和分析得到的概率&#xff08;理解为自定义概率…

jQuery中的on 和事件委派

<!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>事件</title><style>p{width:100px;height:100px;border: 1px solid gray;}</style><script src"https://code.jquery.com/…

python pip处理

查看pip 版本号 pip --version 升级方法 on linux or os X: pip install -U pip on windows: python -m pip install -U pip 转载于:https://www.cnblogs.com/yangwithtao/p/6397114.html

js中innerHTML和innerText jQuery中html()和text()的区别

js中innerHTML和innerText的区别innerHTML innerHTML 会将标签和标签中的内容否获取回来 innerHTML .innerHTML ‘<p></p>’; 只会将文本内容解析出来&#xff0c;不会显示标签innerText innerText 只会将标签中的内容获取回来&#xff0c;不会获取标签 innerT…

ECMAScript 6 -- let和const命令

ES6新增了let命令&#xff0c;用来声明变量。它的用法类似于var&#xff0c;但是所声明的变量&#xff0c;只在let命令所在的代码块内有效。 for (let i 0; i < 10; i) {console.log(i);} 可以执行 for (let i 0; i < 10; i) {}console.log(i); 就会报错 ncaught Refer…

机器学习之朴素贝叶斯算法的推理及相关知识总结

文章目录1、朴素贝叶斯公式1.1、贝叶斯公式的应用2、了解贝叶斯网络2.1、知道什么是贝叶斯网络2.2、贝叶斯网络的两种表示形式2.3、掌握全连接的贝叶斯网络的公式2.3、知道条件概率表参数个数分析的方法2.4、掌握变量联合分布概率的公式及含义2.5、知道马尔科夫模型3、了解D-se…

mysql之外键

外键的作用,主要有两个: 一个是让数据库自己通过外键来保证数据的完整性和一致性 一个就是能够增加ER图的可读性 有些人认为外键的建立会给开发时操作数据库带来很大的麻烦.因为数据库有时候会由于没有通过外键的检测而使得开发人员删除,插入操作失败.他们觉得这样很麻烦 …

Android onLoadFinished与onLoaderReset

onLoadFinished 这个方法是在前面已创建的加载器已经完成其加载过程后被调用&#xff0c;这个方法保证会在应用到加载器上的数据被释放之前被调用。在此方法中&#xff0c;你必须删除所有对旧数据的使用(因为它将很快会被删除)&#xff0c;但是不要自己去释放它们&#xff0c;因…

HA机制的大数据集群的搭建过程

文章目录集群规划1、 准备Linux环境1.1、修改Linux主机名1.3、修改主机名和IP的映射关系1.4、关闭防火墙1.5、ssh免登陆&#xff08;主节点和从节点之间&#xff09;2、 安装JDK2.1、上传2.2、解压jdk2.3、将java添加到环境变量中2.4、刷新配置2.5、验证3、安装zookeeper3.1、解…

Linux系统7个运行级别图文详解

Linux系统7个运行级别图文详解 当安装linux操作系统时将选择下列那一个操作 ______ A&#xff0e;选择 "图形登录方式" 设定系统开始运行级为4 B&#xff0e;选择 "文本登录方式" 设定系统开始运行级为3 C&#xff0e;选择 "文本登录方式" 设定系…

CRISPR基因编辑

2007年&#xff0c;一家酸奶公司发现一种细菌拥有抵御病毒的特殊防御机制。2012年&#xff0c;细菌的这种机制就被科学家阐述清楚&#xff0c;2013年这一领域快速增长。它被视为分子生物学的一个奇迹&#xff0c;事实上&#xff0c;它并非仅对生物学家产生革命的影响&#xff0…

酒店之王

酒店之王 题目描述 XX酒店的老板想成为酒店之王&#xff0c;本着这种希望&#xff0c;第一步要将酒店变得人性化。由于很多来住店的旅客有自己喜好的房间色调、阳光等&#xff0c;也有自己所爱的菜&#xff0c;但是该酒店只有p间房间&#xff0c;一天只有固定的q道不同的菜。 有…

使用IntelliJ IDEA碰到的问题总结

文章目录问题一&#xff1a;无法创建Java Class文件问题一&#xff1a;无法创建Java Class文件 今天打开项目时&#xff0c;发现右击新建不了java.class文件&#xff0c;于是尝试了以下方法&#xff1a; &#xff08;1&#xff09;选择 File——>Project Structure——>…

为什么shell脚本第一行要#!/bin/sh

告诉操作系统, 此脚本的解释器为 /bin/sh 这个可执行文件 类似地, 如果你的脚本用 bash, ksh, 解释, 第一行就应该是#!/bin/bash #!/bin/ksh 之类的 或者, 你自己定义一种脚本语言, 再自己写个解释器去执行它, 比如说叫 xshell, 放在 /usr/local/bin 下, 你的脚本第一行就应该是…

linux文本处理常用指令总结

引子 作为一个偏爱windows的程序员&#xff0c;以前做文本处理的时候总是喜欢在windows下用notepad等图形化工具处理&#xff0c;比如有时需要把linux服务器上一个文件进行一次全局字符串替换这样简单的操作&#xff0c;还得把文件down到本地编辑好再传回去。这两天买了本《鸟哥…

CSS——基础选择器

CSS的基础选择器1 CSS指的是层叠样式表2 CSS规则由两个主要的部分构成选择器&#xff0c;以及一条或多条声明3 选择器通常是你需要改变样式的 HTML 元素如h14 每条声明由一个属性和一个值组成&#xff0c;每个属性有一个值&#xff0c;属性和值被冒号分开5 属性大于 …