机器学习之聚类算法的原理推导及相关知识总结

文章目录

  • 1、知道几个关于"差"的概念
  • 2、理解相似度度量的各种方法和相互关系
    • 2.1、欧氏距离
    • 2.2、jaccard相似系数
    • 2.3、余弦相似度
    • 2.4、Pearson相似系数
    • 2.5、相对熵
  • 3、掌握掌握K-Means算法
    • 3.1、知道聚类的思想
    • 3.2、K-Means算法原理
    • 3.3、知道K-Mediods聚类
    • 3.4、如何选取K-means的初始值
    • 3.5、K-means的目标函数
  • 4、知道聚类的衡量效果的指标
  • 5、了解层次聚类的思路和方法
  • 6、理解密度聚类
  • 7、掌握谱聚类的算法
    • 7.1、了解谱(方阵的全体特征值称为方阵的谱)以及谱半径(最大的特征值称为谱半径)
    • 7.2、几个概念
    • di代表行列式的第i行的累加值。 邻接矩阵W(又称为相似矩阵)又为对称矩阵(Wij与Wji的值相等即i、j的距离相等),主对角线的值取0 ![这里写图片描述](https://img-blog.csdn.net/20180915165407777?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzE2NjMzNDA1/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70) 7.2、了解谱分析的整体的过程
    • 7.3、其他谱聚类算法
  • 8、知道拉布拉斯矩阵
  • 9、知道标签传递算法

1、知道几个关于"差"的概念

均值、方差、标准差、协方差:
这里写图片描述
协方差就是这样一种用来度量两个随机变量关系的统计量,我们可以仿照方差的定义:
这里写图片描述

2、理解相似度度量的各种方法和相互关系

这里写图片描述

2.1、欧氏距离

欧氏距离:p=2(又称为第二范式)。曼哈顿距离:p=1(又称为第一范式,p为多少也就为第几范式)。

2.2、jaccard相似系数

用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大,样本相似度越高。

2.3、余弦相似度

这里写图片描述

2.4、Pearson相似系数

两个变量之间的协方差和标准差的商。
这里写图片描述

  • 当两个变量的线性关系增强时,相关系数趋于1或-1;
  • 当一个变量增大,另一个变量也增大时,表明它们之间是正相关的,相关系数大于0;
  • 如果一个变量增大,另一个变量却减小,表明它们之间是负相关的,相关系数小于0;
  • 如果相关系数等于0,表明它们之间不存在线性相关关系。

2.5、相对熵

又称为KL散度(Kullback–Leibler divergence,简称KLD)[1],信息散度(information divergence),信息增益(information gain)

余弦相似度与Pearson相似系数之间的关系
这里写图片描述

3、掌握掌握K-Means算法

3.1、知道聚类的思想

先做一个初始的划分之后通过迭代来改变样本和簇之间的隶属关系。
这里写图片描述

3.2、K-Means算法原理

1、选取初始的K个类别中心数据(可以自定义也可以随机选取K个样本)
2、对于每个样本将其标记为距离类别中心最近的类别(对样本进行聚类处理)。
3、将每个类别中心更新为隶属于该类别的所有样本的均值。
4、重复2、3直到类别中心的变化小于某阈值(迭代次数/簇中心变化率/最小平方误差MSE)
这里写图片描述

3.3、知道K-Mediods聚类

类别中心的更新依据从数据的均值改为中位数。
这里写图片描述

3.4、如何选取K-means的初始值

首先,知道K-means是初值敏感的(K的输入很关键),也就是每个类别中初始值的选择是很关键的。那么如何有效的选取K-Means的初始值?
得到第一个初始值后求其他点到该初始值的距离时将距离初始值较远的点作为簇点的概率大些,这样就可以得到较好的初始簇点。
这里写图片描述

3.5、K-means的目标函数

目标函数:求每个簇的样本点到每个簇中心的距离的加和;求导后就相当于将周围点的平均值付给μ作为新的簇中心。
这里写图片描述

4、知道聚类的衡量效果的指标

均一性和完整性就类似于之前半监督中的准确率和召回率
V-measure:均一性和完整性的加权平均
这里写图片描述
了解这个轮廓系数(衡量分类好坏的指标):
先了解上面的簇内不相似系数ai(越小越好):簇内的样本点i到簇内其他样本点平均距离。
这里写图片描述
簇间不相似系数bi(越大越好):样本i到某簇的所有样本的平均距离。
轮廓系数含义见下图
这里写图片描述

5、了解层次聚类的思路和方法

知道这两个算法AGNES和DIANA
这里写图片描述
这里写图片描述
这里写图片描述

6、理解密度聚类

这里写图片描述
了解DBSCAN算法:
算法原理:
1、如果点p的邻域包含多于m个对象,则创建一个p作为核心对象的新簇。
2、寻找并合并核心对象周围直接密度可达的对象
3、没有新点可以更新簇时,算法结束。
这里写图片描述

7、掌握谱聚类的算法

7.1、了解谱(方阵的全体特征值称为方阵的谱)以及谱半径(最大的特征值称为谱半径)

这里写图片描述

7.2、几个概念

di代表行列式的第i行的累加值。
邻接矩阵W(又称为相似矩阵)又为对称矩阵(Wij与Wji的值相等即i、j的距离相等),主对角线的值取0
这里写图片描述
7.2、了解谱分析的整体的过程

任意两个点之间的相似度可以用径向量机函数来求(也就是两点之间的距离)
这里写图片描述
过程:
1、由度矩阵D和邻接矩阵W得到对应的L(拉普拉斯矩阵)的特征值行列式。
2、特征值值行列式中的每个λ代表的一个列向量
3、分成K个类别也就是取前K个特征值,如下图所示。
4、特征值行列式的行向量的第i行也就代表第i个样本的特征表示
5、有了m个样本的特征表示就可以利用K-Means来进行聚类处理。

7.3、其他谱聚类算法

不同的谱聚类算法只是对应的拉普拉斯矩阵改变了,其他的步骤都没变。
这里写图片描述

8、知道拉布拉斯矩阵

这里写图片描述
这里写图片描述

9、知道标签传递算法

这里写图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/456453.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

机器学习之EM算法的原理推导及相关知识总结

文章目录1、知道先验概率和后验概率2、了解高斯混合模型GMM3、通过最大似然估计推导EM算法的过程的实例4、EM算法5、知道pLSA模型1、知道先验概率和后验概率 先验概率(prior probability)是指根据以往经验和分析得到的概率(理解为自定义概率…

机器学习之朴素贝叶斯算法的推理及相关知识总结

文章目录1、朴素贝叶斯公式1.1、贝叶斯公式的应用2、了解贝叶斯网络2.1、知道什么是贝叶斯网络2.2、贝叶斯网络的两种表示形式2.3、掌握全连接的贝叶斯网络的公式2.3、知道条件概率表参数个数分析的方法2.4、掌握变量联合分布概率的公式及含义2.5、知道马尔科夫模型3、了解D-se…

HA机制的大数据集群的搭建过程

文章目录集群规划1、 准备Linux环境1.1、修改Linux主机名1.3、修改主机名和IP的映射关系1.4、关闭防火墙1.5、ssh免登陆(主节点和从节点之间)2、 安装JDK2.1、上传2.2、解压jdk2.3、将java添加到环境变量中2.4、刷新配置2.5、验证3、安装zookeeper3.1、解…

Linux系统7个运行级别图文详解

Linux系统7个运行级别图文详解 当安装linux操作系统时将选择下列那一个操作 ______ A.选择 "图形登录方式" 设定系统开始运行级为4 B.选择 "文本登录方式" 设定系统开始运行级为3 C.选择 "文本登录方式" 设定系…

使用IntelliJ IDEA碰到的问题总结

文章目录问题一:无法创建Java Class文件问题一:无法创建Java Class文件 今天打开项目时,发现右击新建不了java.class文件,于是尝试了以下方法: (1)选择 File——>Project Structure——>…

linux文本处理常用指令总结

引子 作为一个偏爱windows的程序员,以前做文本处理的时候总是喜欢在windows下用notepad等图形化工具处理,比如有时需要把linux服务器上一个文件进行一次全局字符串替换这样简单的操作,还得把文件down到本地编辑好再传回去。这两天买了本《鸟哥…

Linux中chown和chmod的区别和用法

chmod修改第一列内容, chown修改第3、4列内容: chown用法: 用来更改某个目录或文件的用户名和用户组。 chown 用户名:组名 文件路径(可以是绝对路径也可以是相对路径) 例1:chown root:root /tmp/tmp1 就…

玩大数据期间碰到的一些问题总结

文章目录问题一:Zookeeper节点数量为什么建议是奇数个?问题二:HA机制的Hadoop集群中Journal Node 作用问题三:两个datanode节点互相排斥怎么解决(集群无法识别新加入的Datanode)?问题四&#xf…

JAVA的SSH框架登录注册

Struts 的MVC设计模式可以使我们的逻辑变得很清晰,主要负责表示层的显示。 Spring 的IOC和AOP可以使我们的项目在最大限度上解藕。 hibernate的就是实体对象的持久化了, 数据库的封装。 项目截图:(代码是按照项目截图上传的,直接对号入座即可…

Visual Studio Code 前端调试不完全指南

本文最初发布于我的个人博客:咀嚼之味Visual Studio Code (以下简称 vscode) 如今已经代替 Sublime,成为前端工程师们最喜爱的代码编辑器。它作为一个大型的开源项目,不断推陈出新;社区中涌现出大量优质的插件,以支持我…

机器学习之LDA主题模型算法

文章目录1、知道LDA的特点和应用方向1.1、特点1.2、应用方向2、知道Beta分布和Dirichlet分布数学含义3、了解共轭先验分布4、知道先验概率和后验概率5、知道参数α值的大小对应的含义6、掌握LDA主题模型的生成过程7、知道超参数α等值的参考值8、LDA总结1、知道LDA的特点和应用…

[Go] Template 使用简介

Golang 提供了两个标准库用来处理模板 text/template 和 html/template。我们使用 html/template 格式化 html 字符。 模板引擎 模板引擎很多,Python 的 jinja,nodejs 的 jade 等都很好。所谓模板引擎,则将模板和数据进行渲染的输出格式化后的…

内存泄露监测

2019独角兽企业重金招聘Python工程师标准>>> iOS 内存泄露监测 144 作者 谢谢生活 已关注 2017.05.19 17:38* 字数 4235 阅读 209评论 0喜欢 6 iOS可能存在的内存泄露:block 循环引用。当一个对象有一个block属性,而block属性又引用这个对象…

玩Azkaban跳过的坑

文章目录一号坑:启动Azkaban报错:User xml file conf/azkaban-users.xml doesnt exist.二号坑:报错:failed SslSocketConnector0.0.0.0:8443: java.io.FileNotFoundException: /home/hadoop/app/azkaban/azkaban-web-2.5.0/bin/ke…

删除节点removeChild()

http://www.imooc.com/code/1700 删除节点removeChild() removeChild() 方法从子节点列表中删除某个节点。如删除成功,此方法可返回被删除的节点,如失败,则返回 NULL。 语法: nodeObject.removeChild(node) 参数: node :必需&…

机器学习自主解决安全威胁离我们还有多远?

曾经听见不止一次这样的问题: “机器学习会替代基于人工经验规则的安全解决方案么?”把这个问题放在去年来看,我们已经得到了非常多的讨论甚至是一些已经实际应用的解决方案,对于人工智能在安全以及其它各种对数据进行价值挖掘的场…

Vue:解决[Vue warn]: Failed to resolve directive: modle (found in Anonymous)

解决问题 [Vue warn]: Failed to resolve directive: modle (found in <ComponentA>) console.error(("[Vue warn]: " msg trace)); 原因是 我把model 写成了 modle 这类错误一般是单词写错了 (found in <Anonymous>) 解决思路

一行Python代码制作动态二维码

目录 1、普通二维码 2、艺术二维码 3、动态二维码 在GitHub上发现了一个比较有意思的项目&#xff0c;只需要一行Python代码就可以快捷方便生成普通二维码、艺术二维码(黑白/彩色)和动态GIF二维码。 GitHub网站参加&#xff1a;https://github.com/sylnsfar/qrcode 用法比…

Vue常用经典开源项目汇总参考-海量

Vue常用经典开源项目汇总参考-海量 Vue是什么&#xff1f; Vue.js&#xff08;读音 /vjuː/, 类似于 view&#xff09; 是一套构建用户界面的 渐进式框架。与其他重量级框架不同的是&#xff0c;Vue 采用自底向上增量开发的设计。Vue 的核心库只关注视图层&#xff0c;并且非常…

Pycharm常用高效技巧总结

文章目录1、PyCharm如何自动生成函数注释2、pycharm运行程序时在Python console窗口中运行3、Pycharm在创建py文件时,如何自动添加文件头注释4、Pycharm配置远程调试5、pycharm同一目录下无法import明明已经存在的.py文件1、PyCharm如何自动生成函数注释 一般在函数def()行下敲…