dbscan算法中 参数的意义_无监督机器学习中,最常见的聚类算法有哪些?

e5c38ba3a5941dbe4b1bb486c4b40aae.png

在机器学习过程中,很多数据都具有特定值的目标变量,我们可以用它们来训练模型。

但是,大多数情况下,在处理实际问题时,数据不会带有预定义标签,因此我们需要开发能够对这些数据进行正确分类的机器学习模型,通过发现这些特征中的一些共性,来预测新数据的类。

无监督学习分析过程

开发无监督学习模型需遵循的整个过程,总结如下:

ad126464c671a996e9e8248b376ec0c4.png

无监督学习的主要应用是:

  • 按某些共享属性对数据集进行分段。
  • 检测不适合任何组的异常。
  • 通过聚合具有相似属性的变量来简化数据集。

总之,主要目标是研究数据的内在(和通常隐藏)的结构。这种技术可以浓缩为无监督学习试图解决的两种主要类型的问题。如下所示:

  • 聚类
  • 维度降低

在本文中,我们将重点关注聚类问题。

fae50fdff9570ad707ab4cf4938a03c6.png

聚类分析

在基本术语中,聚类的目的是在数据中的元素内找到不同的组。为此,聚类算法在数据中找到结构,以使相同聚类(或组)的元素彼此比来自不同聚类的元素更相似。

以可视方式想象一下,我们有一个电影数据集,并希望对它们进行分类。我们对电影有如下评论:

bce48024fa64d11c7620ce1971322b62.png

机器学习模型将能够在不知道数据的任何其他内容的情况下推断出两个不同的类。

这些无监督学习算法具有令人难以置信的广泛应用,并且对于解决诸如音乐、文档或电影分组之类的实际问题,以及基于其购买来找到具有共同兴趣的客户非常有用。

下面是一些最常见的聚类算法:

  • K均值聚类
  • 分层聚类
  • 基于密度的扫描聚类(DBSCAN)
  • 高斯聚类模型
fae50fdff9570ad707ab4cf4938a03c6.png

K均值聚类

K均值算法非常容易实现,并且在计算上非常有效。这是它为何如此受欢迎的主要原因。但是,在非球形的群体中识别类别并不是很好。

关键概念

  • 平方欧几里德距离(Squared Euclidean Distance)

K均值中最常用的距离是欧氏距离平方。m维空间中两点x和y之间的距离的示例是:

ae7beacb67d29cad3cbf073ecea42df1.png

这里,j是采样点x和y的第j维(或特征列)。

  • 集群惯性

集群惯性是聚类上下文中给出的平方误差之和的名称,表示如下:

3056b89339cf5571f1a848000d0d5b1b.png

其中μ(j)是簇j的质心,并且如果样本x(i)在簇j中则w(i,j)是1,否则是0。

K均值可以理解为试图最小化群集惯性因子的算法。

算法步骤

  1. 选择k值,即我们想要查找的聚类数量。
  2. 算法将随机选择每个聚类的质心。
  3. 将每个数据点分配给最近的质心(使用欧氏距离)。
  4. 计算群集惯性。
  5. 将计算新的质心作为属于上一步的质心的点的平均值。换句话说,通过计算数据点到每个簇中心的最小二次误差,将中心移向该点。
  6. 返回第3步。

K-Means超参数

  • 簇数:要生成的簇和质心数。
  • 最大迭代次数:单次运行的算法。
  • 数字首字母:算法将使用不同的质心种子运行的次数。根据惯性,最终结果将是连续运行定义的最佳输出。

K-Means的挑战

  • 任何固定训练集的输出都不会始终相同,因为初始质心是随机设置的,会影响整个算法过程。
  • 如前所述,由于欧几里德距离的性质,在处理采用非球形形状的聚类时,其不是一种合适的算法。

应用K均值时要考虑的要点

  • 必须以相同的比例测量特征,因此可能需要执行z-score标准化或max-min缩放。
  • 处理分类数据时,我们将使用get dummies功能。
  • 探索性数据分析(EDA)非常有助于概述数据并确定K-Means是否为最合适的算法。
  • 当存在大量列时,批训练(minibatch)的方法非常有用,但是不太准确。

如何选择正确的K值

选择正确数量的聚类是K-Means算法的关键点之一。要找到这个数字,有一些方法:

  • 领域知识
  • 商业决策
  • 肘部法则

由于与数据科学的动机和性质相一致,肘部法则是首选方法,因为它依赖于支持数据的分析方法来做出决定。

肘部法则

肘部法则用于确定数据集中正确的簇数。它的工作原理是绘制K的上升值与使用该K时获得的总误差。

817e38afe5c7afa45a5bbaf368766517.png

目标是找到每个群集不会显著上升方差的k。

67415c0ffd9e00f230295354636a4e86.png

在这种情况下,我们将选择肘部所在的k = 3。

K均值限制

虽然K均值是一种很好的聚类算法,但是当我们事先知道聚类的确切数量以及处理球形分布时,它是最有用的。

下图显示了如果我们在每个数据集中使用K均值聚类,即使我们事先知道聚类的确切数量,我们将获得什么:

691d194c580efc495fb4f7cd8caa8934.png

将K均值算法作为评估其他聚类方法性能的基准是很常见的。

fae50fdff9570ad707ab4cf4938a03c6.png

分层聚类

分层聚类是基于prototyope的聚类算法的替代方案。分层聚类的主要优点是不需要指定聚类的数量,它会自己找到它。此外,它还可以绘制树状图。树状图是二元分层聚类的可视化。

849acc113a53f741fc06a301d8675781.png

在底部融合的观察是相似的,而在顶部的观察是完全不同的。对于树状图,基于垂直轴的位置而不是水平轴的位置进行结算。

分层聚类的类型

这种类型的聚类有两种方法:集聚和分裂。

  • 分裂:此方法首先将所有数据点放入一个集群中。 然后,它将迭代地将簇分割成较小的簇,直到它们中的每一个仅包含一个样本。
  • 集聚:此方法从每个样本作为不同的集群开始,然后将它们彼此靠近,直到只有一个集群。

单链接和完整链接

这些是用于凝聚层次聚类的最常用算法。

6886e190d2ef10c4f5a33c561045b6d4.png
  • 单链接

作为一种凝聚算法,单链接首先假设每个样本点都是一个簇。然后,它计算每对聚类的最相似成员之间的距离,并合并两个聚类,其中最相似成员之间的距离最小。

15b92e386ecae33a64fc73b674365977.png
  • 完整链接

虽然与单链接类似,但其理念恰恰相反,它比较了一对集群中最不相似的数据点来进行合并。

分层聚类的优点

  • 由此产生的层次结构表示可以提供非常丰富的信息。
  • 树状图提供了一种有趣且信息丰富的可视化方式。
  • 当数据集包含真正的层次关系时,它们特别强大。

分层聚类的缺点

  • 分层聚类对异常值非常敏感,并且在其存在的情况下,模型性能显着降低。
  • 从计算上讲,分层聚类非常昂贵。
fae50fdff9570ad707ab4cf4938a03c6.png

基于密度的噪声应用空间聚类(DBSCAN)

DBSCAN是另一种特别用于正确识别数据中的噪声的聚类算法。

DBSCAN分配标准

它基于具有指定半径ε的多个点,并且为每个数据点分配了特殊标签。分配此标签的过程如下:

  • 它是指定数量(MinPts)的相邻点。 如果存在落在ε半径内的此MinPts点数,则将分配核心点。
  • 边界点将落在核心点的ε半径内,但相邻数将少于MinPts数。
  • 每隔一点都是噪点。

DBSCAN 算法

该算法遵循以下逻辑:

  1. 确定核心点并为每个核心点或每个连接的核心点组成一个组(如果它们满足标准为核心点)。
  2. 确定边界点并将其分配给各自的核心点。

下图总结了这个过程和注释符号。

3c5377055cf3dd4f8e775ed8d97e83b7.png

DBSCAN与K均值聚类

ed74ed145e5aec1ce62130c3c5bcb2eb.png

DBDSCAN的优点

  • 我们不需要指定群集的数量。
  • 集群可采用的形状和大小具有高度灵活性。
  • 识别和处理噪声数据和异常值非常有用。

DBSCAN 的缺点

  • 处理两个集群可到达的边界点时比较困难。
  • 它没有找到不同密度的井簇。
fae50fdff9570ad707ab4cf4938a03c6.png

高斯混合模型 (GMM)

高斯混合模型是概率模型,其假设所有样本是从具有未知参数的有限数量的高斯分布的混合生成的。

它属于软群集算法组,其中每个数据点都属于数据集中存在的每个群集,但每个群集的成员资格级别不同。此成员资格被指定为属于某个群集的概率,范围从0到1。

例如,突出显示的点将同时属于集群A和B,但由于其与它的接近程度而具有更高的集群A的成员资格。

f9695ee496d49a80b440002dd5cd3bbf.png

GMM假设每个聚类遵循概率分布,可以是高斯分布或正态分布。它是K-Means聚类的推广,包括有关数据的协方差结构以及潜在高斯中心的信息。

08d3e0f3ddaaba364164a769b103deee.png

一维GMM分布

GMM将在数据集中搜索高斯分布并将它们混合。

6d81869ddf4cc4b2ccb10c89a7070dfb.png

二维GMM

当具有的多变量分布如下时,对于数据集分布的每个轴,平均中心将是μ+σ。

418c9273b48b6331bcf68289575b39c5.png

GMM 算法

它是一种期望最大化算法,该过程可概括如下:

  1. 初始化K高斯分布,可通过μ(平均值)和σ(标准偏差)值来实现。也可从数据集(天真方法)或应用K-Means中获取。
  2. 软聚类数据:这是“期望”阶段,其中所有数据点将分配给具有各自成员级别的每个聚类。
  3. 重新估计高斯分布:这是“最大化”阶段,该阶段会对期望进行检查并且将其用于计算高斯的新参数中:新μ和σ。
  4. 评估数据的对数似然性以检查收敛。日志的相似度越高,我们创建的模型的混合可能越适合数据集。所以,这是最大化的功能。
  5. 从步骤2开始重复直到收敛。

GMM 的优点

  • 它是一种软聚类方法,可将样本成员分配给多个聚类。这一特性使其成为学习混合模型的最快算法。
  • 集群的数量和形状具有很高的灵活性。

GMM 的缺点

  • 它对初始值非常敏感,这将极大地影响其性能。
  • GMM可能会收敛到局部最小值,这将是次优解决方案。
  • 当每个混合物的点数不足时,算法会发散并找到具有无限可能性的解,除非人为地规范数据点之间的协方差。
fae50fdff9570ad707ab4cf4938a03c6.png

聚类验证

聚类验证是客观和定量评估聚类结果的过程。我们将通过应用集群验证索引来进行此验证。主要有三类:

外部指数

这些是我们在标记原始数据时使用的评分方法,这不是这类问题中最常见的情况。我们将一个聚类结构与事先已知的信息相匹配。

447aa24e12be1cc0c7dbf9213b360b15.png

最常用的索引是Adjusted Rand索引。

  • 调整后的兰特指数(ARI)€[-1,1]

我们应首先对其组件进行定义,以便了解:

013f753dcac05b97353540f68ee1a7d4.png
  • a:是C和K中同一群集中的点数
  • b:是C和K中不同群集中的点数。
  • n =是样本总数
3a09ea0ee27e18396d87f0b7ed88e388.png

ARI可以获得从-1到1的值。值越高,它与原始数据匹配越好。

内部验证指数

在无监督学习中,我们将使用未标记的数据,这时内部索引更有用。

最常见的指标之一是轮廓系数。

  • 剪影系数:

每个数据点都有一个轮廓系数。

68271461438d131900a67916d7428d82.png
5d8f8b552744b71603f6be6765a0d4df.png
  • a =同一群集中与其他样本i的平均距离
  • b =最近邻集群中与其他样本i的平均距离
4a47c4bb572d3ce18b1292b2cad61206.png

轮廓系数(SC)的值是从-1到1。值越高,选择的K值越好。但是相对于没有达到理想值的情况,超过理想的K值对我们会更加不利。

轮廓系数仅适用于某些算法,如K-Means和层次聚类。它不适合与DBSCAN一起使用,我们将使用DBCV代替。

8d72efcd09adea3d239639490b3b32ed.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/530937.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大数据与云计算的理解与基本认识

文章目录大数据海量数据产生的原因?大数据的出现与发展为我们生活带来了什么?传统的数据处理,存储手段在海量数据当中有什么劣势?大数据数据存储手段?大数据分析在商业上的应用?云计算什么是虚拟化?虚拟化…

造完家怎么拆东西_吸顶灯灯管怎么拆?吸顶灯拆灯管的注意事项有哪些?

吸顶灯出现故障,检查是因为灯管给坏了,就需要对吸顶灯的灯光进行拆卸,那么,吸顶灯灯管怎么拆?打算将吸顶灯的灯管给拆了的时候,也应该要能够清楚具体拆卸的事宜,保证拆卸效果,吸顶灯拆灯管的注…

mac nginx 非brew安装_Nginx服务器环境手动安装Discuz! Q非详细教程

Discuz! QDiscuz! Q是原腾讯旗下Discuz团队新开源的社区程序,不过定位当然和以前不一样。前段时间就知道Discuz! Q内测这事,不过一直没兴趣,昨天看见腾讯云这边有个Discuz! Q的活动,就去瞧瞧,还没有pc版本,…

linux ntp时间立即同步命令_记一次生产环境部署NTP服务及配置时间同步

概述linux服务器在提供服务时,要和其他机器进行请求的交互,实际生产环境中,可能因为时间不同步,导致了服务异常。下面介绍下怎么部署NTP服务来解决这个问题。ps:强烈吐槽下头条这个新排版功能,只要图片分辨率比较低然后…

fdtd中时间监视器怎么放_利用FDTD软件仿真拓扑光子(六)-单向传播仿真与软件设置...

本系列主要讲解如何利用lumerical公司的FDTD软件仿真拓扑光子绝缘体的能带结构。主要包括以下几方面的内容:1)前言2)光子晶体结构分析3)能带结构仿真与软件设置4)边缘态仿真与软件设置5)抗散射仿真与软件设…

会计云课堂实名认证后怎么更改_离职了,税务局的会计信息还是我,老板就不更改,怎么办?...

很多做会计的人经常会因为某些原因离职,公司的相关事情好办,交接不交接都不影响自己,但是工商、税务里要是有自己的信息,将来公司出了事,就会影响到自己。如果是正常离职,这些事大家可以商量着来&#xff0…

各层电子数排布规则_原子核外电子排布原理

1.能层、能级与原子轨道(1)能层(n):在多电子原子中,核外电子的能量是不同的,按照电子的能量差异将其分成不同能层。通常用K、L、M、N……表示,能量依次升高。(2)能级:同一能层里电子的能量也可能不同&#…

idea 关联jdk源码_[项目源码]ERP进销存系统

介绍ERP进销存管理系统软件架构核心框架:SpringBoot 2.0.0持久层框架:Mybatis 1.3.2日志管理:Log4j 2.10.0JS框架:Jquery 1.8.0UI框架: EasyUI 1.3.5模板框架: AdminLTE 2.4.0项目管理框架: Maven 3.2.3开发环境建议开发者使用以下…

发布 项目_项目发布会活动到底应该怎么办

项目发布会活动是发布会活动中的一个小类别,他既可以是传统分类中的新品发布会,也可以是战略升级发布会或者合作发布会,需要以具体的项目内容为标准来判断。在充分了解项目的核心内容后,我们可以参照其具体所属的类别来进行详细的…

mybatis if test 判断参数_什么?你还在if判断参数?Spring Boot 注解进行参数校验真香...

一、依赖org.springframework.bootspring-boot-starter-validation2.3.3.RELEASE二、实体类TableField("username") NotBlank(message "{user.name.notBlank}") private String username; NotBlank(message "{user.password.notBlank}&quo…

西门子array数据类型_西门子S71200之间以太网通信(图文)

西门子S7-1200之间以太网通信一.通信前的准备首先创建新项目,并命名为“s7-1200之间通信”,如下图所示:然后组态设备,选择s7-1200的CPU 1214C DC/DC/RLY,版本号为4.1,如下图所示:打开…

修改计算机属性中的内存大小_Python 类属性的动态特点

#编程教育#Python是一门动态语言,所以它的属性都是在程序运行过程中动态引入的。一个类实例占用的内存大小也是动态变化的。这点和编译性语言是完全不同的。例如C是一门编译性语言,它在程序运行之前需要经历编译阶段,那么一个类实例的内存大小…

生成的头_Python爬虫偷懒神器!快速一键生成Python爬虫请求头

今天介绍个神奇的网站!堪称爬虫偷懒的神器!我们在写爬虫,构建网络请求的时候,不可避免地要添加请求头( headers ),以 mdn 学习区为例,我们的请求头是这样的:一般来说,我们只要添加 u…

单选按钮带文字_一分钟教会你用Word添加单选框和复选框

又到学习Word技巧的时候啦!学了这么长时间,你的技能点有没有增加呢?对表格的使用有没有更加熟练了?是否很好奇别人家的表格是怎么弄成可以单选框和复选框的效果呢~~~~下面让小编带你解锁新姿势~效果图如下:(1)开发工具…

excel中线性函数_Excel中特别有用的不常用函数之Indirect函数

今天介绍一下Indirect函数。这个函数属于特别有用的一个函数,但是很多人并不太了解它的作用。今天我们就详细介绍一下。01INDIRECT函数的工作方式这个函数的语法特别简单:INDIRECT(ref_text,[a1])一般可以不用管第二个参数(缺省即可,表示单元…

橡胶柱压缩_你玩俄罗斯轮盘吗?剪切安全气囊压缩气瓶的隐患及注意事项

剪切气囊压缩气瓶的隐患大约 16 年前,当我开始在消防部门工作时,我们了解到:不要剪切安全气囊的压缩气瓶,不要靠近安全气囊的撞击区域,因为它们会让你丧命。那时,我只是接受了这一事实,从未想过…

回放导出数据_王者荣耀本地视频怎么导出MP4格式视频文件?答案在这里

王者荣耀保存的视频在哪看?在你的游戏中出现了精彩五连杀或者你成为MVP后,想要将视频记录下来回放结果发现不知道在哪里看已经录下来的视频,这里我就来告诉大家怎么回看王者荣耀中录下来的视频,由于游戏中的视频保存是属于缓存,因此手机缓存一旦没了这些…

怎么复活不了睡袋_测评 | 萌新的北京冬季户外睡袋初体验

寒冷的冬天到来,你躺在家里可以享受席梦思大棉被,但躁动的心让你想要到外面去看看,大棉被虽然舒服却又厚又重无法带到户外。帐篷是你在户外的小家,睡袋就是那一床温暖的被子。户外出行,不晓得户外睡袋重要性的驴友不是…

获取行信息_论文推荐 | 周乐韬,黄丁发,袁林果,等:基于状态和残差的北斗基准站观测数据表达与信息分级...

《测绘学报》构建与学术的桥梁 拉近与权威的距离复制链接,关注《测绘学报》抖音!【测绘学报的个人主页】长按复制此条消息,长按复制打开抖音查看TA的更多作品##7NsBSynuc88##[抖音口令]本文内容来源于《测绘学报》2020年第10期,审…

均衡原理_干货什么是负载均衡?负载均衡原理详解

负载均衡是高可用网络基础架构的一个关键组成部分,有了负载均衡,我们通常可以将我们的应用服务器部署多台,然后通过负载均衡将用户的请求分发到不同的服务器用来提高网站、应用、数据库或其他服务的性能以及可靠性。下面看一个不使用负载均衡…