机器学习之无监督学习:九大聚类算法

今天,和大家分享一下机器学习之无监督学习中的常见的聚类方法。

今天,和大家分享一下机器学习之无监督学习中的常见的聚类方法。

在无监督学习中,我们的数据并不带有任何标签,因此在无监督学习中要做的就是将这一系列无标签的数据输入到算法中,然后让算法找到一些隐含在数据中的结构,通过下图中的数据,可以找到的一个结构就是数据集中的点可以分成两组分开的点集(簇),能够圈出这些簇(cluster)的算法,就叫做聚类算法(clustering algorithm)。

聚类算法的应用

  • 市场分割:将数据库中客户的信息根据市场进行不同的分组,从而实现对其分别销售或者根据不同的市场进行服务改进。
  • 社交网络分析:通过邮件最频繁联系的人及其最频繁联系的人来找到一个关系密切的群体。
  • 组织计算机集群:在数据中心里,计算机集群经常一起协同工作,可以用它来重新组织资源、重新布局网络、优化数据中心以及通信数据。
  • 了解银河系的构成:利用这些信息来了解一些天文学的知识。

聚类分析的目标是将观测值划分为组(“簇”),以便分配到同一簇的观测值之间的成对差异往往小于不同簇中的观测值之间的差异。聚类算法分为三种不同的类型:组合算法、混合建模和模式搜索。

常见的几种聚类算法有:
  • K-Means Clustering
  • Hierarchical Clustering
  • Agglomerative Clustering
  • Affinity Propagation
  • Mean Shift Clustering
  • Bisecting K-Means
  • DBSCAN
  • OPTICS
  • BIRCH

K-means

K-means 算法是目前最流行的聚类方法之一。

K-means 是由贝尔实验室的 Stuart Lloyd 在 1957 年提出来的,最开始是用于脉冲编码调制,直到 1982 年才将该算法对外公布。1965 年,Edward W.Forgy 发布了相同的算法,因此 K-Means 有时被称为 Lloyd-Forgy。

在聚类问题中,我们会给定一组未加标签的数据集,同时希望有一个算法能够自动地将这些数据分成有紧密关系的的(coherent)子集(subsets) 或是簇(clusters)。K 均值(K-means)算法是现在最热门最为广泛运用的聚类算法。

直观理解 K 均值算法:

假如有一个无标签的数据集(上图左),并且我们想要将其分为两个簇,现在执行 K 均值算法,具体操作如下:

  • 第一步,随机生成两个点(因为想要将数据聚成两类)(上图右),这两个点叫做聚类中心(cluster centroids)。
  • 第二步,进行 K 均值算法的内循环。K 均值算法是一个迭代算法,它会做两件事情,第一个是簇分配(cluster assignment),第二个是移动聚类中心(move centroid)。

内循环的第一步是要进行簇分配,也就是说,遍历每一个样本,再根据每一个点到聚类中心距离的远近将其分配给不同的聚类中心(离谁近分配给谁),对于本例而言,就是遍历数据集,将每个点染成红色或蓝色。

内循环的第二步是移动聚类中心,将红色和蓝色的聚类中心移动到各自点的均值处(每组点的平均位置)。

接着就是将所有的点根据与新的聚类中心距离的远近进行新的簇分配,如此循环,直至聚类中心的位置不再随着迭代而改变,并且点的颜色也不再发生改变,此时可以说 K 均值已经聚合了。该算法在找出数据中两个簇的方面做的相当好。

K-Means算法的优点:

简单易懂,计算速度较快,适用于大规模数据集。

缺点:
  • 例如对于非球形簇的处理能力较差,容易受到初始簇心的选择影响,需要预先指定簇的数量K等。
  • 此外,当数据点之间存在噪声或者离群点时,K-Means算法可能会将它们分配到错误的簇中。

Hierarchical Clustering

层次聚类(Hierarchical Clustering)顾名思义就是按照某个层次对样本集进行聚类操作,这里的层次实际上指的就是某种距离定义。

层次聚类最终的目的是消减类别的数量,所以在行为上类似于树状图由叶节点逐步向根节点靠近的过程,这种行为过程又被称为“自底向上”。

更通俗的,层次聚类是将初始化的多个类簇看做树节点,每一步迭代,都是将两两相近的类簇合并成一个新的大类簇,如此反复,直至最终只剩一个类簇(根节点)。

层次聚类策略分为两种基本范式:聚集型(自下而上)和分裂型(自上而下)。

与层次聚类相反的是分裂聚类(divisive clustering),又名 DIANA(Divise Analysis),它的行为过程为“自顶向下”。

应用 K-means 的结果取决于要搜索的聚类数量的选择和起始配置分配。相反,层次聚类方法不需要这样的规范。相反,它们要求用户根据两组观察值之间的成对差异性,指定(不相交)观察组之间的差异性度量。顾名思义,它们产生层次结构表示,其中层次结构每个级别的集群都是通过合并下一个较低级别的集群来创建的。在最低级别,每个集群包含一个观察值。在最高级别,只有一个集群包含所有数据。

优点:
  • 距离和规则的相似度容易定义,限制少;
  • 不需要预先制定聚类数;
  • 可以发现类的层次关系;
  • 可以聚类成其它形状。
缺点:
  • 计算复杂度太高;
  • 奇异值也能产生很大影响;
  • 算法很可能聚类成链状。

Agglomerative Clustering

凝聚层次聚类(Agglomerative Clustering)是一种自底向上的聚类算法,它将每个数据点视为一个初始簇,并将它们逐步合并成更大的簇,直到达到停止条件为止。在该算法中,每个数据点最初被视为一个单独的簇,然后逐步合并簇,直到所有数据点被合并为一个大簇。

优点:
  • 适用于不同形状和大小的簇,且不需要事先指定聚类数目。
  • 该算法也可以输出聚类层次结构,便于分析和可视化。
缺点:
  • 计算复杂度较高,尤其是在处理大规模数据集时,需要消耗大量的计算资源和存储空间。
  • 该算法对初始簇的选择也比较敏感,可能会导致不同的聚类结果。

Affinity Propagation

Affinity Propagation(AP)算法,通常被翻译为近邻传播算法或者亲和力传播算法,

Affinity Propagation 是一种基于图论的聚类算法,旨在识别数据中的"exemplars"(代表点)和"clusters"(簇)。与 K-Means 等传统聚类算法不同,Affinity Propagation 不需要事先指定聚类数目,也不需要随机初始化簇心,而是通过计算数据点之间的相似性得出最终的聚类结果。

优点:
  • 不需要制定最终聚类族的个数
  • 已有的数据点作为最终的聚类中心,而不是新生成一个簇中心。
  • 模型对数据的初始值不敏感。
  • 对初始相似度矩阵数据的对称性没有要求。
  • 相比与 k-centers 聚类方法,其结果的平方差误差较小。
缺点:
  • 该算法的计算复杂度较高,需要大量的存储空间和计算资源;
  • 对于噪声点和离群点的处理能力较弱。

Mean Shift Clustering

Mean Shift Clustering 是一种基于密度的非参数聚类算法,其基本思想是通过寻找数据点密度最大的位置(称为"局部最大值"或"高峰"),来识别数据中的簇。算法的核心是通过对每个数据点进行局部密度估计,并将密度估计的结果用于计算数据点移动的方向和距离。算法的核心是通过对每个数据点进行局部密度估计,并将密度估计的结果用于计算数据点移动的方向和距离。

优点:
  • 不需要指定簇的数目,且对于形状复杂的簇也有很好的效果。
  • 算法还能够有效地处理噪声数据。
缺点:
  • 计算复杂度较高,尤其是在处理大规模数据集时,需要消耗大量的计算资源和存储空间;
  • 该算法还对初始参数的选择比较敏感,需要进行参数调整和优化。

Bisecting K-Means

Bisecting K-Means 是一种基于 K-Means 算法的层次聚类算法,其基本思想是将所有数据点划分为一个簇,然后将该簇分成两个子簇,并对每个子簇分别应用 K-Means 算法,重复执行这个过程,直到达到预定的聚类数目为止。

算法首先将所有数据点视为一个初始簇,然后对该簇应用K-Means算法,将该簇分成两个子簇,并计算每个子簇的误差平方和(SSE)。然后,选择误差平方和最大的子簇,并将其再次分成两个子簇,重复执行这个过程,直到达到预定的聚类数目为止。

优点:
  • 具有较高的准确性和稳定性,能够有效地处理大规模数据集,并且不需要指定初始聚类数目。
  • 该算法还能够输出聚类层次结构,便于分析和可视化。
缺点:
  • 计算复杂度较高,尤其是在处理大规模数据集时,需要消耗大量的计算资源和存储空间。
  • 此外该算法对初始簇的选择也比较敏感,可能会导致不同的聚类结果。

DBSCAN

具有噪声的基于密度的聚类方法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)是一种典型的基于密度的空间聚类算法。

基于密度的方法的特点是不依赖于距离,而是依赖于密度,从而克服基于距离的算法只能发现“球形”聚簇的缺点。

DBSCAN算法的核心思想是:对于一个给定的数据点,如果它的密度达到一定的阈值,则它属于一个簇中;否则,它被视为噪声点。

优点:
  • 这类算法能克服基于距离的算法只能发现“类圆形”(凸)的聚类的缺点;
  • 可发现任意形状的聚类,且对噪声数据不敏感;
  • 不需要指定类的数目 cluster;
  • 算法中只有两个参数,扫描半径 (eps)和最小包含点数(min_samples)。
缺点:
  • 计算复杂度,不进行任何优化时,算法的时间复杂度是O(N^{2}),通常可利用R-tree,k-d tree, ball;
  • tree索引来加速计算,将算法的时间复杂度降为O(Nlog(N));
  • 受eps影响较大。在类中的数据分布密度不均匀时,eps较小时,密度小的cluster会被划分成多个性质相似的cluster;eps较大时,会使得距离较近且密度较大的cluster被合并成一个cluster。在高维数据时,因为维数灾难问题,eps的选取比较困难;
  • 依赖距离公式的选取,由于维度灾害,距离的度量标准不重要;
  • 不适合数据集集中密度差异很大的,因为eps和metric选取很困难。

OPTICS

OPTICS(Ordering Points To Identify the Clustering Structure)是一种基于密度的聚类算法,其能够自动确定簇的数量,同时也可以发现任意形状的簇,并能够处理噪声数据。

OPTICS 算法的核心思想是:对于一个给定的数据点,通过计算它到其它点的距离,确定其在密度上的可达性,从而构建一个基于密度的距离图。然后,通过扫描该距离图,自动确定簇的数量,并对每个簇进行划分。

优点:
  • 能够自动确定簇的数量,并能够处理任意形状的簇,并能够有效地处理噪声数据。
  • 该算法还能够输出聚类层次结构,便于分析和可视化。
缺点:
  • 计算复杂度较高,尤其是在处理大规模数据集时,需要消耗大量的计算资源和存储空间。
  • 该算法对于密度差异较大的数据集,可能会导致聚类效果不佳。

BIRCH

BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)是一种基于层次聚类的聚类算法,其可以快速地处理大规模数据集,并且对于任意形状的簇都有较好的效果。

BIRCH算法的核心思想是:通过对数据集进行分级聚类,逐步减小数据规模,最终得到簇结构。BIRCH算法采用一种类似于B树的结构,称为CF树,它可以快速地插入和删除子簇,并且可以自动平衡,从而确保簇的质量和效率。

优点:
  • 能够快速处理大规模数据集,并且对于任意形状的簇都有较好的效果。
  • 该算法对于噪声数据和离群点也有较好的容错性。
缺点:
  • 对于密度差异较大的数据集,可能会导致聚类效果不佳;
  • 对于高维数据集的效果也不如其他算法。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/208906.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Cloud Gateway中对admin端点进行认证

前言 我们被扫了一个漏洞,SpringBoot Actuator 未授权访问,漏洞描述是这样的: Actuator 是 springboot 提供的用来对应用系统进行自省和监控的功能模块,借助于 Actuator 开发者可以很方便地对应用系统某些监控指标进行查看、统计…

计算机基础知识65

cookie和session的使用 # 概念:cookie 是客户端浏览器上的键值对 # 目的:为了做会话保持 # 来源:服务端写入的,服务端再返回的响应头中写入,浏览器会自动取出来 存起来是以key value 形式,有过期时间、path…

STM32单片机项目实例:基于TouchGFX的智能手表设计(3)嵌入式程序任务调度的设计

STM32单片机项目实例:基于TouchGFX的智能手表设计(3)嵌入式程序任务调度的设计 目录 一、嵌入式程序设计 1.1轮询 1.2 前后台(中断轮询) 1.3 事件驱动与消息 1.3.1 事件驱动的概念 1.4 定时器触发事件驱动型的任…

golang游戏服务器 - tgf系列课程02

环境准备和服务创建 课程介绍了TGF框架的前期的准备工作,启动一个websocket网关服务,和大厅逻辑节点。 文章最后附有项目案例地址和视频教程地址,下期预告等信息安装第三方软件 tgf框架的服务发现依赖于Consul,所以我们需要先安装并启动Consul官网安装 :访问官网下载对应的包…

点云从入门到精通技术详解100篇-针对三维点云分类神经网络模型的不可感知对抗攻击

目录 前言 国内外研究现状 三维点云分类神经网络 三维点云传统攻击方法

C/C++ 实现动态资源文件释放

当我们开发Windows应用程序时,通常会涉及到使用资源(Resource)的情况。资源可以包括图标、位图、字符串等,它们以二进制形式嵌入到可执行文件中。在某些情况下,我们可能需要从可执行文件中提取自定义资源并保存为独立的…

vivado时序方法检查7

TIMING-25 &#xff1a; 千兆位收发器 (GT) 上的时钟波形无效 收发器输出管脚 <pin_name> 上或连接到该管脚的信号线上定义的时钟 <clock_name> 的波形与收发器设置不一 致&#xff0c; 或者缺少参考时钟定义。自动衍生时钟的周期为 <PERIOD> &#xf…

物联网后端个人第十四周总结

物联网方面进度 1.登陆超时是因为后端运行的端口和前端监听的接口不一样&#xff0c;所以后端也没有报错&#xff0c;将二者修改一致即可 2.登录之后会进行平台的初始化&#xff0c;但是初始化的时候会卡住,此时只需要将路径的IP端口后边的内容去掉即可 3.阅读并完成了jetlinks…

通过误差改变控制的两种策略

如果反馈误差越来越大&#xff0c;需要改变调节方向以减小误差并实现更好的控制。以下是两种常见的调节方向改变的方法&#xff1a; PID控制器中的积分限制&#xff1a;在PID控制中&#xff0c;积分项可以用来减小稳态误差。然而&#xff0c;当反馈误差持续增大时&#xff0c;积…

浪潮信息:数字化转型的策略与实践

在数字化浪潮的推动下&#xff0c;浪潮信息正致力于将计算创新推向新的高度。作为科技发展的排头兵&#xff0c;浪潮信息深知算力的重要性&#xff0c;因此不断探索前所未有的解决方案。在这个过程中&#xff0c;浪潮信息的研发人员和科技工作者如同探险家&#xff0c;勇敢地迎…

RocketMQ安装和使用

RocketMQ快速入门 下载RocketMQ 下载地址 环境要求 Linux64位系统 JDK1.8(64位) 安装RocketMQ 解压 unzip rocketmq-all-4.4.0-bin-release.zip启动RocketMQ 启动NameServer # 1.启动NameServer nohup sh bin/mqnamesrv & # 2.查看启动日志 tail -f ~/logs/rocke…

学会用bash在linux写脚本 (二)

接着上一章继续 数值的对比 判断语句 循环语句 22.5 比较、对比、判断 在写脚本时&#xff0c;有时需要做一些比较&#xff0c;例如&#xff0c;两个数字谁大谁小&#xff0c;两个字符串是否相同等。 做对比的表达式有[]、[[]]、test&#xff0c;其中[]和 test这两种表达式的…

如何通过3000个传感器帮助大型大学附属医院实现远程环境监测?

得益于ELPRO提供的可扩展、可信赖和可靠的环境监测解决方案&#xff0c;一家领先的大学研究医院系统在COVID-19新冠肺炎大流行初始迅速为员工远程工作做好了准备。 在本案例研究中&#xff0c;您将了解大城市的一家大型大学附属医院如何做到&#xff1a; 建立了远程温度控制数…

身份统一管理创新与优化 ——华为云OneAccess应用身份管理服务的2023年

2023年&#xff0c;随着云计算、物联网、人工智能等技术的快速发展&#xff0c;企业面临着数字化转型的巨大挑战与机遇。身份统一管理是企业数字化转型的基础&#xff0c;也是业务发展的关键。如何高效、安全、灵活地实现身份统一管理&#xff0c;成为企业亟待解决的首要课题。…

解决MySQL字段名与关键字冲突

如果字段名与MySQL内部关键字相同&#xff0c;可能会导致语法错误、数据访问问题甚至系统崩溃。 1、避免使用MySQL关键字作为字段名。 2、使用反引号&#xff08;backticks&#xff09;&#xff1a; 如果使用一个与MySQL关键字相同的字段名&#xff0c;可以使用反引号将其括起…

boost-字符串处理-判断-查找-裁剪-删除-替换-分割-合并

文章目录 1.判断1.1.equals1.2.all1.3.starts_with1.4.ends_with1.5.contains 2.大小写转换3.字符串删除4.字符串替换5.字符串查找6.字符串修剪7.字符串分割8.字符串合并9.总结 1.判断 判别式函数和分类函数大多数都是以is_开头&#xff0c;这些函数如下&#xff1a; 判别式函…

ElasticSearch之线程池

ElasticSearch节点可用的CPU核的数量&#xff0c;通常可以交给ElasticSearch来自行检测和判定&#xff0c;另外可以在elasticsearch.yml中显式指定。样例如下&#xff1a; node.processors: 2如下表格中的processors即CPU核的数量。 线程池的列表 线程池名称类型线程数量队列…

屏蔽百度首页推荐和热搜的实战方案

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

电视节目中活动灭灯系统是如何实现的

活动灭灯系统主要用于各种需要亮灯或灭灯的活动节目&#xff0c;如招聘灭灯、相亲灭灯等。有多种灯光颜色供选择&#xff0c;本设备通过按钮灯软件组合实现&#xff0c;用户可以自己设置亮灯或灭灯规则。 软件功能&#xff1a; 1、后台统一控制亮灯&#xff0c;重新开始下轮…

华为交换机基本配置

一、配置时间 sys ntp-service unicast-server 192.168.1.1 ntp-service unicast-server 192.168.1.2 clock timezone UTC add 8 clock timezone CST add 08:00:00 undo ntp-service disable q手动设置一个时间 clock datetime 13:43:00 2023-10-10save ysys保存&#xff01;保…