【机器学习笔记】12 聚类

无监督学习概述

  • 监督学习
    在一个典型的监督学习中,训练集有标签𝑦 ,我们的目标是找到能够区分正样本和负样本的决策边界,需要据此拟合一个假设函数。
  • 无监督学习
    与此不同的是,在无监督学习中,我们的数据没有附带任何标签𝑦,无监督学习主要分为聚类、降维、关联规则、推荐系统等方面。

主要的无监督学习方法

  • 聚类(Clustering)
    如何将教室里的学生按爱好、身高划分为5类?
  • 降维( Dimensionality Reduction )
    如何将将原高维空间中的数据点映射到低维度的空间中?
  • 关联规则( Association Rules)
    很多买尿布的男顾客,同时买了啤酒,可以从中找出什么规律来提
    高超市销售额?
  • 推荐系统( Recommender systems)
    很多客户经常上网购物,根据他们的浏览商品的习惯,给他们推荐什么商品呢?

聚类

  • 主要算法
    K-means、密度聚类、层次聚类

  • 主要应用
    市场细分、文档聚类、图像分割、图像压缩、聚类分析、特征学习或者词典学习、确定犯罪易发地区、保险欺诈检测、公共交通数据分析、IT资产集群、客户细分、识别癌症数据、搜索引擎应用、医疗应用、药物活性预测……

  • 案例
    1.医疗
    医生可以使用聚类算法来发现疾病。以甲状腺疾病为例。当我们对包含甲状腺疾病和非甲状腺疾病的数据集应用无监督学习时,可以使用聚类算法来识别甲状腺疾病数据集。
    2.市场细分
    为了吸引更多的客户,每家公司都在开发易于使用的功能和技术。为了了解客户,公司可以使用聚类。聚类将帮助公司了解用户群,然后对每个客户进行归类。这样,公司就可以了解客户,发现客户之间的相似之处,并对他们进行分组。
    3.金融业
    银行可以观察到可能的金融欺诈行为,就此向客户发出警告。在聚类算法的帮助下,保险公司可以发现某些客户的欺诈行为,并调查类似客户的保单是否有欺诈行为。
    4.搜索引擎
    百度是人们使用的搜索引擎之一。举个例子,当我们搜索一些信息,如在某地的超市,百度将为我们提供不同的超市的选择。这是聚类的结果,提供给你的结果就是聚类的相似结果。
    5.社交网络
    比如在社交网络的分析上。已知你朋友的信息,比如经常发email的联系人,或是你的微博好友、微信的朋友圈,我们可运用聚类方法自动地给朋友进行分组,做到让每组里的人们彼此都熟识。

K-means聚类

聚类的背景知识–基本思想

图中的数据可以分成三个分开的点集(称为),一个能够分出这些点集的算法,就被称为聚类算法
在这里插入图片描述

K-均值算法(K-means)算法概述

K-means算法是一种无监督学习方法,是最普及的聚类算法,算法使用一个没有标签的数据集,然后将数据聚类成不同的组。
K-means算法具有一个迭代过程,在这个过程中,数据集被分组成若干个预定义的不重叠的聚类或子组,使簇的内部点尽可能相似,同时试图保持簇在不同的空间,它将数据点分配给簇,以便簇的质心和数据点之间的平方距离之和最小,在这个位置,簇的质心是簇中数据点的算术平均值。

  • 闵可夫斯基距离(Minkowski distance)
    在这里插入图片描述

𝑝取1或2时的闵氏距离是最为常用的 𝑝
𝑝 = 2即为欧氏距离
𝑝 = 1时则为曼哈顿距离
当𝑝取无穷时的极限情况下,可以得到切比雪夫距离
在这里插入图片描述

K-means算法流程

  1. 选择K个点作为初始质心。
  2. 将每个点指派到最近的质心,形成K个簇。
  3. 对于上一步聚类的结果,进行平均计算,得出该簇的新的聚类中心。
  4. 重复上述两步/直到迭代结束:质心不发生变化。
    在这里插入图片描述
    首先,初始化称为簇质心的任意点。初始化时,必须注意簇的质心必须小于训练数据点的数目。因为该算法是一种迭代算法,接下来的两个步骤是迭代执行的。
    在这里插入图片描述
    初始化后,遍历所有数据点,计算所有质心与数据点之间的距离。现在,这些簇将根据与质心的最小距离而形成。在本例中,数据分为3个簇(𝐾 = 3)。
    在这里插入图片描述
    第三步:移动质心,因为上面步骤中形成的簇没有优化,所以需要形成优化的簇。为此,我们需要迭代地将质心移动到一个新位置。取一个簇的数据点,计算它们的平均值,然后将该簇的质心移动到这个新位置。对所有其他簇重复相同的步骤。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    现在,这个算法已经收敛,形成了清晰可见的不同簇。该算法可以根据簇在第一步中的初始化方式给出不同的结果。
    在这里插入图片描述
  • K值的选择
    现在我们需要找到簇的数量。通常通过“肘部法则”进行计算。我们可能会得到一条类似于人的肘部的曲线。右图中,代价函数的值会迅速下降,在𝐾 = 3的时候达到一个肘点。在此之后,代价函数的值会就下降得非常慢,所以,我们选择𝐾 = 3。这个方法叫“肘部法则”。
    在这里插入图片描述
    K-均值的一个问题在于,它有可能会停留在一个局部最小值处,而这取决于初始化的情况。
    为了解决这个问题,我们通常需要多次运行K-均值算法,每一次都重新进行随机初始化,最后再比较多次运行K-均值的结果,选择代价函数最小的结果。

K-means的优缺点

  • 优点
    原理比较简单,实现也是很容易,收敛速度快。
    聚类效果较优。
    算法的可解释度比较强。
    主要需要调参的参数仅仅是簇数K
  • 缺点
    需要预先指定簇的数量;
    如果有两个高度重叠的数据,那么它就不能被区分,也不能判断有两个簇;
    欧几里德距离可以不平等的权重因素,限制了能处理的数据变量的类型;
    有时随机选择质心并不能带来理想的结果;
    无法处理异常值和噪声数据;
    不适用于非线性数据集;
    对特征尺度敏感;
    如果遇到非常大的数据集,那么计算机可能会崩溃。

密度聚类-DBSCAN

与划分和层次聚类方法不同,DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法。它将簇定义为密度相连的点的最大集合‘’能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。
密度:空间中任意一点的密度是以该点为圆心,以扫描半径构成的圆区域内包含的点数目

  • DBSCAN使用两个超参数:
    扫描半径 (eps)和最小包含点数(minPts)来获得簇的数量,而不是猜测簇的数目。
    ➢ 扫描半径 (eps) :
    用于定位点/检查任何点附近密度的距离度量,即扫描半径。
    ➢ 最小包含点数(minPts)
    聚集在一起的最小点数(阈值),该区域被认为是稠密的

  • DBSCAN算法将数据点分为三类:
    1.核心点:在半径Eps内含有超过MinPts数目的点。
    2.边界点:在半径Eps内点的数量小于MinPts,但是落在核心点的邻域内的点。
    3.噪音点:既不是核心点也不是边界点的点
    在这里插入图片描述

DBSCAN密度聚类的算法流程

1.将所有点标记为核心点、边界点或噪声点;
2. 如果选择的点是核心点,则找出所有从该点出发的密度可达对象形成簇;
3. 如果该点是非核心点,将其指派到一个与之关联的核心点的簇中;
4. 重复以上步骤,直到所点都被处理过

在这里插入图片描述
对每个点计算其邻域Eps=3内的点的集合。
集合内点的个数超过MinPts=3的点为核心点。

在这里插入图片描述
查看剩余点是否在核点的邻域内,若在,则为边界点,否则为噪声点。

在这里插入图片描述
将距离不超过Eps=3的点相互连接,构成一个簇,核心点邻域内的点也会被加入到这个簇中。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

层次聚类

层次聚类假设簇之间存在层次结构,将样本聚到层次化的簇中。
层次聚类又有聚合聚类(自下而上)、分裂聚类(自上而下)两种方法。
因为每个样本只属于一个簇,所以层次聚类属于硬聚类。

  • 背景知识:
    如果一个聚类方法假定一个样本只能属于一个簇,或簇的交集为空集,那么该方法称为硬聚类方法。如果一个样本可以属于多个簇,或簇的交集不为空集,那么该方法称为软聚类方法。
    在这里插入图片描述

聚合聚类

开始将每个样本各自分到一个簇;
之后将相距最近的两簇合并,建立一个新的簇;
重复此操作直到满足停止条件;
得到层次化的类别。
在这里插入图片描述

在这里插入图片描述

分裂聚类

开始将所有样本分到一个簇;
之后将已有类中相距最远的样本分到两个新的簇;
重复此操作直到满足停止条件;
得到层次化的类别。
在这里插入图片描述

聚类的评价指标

(1) 均一性:𝑝
类似于精确率,一个簇中只包含一个类别的样本,则满足均一性。其实也可以认为就是正确率(每个聚簇中正确分类的样本数占该聚簇总样本数的比例和)
在这里插入图片描述
(2) 完整性:𝑟
类似于召回率,同类别样本被归类到相同簇中,则满足完整性;(每个聚簇中正确分类的样本数占该类型的总样本数比例的和)
在这里插入图片描述

(3) V-measure:
均一性和完整性的加权平均( 𝛽 默认为1)
在这里插入图片描述

(4) 轮廓系数
样本𝑖的轮廓系数:
在这里插入图片描述
簇内不相似度:计算样本𝑖到同簇其它样本的平均距离为𝑎(𝑖),应尽可能小。
簇间不相似度:计算样本𝑖到其它簇𝐶𝑗的所有样本的平均距离𝑏𝑖𝑗,应尽可能大。
轮廓系数𝑠(𝑖)值越接近1表示样本𝑖聚类越合理,越接近-1,表示样本𝑖应该分类到另外的簇中,近似为0,表示样本𝑖应该在边界上;所有样本的𝑠(𝑖)的均值被成为聚类结果的轮廓系数。

  • 假设数据集被拆分为4个簇,样本𝑖对应的𝑎(𝑖)值就是所有𝐶1 中其他样本点与样本𝑖的距离平均值;样本对应的𝑏(𝑖)值分两步计算,首先计算该点分别到𝐶2、 𝐶3和𝐶4中样本点的平均距离,然后将三个平均值中的最小值作为𝑏(𝑖)的度量.
    在这里插入图片描述

(5).调整兰德系数(ARI, Adjusted Rnd Index
数据集𝑆共有𝑁个元素, 两个聚类结果分别是:
𝑋 = {𝑋1, 𝑋2, . . . , 𝑋𝑟}, 𝑌 = {𝑌1, 𝑌2, . . . , 𝑌𝑠}
𝑋和𝑌的元素个数为:
𝑎 = {𝑎1, 𝑎2, . . . , 𝑎𝑟}, 𝑏 = {𝑏1, 𝑏2, . . . , 𝑏𝑠}
在这里插入图片描述
在这里插入图片描述
ARI取值范围为[−1,1],值越大意味着聚类结果与真实情况越吻合。从广义的角度来讲,ARI衡量的是两个数据分布的吻合程度

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/687166.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

微服务学习Day4

文章目录 初始MQ同步通讯和异步通讯MQ常见技术介绍 RabbitMQ快速入门入门案例 SpringAMQP介绍例子WorkQueue模型exchange交换机消息转换器 初始MQ 同步通讯和异步通讯 MQ常见技术介绍 RabbitMQ快速入门 入门案例 SpringAMQP 介绍 例子 WorkQueue模型 exchange交换机 消息转换…

【JavaEE】_HTTP请求报头header

目录 1. Host 2. Content-Length与Content-Type 2.1 Content-Length 2.2 Content-Type 3. User-Agent(UA) 4. Referer 5. Cookie header的整体格式是“键值对”结构,一行是一个键值对,这些键值对都是HTTP定义好的、有特殊含…

输入捕获模式测频率PWM输入模式(PWMI)测占空比

一、概念介绍 输出比较: 比较电路输入的CNT、CCR大小关系 ,在通道引脚输出高低电平 二、*频率知识、测量方法补充 * N/fc得到标准频率的时长,也就是待测频率的周期 测频法代码实现:修改对射式红外传感器计次(上升沿…

怎样让MCU/SFU视频会议ovmedia 接入GB28281监控视频参会互动

在国内视频应用对GB监控接入是常规操作,很多系统需要接入监控视频交互处理。我们以ovmedia视频会议为例做一个接入互动。 GB28181协议在流媒体系统较为普及,我们以开源SRS系统对接监控端再接入会议(也可以用商用GB流平台,操作基本…

Open CASCADE学习|分割

目录 1、添加头文件与源文件 GEOMAlgo_Splitter.h GEOMAlgo_Splitter.cpp 2、测试 2.1平面分割立方体 2.2以边分面 2.3以面分面 1、添加头文件与源文件 GEOMAlgo_Splitter.h // Copyright (C) 2007-2019 CEA/DEN, EDF R&D, OPEN CASCADE//// Copyright (C) 2003-2…

【大厂AI课学习笔记】【2.1 人工智能项目开发规划与目标】(4)数据准备的流程

今天学习的是数据准备的流程。 我们已经知道,数据准备占了AI项目超过一半甚至79%的时间。 那么数据准备,都做些什么,有哪些流程。 1.数据采集 观测数据人工收集调查问卷线上数据库 2.数据清洗 有缺失的数据有重复的数据有内容错误的数据…

51单片机编程应用(C语言):DS1302实时时钟

单片机计时的缺陷: 1.他的精度不高,没有时钟芯片精度高, 2.会占用单片机CPU的时间, 3.单片机的时钟无法掉电继续运行,(最大的缺点) DS1302芯片内部有备用电池,可以掉电继续计时…

fusion360 操作总结(不断更新)

平移缩放旋转快捷键 画布选择Windows 组合键macOS 组合键平移按住鼠标中键按住鼠标中键缩放滚动鼠标中键滚动鼠标中键动态观察旋转按住 Shift 键并按住鼠标中键按住 Shift 键并按住鼠标中键绕点动态观察按住 Shift 键单击并按住鼠标中键按住 Shift 键单击并按住鼠标中键撤消Ct…

MCU看门狗

目录 一、独立看门狗(IWDG) 1、IWDG 主要作用 2、IWDG 主要特性 3、编程控制 4、注意地方 二、窗口看门狗(WWDG) 1、窗口看门狗作用: 2、窗口看门狗产生复位信号有两个条件: 3、WWDG 框图 4、WWDG 将要复位的时间 5、编程控制 一、独立看门…

STL:优先级队列的实现

STL中优先级队列本质上就是堆。在上一篇博客中讲到过:堆是一种完全二叉树,逻辑结构上看起来像树,但在物理结构中是存储在线性表中。与普通线性表不同的是,堆中数据大小是规律排列的:小堆中每个节点都大于它的父节点&am…

SpringBoot实战:打造企业资产管理系统

✍✍计算机编程指导师 ⭐⭐个人介绍:自己非常喜欢研究技术问题!专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目:有源码或者技术上的问题欢迎在评论区一起讨论交流! ⚡⚡ Java实战 |…

001kafka源码项目gradle报错UnsupportedClassVersionError-kafka-报错-大数据学习

1 报错提示 java.lang.UnsupportedClassVersionError: org/eclipse/jgit/lib/AnyObjectId has been compiled by a more recent version of the Java Runtime (class file version 55.0), this version of the Java Runtime only recognizes class file versions up to 52.0 如…

Linux线程(1)--线程的概念 | 线程控制

目录 前置知识 线程的概念 Linux中对线程的理解 重新定义进程与线程 重谈地址空间 线程的优缺点 线程的优点 线程的缺点 线程异常 线程的用途 Linux线程 VS 进程 线程控制 创建线程 线程等待 线程终止 线程ID的深入理解 前置知识 我们知道一个进程有属于自己的P…

docker (六)-进阶篇-数据持久化最佳实践MySQL部署

容器的数据挂载通常指的是将宿主机(虚拟机或物理机)上的目录或文件挂载到容器内部 MySQL单节点安装 详情参考docker官网文档 1 创建对应的数据目录、日志目录、配置文件目录(参考二进制安装,需自己建立数据存储目录) mkdir -p /data/mysq…

计算机毕业设计springboot_vue房屋租赁系统_ku668

1.掌握Html,Css,JavaScript等基础编程语言。 2.掌握Vue框架,node环境,数据库等知识。 3.掌握开发系统的基本流程。 …

你了解API测试吗?如何充分的测试一个API?

什么是API? API代表应用程序接口。API是软件系统中的中间层,负责数据源与用户看到的图形用户界面(GUI)之间的数据通信。换句话说,API是软件的业务层,它在表示层和数据层之间创建连接。 API测试侧重于所谓的…

2.17C语言学习

P1678 烦恼的高考志愿 写完后发现题解里面用的是优先队列或者二分什么的,其实这个题可以贪心,我们把学校的分数线和学生的成绩分别进行排序,然后从前往后遍历,每次比较当前学校的分数与学生成绩的差距和下一个学校的分数与学生成…

re-captioning技术是什么

参考https://zhuanlan.zhihu.com/p/664192860 模型对图片进行caption操作时,输出的标题一般描述图片中的主体,而忽视了背景、常识关系等更为细节的描述。 图片比较重要的细节的描述应当包括: 物体存在的场景。如:在厨房的水槽&am…

Qt之条件变量QWaitCondition详解(从使用到原理分析全)

QWaitCondition内部实现结构图: 相关系列文章 C之Pimpl惯用法 目录 1.简介 2.示例 2.1.全局配置 2.2.生产者Producer 2.3.消费者Consumer 2.4.测试例子 3.原理分析 3.1.辅助函数CreateEvent 3.2.辅助函数WaitForSingleObject 3.3.QWaitConditionEvent …

阿里云服务器服务费怎么计算的?详细报价解析

2024年最新阿里云服务器租用费用优惠价格表,轻量2核2G3M带宽轻量服务器一年61元,折合5元1个月,新老用户同享99元一年服务器,2核4G5M服务器ECS优惠价199元一年,2核4G4M轻量服务器165元一年,2核4G服务器30元3…