Kmeans聚类算法简述

Kmeans聚类算法

1、概述

是一种无监督学习算法,根据样本之间的相似性将样本划分到不同的类别中,不同的相似度计算方式,会得到不同的聚类结果,常用的相似度计算方式有欧式距离。

目的是在没有先验条件知识的情况下,自动发现数据集中的内在结构和模式。

使用不同的聚类准则,产生的聚类结果不同。

2、算法分类

  • 根据聚类颗粒度分类:
    • 细聚类
    • 粗聚类
  • 根据实现方法分类:
    • K-means:根据质心分类,主要介绍K-means,通用普遍
    • 层次聚类:对数据进行逐层划分,直到达到聚类的类别个数
    • DBSCAN聚类是一种基于密度的聚类算法
    • 谱聚类是一类基于图论的聚类算法

3、相关api

导包:

sklearn.cluster.KMeans	# Kmeans依赖包
sklearn.datasets.make_blobs	# 生成数据

执行:

# 1.导入工具包
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
# calinski_harabaz_score CH系数,分数越高,聚类效果越好
from sklearn.metrics import calinski_harabasz_score  # 2.构建数据集 1000个样本,每个样本2个特征 4个质心蔟数据标准差[0.4, 0.2, 0.2, 0.2]
x, y = make_blobs(n_samples=1000, n_features=2, centers=[[-1,-1], [0,0], [1,1], [2,2]],cluster_std = [0.4, 0.2, 0.2, 0.2], random_state=22)
plt.figure()
plt.scatter(x[:, 0], x[:, 1], marker='o')
plt.show()# 3.使用k-means进行聚类
y_pred = KMeans(n_clusters=3, random_state=22).fit_predict(x)# 4.展示聚类效果
plt.scatter(x[:, 0], x[:, 1], c=y_pred)
plt.show() 	# 5.模型评估, 使用CH方法评估 
print(calinski_harabasz_score(x, y_pred))

4、批判指标

(一)、SSE-误差平方和

(1)、定义

S S E = ∑ i = 1 k ∑ p ∈ C i ∣ p − m i ∣ 2 K 表示聚类中心的个数 C i 表示簇 p 表示样本 m i 表示簇的质心 SSE=\sum_{i=1}^k\sum_{p\in C_i}|p-m_i|^2\\ K表示聚类中心的个数\\ C_i表示簇\\ p表示样本\\ m_i表示簇的质心 SSE=i=1kpCipmi2K表示聚类中心的个数Ci表示簇p表示样本mi表示簇的质心

SSE的值越小,说明数据点越靠近它们的中心,聚类效果越好。

(2)、相关api
kmeans对象.inertia_	# 获得SSE的值

(二)、SC系数

(1)、定义

结合了聚类的凝聚度(cohesion)和分离度(separation)
S = b − a m a x ( a , b ) a :样本 i 到同一簇内其他点不相似程度的平均值 b :样本 i 到其他簇的平均不相似程度的最小值 S=\frac{b-a}{max(a,b)}\\ a:样本i到同一簇内其他点不相似程度的平均值\\ b:样本i到其他簇的平均不相似程度的最小值 S=max(a,b)baa:样本i到同一簇内其他点不相似程度的平均值b:样本i到其他簇的平均不相似程度的最小值

  • 计算每一个样本 i 到同簇内其他样本的平均距离 ai,该值越小,说明簇内的相似程度越大

  • 计算每一个样本 i 到最近簇 j 内的所有样本的平均距离 bij,该值越大,说明该样本越不属于其他簇 j

  • 计算所有样本的平均轮廓系数

  • 轮廓系数的范围为:[-1, 1],值越大聚类效果越好

(2)、相关api
silhouette_score(x, y_predict)	# 获取SC系数,传x和y预测值

(三)、CH系数

(1)、定义

CH 系数结合了聚类的凝聚度(Cohesion)和分离度(Separation)、质心的个数,希望用最少的簇进行聚类。
C H ( k ) = S S B S S W m − k k − 1 S S W = ∑ i = 1 m ∣ ∣ x i − C p i ∣ ∣ 2 C p i 表示质心 x i 表示某个样本 m 表示样本数量 k 表示质心个数 S S B = ∑ i = 1 k n j ∣ ∣ C j − X ‾ ∣ 2 c j 表示质心 X ‾ 表示质心与质心之间的中心点 n j 表示样本的个数 CH(k)=\frac{SSB}{SSW}\frac{m-k}{k-1}\\ SSW=\sum_{i=1}^m||x_i-C_{pi}||^2\\ C_{pi}表示质心\\ x_i表示某个样本\\ m表示样本数量\\ k表示质心个数\\ SSB=\sum_{i=1}^kn_j||C_j-\overline{X}|^2\\ c_j表示质心\\ \overline{X}表示质心与质心之间的中心点\\ n_j表示样本的个数 CH(k)=SSWSSBk1mkSSW=i=1m∣∣xiCpi2Cpi表示质心xi表示某个样本m表示样本数量k表示质心个数SSB=i=1knj∣∣CjX2cj表示质心X表示质心与质心之间的中心点nj表示样本的个数
SSW值是计算每个样本点到质心的距离再累加起来,表示的是簇内的内聚程度,SSW越小越好

SSB表示簇与簇之间的分离度,SSB越大越好

(2)、相关api
calinski_harabasz_score(x, y_predict)	# 获取CH系数,传x和y预测值

(四)、肘部法

肘部法通过SSE确定n_culsters的值

  • 对于n个点的数据集,迭代计算k(from 1 to n),每次聚类完成后计算SSE

  • SSE是会逐渐变小的,以为每个点都是在它所在簇的中心本身

  • SSE变化过程中会出现一个拐点,下降率突然变缓时认为时最佳n_culsters

  • 在决定什么时候停止训练时,肘形判据同样有效,数据通常有更多的噪音,在增加分类无法带来更多回报时,我们停止增加类别

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/58286.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

算法设计与分析:大整数的加减乘除运算

第1关:大整数的加减乘除运算 任务描述 本关任务:掌握大整数的基本思想,并运用大整数的基本运算计算出常规整数n的阶乘,然后统计大整数n!中数字0的个数。 相关知识 为了完成本关任务,你需要掌握:1.大整数的…

医学影像学基础:理解CT、MRI、X射线和超声等医学影像设备的基本工作原理和成像技术

目录 医学影像学基础 1. X射线成像 2. 计算机断层扫描(CT) 3. 磁共振成像(MRI) 4. 超声成像 综合对比 1、成像原理对比 2、安全性对比 3、应用领域对比 4、设备特点对比 总结 医学影像学基础 在医学影像学中&#xff0…

super和this

相同点: 1.都是Java中的关键字 2.都只可以在非静态方法中使用 3.在构造方法中使用必须是第一条语句并且二者不可以同时存在不同点: 1.this是当前对象的引用,super是子类对象从父类继承下来部分成员的引用 2.在非静态成员方法中,…

CSS、Less、Scss

CSS、Less和SCSS都是用于描述网页外观的样式表语言,但它们各自具有不同的特点和功能。以下是对这三者的详细阐述及区别对比: 详细阐述 CSS(Cascading Style Sheets) 定义:CSS是一种用来表现HTML或XML等文件样式的计算机…

etcd之etcd分布式锁及事务(四)

1、etcd分布式锁及事务 1.1 前言 分布式锁是控制分布式系统之间同步访问共享资源的一种方式。在分布式系统中,常常需要协调他们的动作。如 果不同的系统或是同一个系统的不同主机之间共享了一个或一组资源,那么访问这些资源的时候,往往需要…

计算机网络-CSMA/CD协议笔记及“争用期”的理解

假设a和b是总线型网络上相距最远的两个节点。 从零这个时刻a节点会往信道上发送数据,那么a节点发送的第一个比特,需要经过τ这么长的时间,也就是经过一个单向的传播时延之后。它的这个信号才可以被最远的这个节点检测到。那如果b结点在τ这个…

六、深度剖析 Hadoop 分布式文件系统(HDFS)的数据存储机制与读写流程

深度剖析 Hadoop 分布式文件系统(HDFS)的数据存储机制与读写流程 在当今大数据领域当中,Hadoop 分布式文件系统(HDFS)作为极为关键的核心组件之一,为海量规模的数据的存储以及处理构筑起了坚实无比的根基。…

android aild 传递多个参数, in ,out,inout

在 HIDL 和 AIDL 中,方法参数的传递方式有所不同。HIDL 使用 generates 关键字来表示方法的返回值,而 AIDL 使用 in、out 和 inout 关键字来表示参数的传递方向。 HIDL 中的 generates 在 HIDL 中,generates 关键字用于指定方法的返回值。例…

https://huggingface.co/上的模型无法用linux服务器clone怎么办(只需要稍微改一下网址,就可以切换到镜像下载)

问题描述: 在ubuntu系统上,使用如下命令,克隆仓库,报无法访问错误: git clone https://huggingface.co/distilbert/distilroberta-base通用解决方案: 把下面部分更换: https://huggingface.…

内存泄漏的隐形陷阱:console.log

console.log 本身不会直接导致内存泄漏,但在特定的场景下,其使用方式可能间接引发内存泄漏问题,特别是在以下情况: 1. console.log 引用闭包或对象 console.log 输出的数据如果包含引用类型(例如:对象、数…

Python 基础语法 - 逻辑运算符

逻辑运算符是用来做逻辑计算的,就像之前用到的比较运算符 ,每一次比较其实就是一次条件判断,都会得到一个相应的True或者False的值,而逻辑运算符的操作数就是一个用来做条件判断的表达式或者变量 运算符说明and与or或not非 1. an…

【云原生】云原生与DevOps的结合:提升软件开发与交付的效率

目录 引言一、什么是云原生?1.1 云原生的核心原则1.2 云原生的技术栈1.3 云原生的优势 二、DevOps的概述2.1 DevOps的起源与发展2.2 DevOps文化的重要性2.3 DevOps工具链 三、云原生与DevOps的结合3.1 CI/CD的概念与重要性3.2 持续交付的实施策略3.3 整合CI/CD流程3…

数字IC后端实现Innovus |给各种IP子模块添加port buffer和antenna diode万能脚本

我们之前分享过在hierarchical flow后端实现中为了确保顶层flatten时timing signoff和physical signoff看到的情况和模块级看到的情况一致,我们会在模块io port添加io port buffer(主要是timing,antenna一致性)。实际上在芯片级我…

PSINS工具箱函数介绍——inserrplot

关于工具箱 i n s e r r p l o t inserrplot in

一个关于@JsonIgnore的isxxx()问题

一个关于JsonIgnore的问题 版本:2.13.5 <dependency><groupId>com.fasterxml.jackson.core</groupId><artifactId>jackson-databind</artifactId><optional>true</optional></dependency>代码&#xff1a; Data public clas…

多源BFS问题(1)_01矩阵

个人主页&#xff1a;C忠实粉丝 欢迎 点赞&#x1f44d; 收藏✨ 留言✉ 加关注&#x1f493;本文由 C忠实粉丝 原创 多源BFS问题(1)_01矩阵 收录于专栏【经典算法练习】 本专栏旨在分享学习算法的一点学习笔记&#xff0c;欢迎大家在评论区交流讨论&#x1f48c; 目录 1. 题…

el-select实现模糊搜索、远端搜索

el-select实现模糊搜索、远端搜索 实现代码&#xff1a; <template><div class"item-select-wrapper"><el-select v-model"value1" filterable"filterable" :disabled"disabled" remote"remote" clearable…

前端请求格式

1.multipart/form-data格式发送请求参数 什么时候用&#xff1a; 当后端API要求以表单的形式接收数据时&#xff0c;比如<input type"text" name"username">和<input type"password" name"password">&#xff0c;这些数据…

Java案例——屏蔽信息

首先这次的案例需要用到substring方法&#xff0c;先了解一下&#xff1a; 首先我们来加密一下电话号码&#xff1b; package String; public class Demo_06 {public static void main(String[] args) {// 定义一个电话号码字符串String phoneNumber"13111112598"…

精选:HR招聘管理工具Top5使用体验

作为企业招聘者&#xff0c;如何在选择中找到开启高效招聘之门的钥匙&#xff0c;成为了每一位企业招聘管理者必须面对的难题&#xff0c;在面对市场上琳琅满目的招聘工具&#xff0c;你是否也曾感到无头绪&#xff0c;不知所措&#xff1f;每个工具都声称自己拥有独特的优势和…