【机器学习 | 聚类】关于聚类最全评价方法大全,确定不收藏?

在这里插入图片描述

🤵‍♂️ 个人主页: @AI_magician
📡主页地址: 作者简介:CSDN内容合伙人,全栈领域优质创作者。
👨‍💻景愿:旨在于能和更多的热爱计算机的伙伴一起成长!!🐱‍🏍
🙋‍♂️声明:本人目前大学就读于大二,研究兴趣方向人工智能&硬件(虽然硬件还没开始玩,但一直很感兴趣!希望大佬带带)

在这里插入图片描述

【深度学习 | 核心概念】那些深度学习路上必经的核心概念,确定不来看看? (一)
作者: 计算机魔术师
版本: 1.0 ( 2023.8.27 )

摘要: 本系列旨在普及那些深度学习路上必经的核心概念,文章内容都是博主用心学习收集所写,欢迎大家三联支持!本系列会一直更新,核心概念系列会一直更新!欢迎大家订阅

该文章收录专栏
[✨— 《深入解析机器学习:从原理到应用的全面指南》 —✨]

聚类详解

        • ARI评价法(兰德系数)
        • AMI评价法(互信息)
        • V-measure评分
        • FMI评价法
        • 轮廓系数评价法
        • Calinski-Harabasz指数评价法
        • 分类模型评价法

以下是常用的评价算法名称

方法名称真实值最佳值sklearn****函数
ARI评价法(兰德系数)需要1.0adjusted_rand_score
AMI评价法(互信息)需要1.0adjusted_mutual_info_score
V-measure评分需要1.0completeness_score
FMI评价法需要1.0fowlkes_mallows_score
轮廓系数评价法不需要畸变程度最大silhouette_score
Calinski-Harabasz指数评价法不需要相较最大calinski_harabaz_score
  • ARI评价法(兰德系数):ARI通过比较聚类结果和真实分类之间的成对样本相似性来衡量聚类的质量,其数值范围从-1到1,值越高表示聚类结果与真实分类越相似。

  • AMI评价法(互信息):AMI利用互信息的概念衡量聚类结果和真实分类之间的共享信息量,其数值范围也从0到1,值越高表示聚类结果越好。

  • V-measure评分:V-measure综合考虑了聚类结果的均一性和完整性,通过计算均一性和完整性的加权平均得到评分,数值范围也是从0到1。

  • FMI评价法:FMI通过比较聚类结果和真实分类中成对样本关系来评估聚类的相似度,数值范围从0到1,值越高表示聚类结果越好。

  • 轮廓系数评价法:轮廓系数结合了样本与其所属簇的平均距离和样本与其他簇的平均距离来度量聚类结果的紧密度和分离度,数值范围从-1到1。

  • Calinski-Harabasz指数评价法:Calinski-Harabasz指数通过计算簇内离差平方和和簇间离差平方和的比值来评估聚类结果的质量,数值越大表示聚类结果越好。

上表总共列出了6种评价的方法,其中前4种方法均需要真实值的配合才能够评价聚类算法的优劣,后2种则不需要真实值的配合。但是前4种方法评价的效果更具有说服力,并且在实际运行的过程中在有真实值做参考的情况下,聚类方法的评价可以等同于分类算法的评价

除了轮廓系数以外的评价方法,在不考虑业务场景的情况下都是得分越高,其效果越好,最高分值均为1。而轮廓系数则需要判断不同类别数目的情况下其轮廓系数的走势,寻找最优的聚类数目。

在具备真实值作为参考的情况下,几种方法均可以很好地评估聚类模型。在没有真实值作为参考的时候,轮廓系数评价方法和Calinski-Harabasz指数评价方法可以结合使用

ARI评价法(兰德系数)

ARI(Adjusted Rand Index,调整兰德指数)是一种用于衡量聚类结果与真实分类之间的相似度的评价方法。它通过比较聚类结果与真实分类之间的成对样本相似性来计算得分,范围从-1到1,其中1表示完全匹配,0表示随机匹配,-1表示完全不匹配。

ARI的计算公式如下:

A R I = ∑ i j ( n i j 2 ) − [ ∑ i ( a i 2 ) ∑ j ( b j 2 ) ] / ( n 2 ) 1 2 [ ∑ i ( a i 2 ) + ∑ j ( b j 2 ) ] − [ ∑ i ( a i 2 ) ∑ j ( b j 2 ) ] / ( n 2 ) ARI = \frac{{\sum_{ij} \binom{n_{ij}}{2} - [\sum_i \binom{a_i}{2} \sum_j \binom{b_j}{2}]/\binom{n}{2}}}{{\frac{1}{2} [\sum_i \binom{a_i}{2} + \sum_j \binom{b_j}{2}] - [\sum_i \binom{a_i}{2} \sum_j \binom{b_j}{2}]/\binom{n}{2}}} ARI=21[i(2ai)+j(2bj)][i(2ai)j(2bj)]/(2n)ij(2nij)[i(2ai)j(2bj)]/(2n)

其中, n n n是样本总数, n i j n_{ij} nij表示同时被聚类结果和真实分类划分为同一簇的样本对数量, a i a_i ai表示被聚类结果划分为第 i i i簇的样本数量, b j b_j bj表示被真实分类划分为第 j j j类的样本数量。

AMI评价法(互信息)

AMI(Adjusted Mutual Information,调整互信息)是一种用于评估聚类结果与真实分类之间的相似度的指标。它基于信息论中的互信息概念,度量聚类结果和真实分类之间的共享信息量。

AMI的计算公式如下:

A M I = I ( X ; Y ) − E [ I ( X ; Y ) ] max ⁡ ( H ( X ) , H ( Y ) ) − E [ I ( X ; Y ) ] AMI = \frac{I(X;Y) - E[I(X;Y)]}{\max(H(X), H(Y)) - E[I(X;Y)]} AMI=max(H(X),H(Y))E[I(X;Y)]I(X;Y)E[I(X;Y)]

其中, I ( X ; Y ) I(X;Y) I(X;Y)表示聚类结果和真实分类的互信息, H ( X ) H(X) H(X) H ( Y ) H(Y) H(Y)分别表示聚类结果和真实分类的熵, E [ I ( X ; Y ) ] E[I(X;Y)] E[I(X;Y)]是互信息的期望值,用于校正由于随机因素引起的误差。

V-measure评分

V-measure是一种用于评估聚类结果的均一性(homogeneity)和完整性(completeness)的综合指标。它结合了这两个度量以平衡聚类结果的质量。

V-measure的计算公式如下:

V = 2 × ( h × c ) ( h + c ) V = \frac{2 \times (h \times c)}{(h + c)} V=(h+c)2×(h×c)

其中, h h h表示聚类结果的均一性, c c c表示聚类结果的完整性。均一性和完整性的计算公式如下:

h = 1 − H ( C ∣ K ) H ( C ) h = 1 - \frac{H(C|K)}{H(C)} h=1H(C)H(CK)

c = 1 − H ( K ∣ C ) H ( K ) c = 1 - \frac{H(K|C)}{H(K)} c=1H(K)H(KC)

其中, H ( C ∣ K ) H(C|K) H(CK)表示给定聚类结果 K K K的条件熵, H ( C ) H(C) H(C)表示真实分类的熵, H ( K ∣ C ) H(K|C) H(KC)表示给定真实分类 C C C的条件熵, H ( K ) H(K) H(K)表示聚类结果的熵。

FMI评价法

FMI(Fowlkes-Mallows Index)是一种用于评估聚类结果与真实分类之间的相似度的指标。它通过比较聚类结果中的成对样本关系与真实分类中的成对样本关系来计算得分。

FMI的计算公式如下:

F M I = T P ( T P + F P ) ( T P + F N ) FMI = \frac{TP}{\sqrt{(TP + FP)(TP + FN)}} FMI=(TP+FP)(TP+FN) TP

其中, T P TP TP表示聚类结果和真实分类中成对样本被划分到同一簇的数量, F P FP FP表示聚类结果中被错误划分到同一簇的样本对数量, F N FN FN表示真实分类中被错误划分到同一簇的样本对数量。

轮廓系数评价法

轮廓系数(Silhouette Coefficient)是一种用于评估聚类结果的紧密度和分离度的指标。它结合了样本与其所属簇的平均距离和样本与其他簇的平均距离,用于衡量聚类结果的质量。

轮廓系数的计算公式如下:

s = b − a max ⁡ ( a , b ) s = \frac{b - a}{\max(a, b)} s=max(a,b)ba

其中, a a a表示样本与其所属簇的平均距离, b b b表示样本与其他簇的平均距离。对于每个样本,轮廓系数的取值范围在-1到1之间,值越接近1表示样本聚类得越好,值越接近-1表示样本更适合被划分到其他簇,值接近0表示样本在两个簇之间的边界。

Calinski-Harabasz指数评价法

Calinski-Harabasz指数是一种用于评估聚类结果的紧密度和分离度的指标。它基于簇内的离差平方和(Within-Cluster Sum of Squares,WCSS)和簇间的离差平方和(Between-Cluster Sum of Squares,BCSS),用于衡量聚类结果的质量。

Calinski-Harabasz指数的计算公式如下:

C H = BCSS / ( k − 1 ) WCSS / ( n − k ) CH = \frac{{\text{BCSS}/(k-1)}}{{\text{WCSS}/(n-k)}} CH=WCSS/(nk)BCSS/(k1)

其中, k k k表示簇的数量, n n n表示样本的总数。Calinski-Harabasz指数的值越大表示聚类结果的质量越好。

分类模型评价法

最后一种评价(evaluation)方法是分类(classification)。通过使用 k-means标签训练分类模型,然后在单独的数据子集中对其进行测试,我们可以看到分类器的表现良好,并不是完全任意的。说明学习效果良好,且存在可分类的特征。
在这里插入图片描述

						  🤞到这里,如果还有什么疑问🤞🎩欢迎私信博主问题哦,博主会尽自己能力为你解答疑惑的!🎩🥳如果对你有帮助,你的赞是对博主最大的支持!!🥳

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/171017.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

访谈 破风之人毛京波,选择难而正确的路

“无论是在燃油时代还是电动时代,我们所做的一切,只为回归纯粹的驾驶乐趣。”履新路特斯中国总裁整整一年的毛京波,从不放过任何一个展示路特斯品牌驾驭精神的机会。 11月17日,广州车展开幕首日,位于5.2馆的路特斯“冠…

【理解ARM架构】 散列文件 | 重定位

🐱作者:一只大喵咪1201 🐱专栏:《理解ARM架构》 🔥格言:你只管努力,剩下的交给时间! 目录 🏓引出重定位🏓散列文件🏓可读可写数据段重定位&#…

C++ 基于Boost.Asio实现端口映射器

Boost.Asio 是一个功能强大的 C 库,用于异步编程和网络编程,它提供了跨平台的异步 I/O 操作。在这篇文章中,我们将深入分析一个使用 Boost.Asio 实现的简单端口映射服务器,该服务器能够将本地端口的数据包转发到指定的远程服务器上…

OSG编程指南<十一>:OSG几何体操作及三维地形创建

1、简化几何体 在 OSG 中,场景都是由基本的绘图基元构成的,基本的绘图基元构成简单的几何体,简单的几何体构成复杂的几何体,复杂的几何体最终构造成复杂的场景。当多个几何体组合时,可能 存在多种降低场景渲染效率的原…

220. 存在重复元素 III(滑动窗口+有序集合)

Problem: 220. 存在重复元素 III 文章目录 题目思路Code 题目 给你一个整数数组 nums 和两个整数 indexDiff 和 valueDiff 。 找出满足下述条件的下标对 (i, j)&#xff1a; i ! j,abs(i - j) < indexDiffabs(nums[i] - nums[j]) < valueDiff 如果存在&#xff0c;返回…

Vue事件处理

Vue的事件处理与BOMDOMjs下的事件处理没有明显的差异&#xff0c;差别主要体现在规范化上。在模板或者DOM结构上绑定事件的指令是v-on或者符号。事件的处理函数除了直接指定处理函数之外&#xff0c;还增加了对事件简易处理函数的内联处理方式。在事件上&#xff0c;Vue增加了事…

JAVA小游戏“简易版王者荣耀”

第一步是创建项目 项目名自拟 第二部创建个包名 来规范class 然后是创建类 GameFrame 运行类 package com.sxt;import java.awt.Graphics; import java.awt.Image; import java.awt.Toolkit; import java.awt.event.ActionEvent; import java.awt.event.ActionListener; im…

06_正则与异常处理

正则表达式 基础演示 public class Test {public static void main(String[] args) {System.out.println(check("7029622989")); // true}public static boolean check(String userId) {return userId ! null && userId.matches("[1-9]\\d{5,19}&quo…

DPDK系列之三十七IO处理

一、介绍 如果一条通信链路要想达到最优的效果&#xff0c;一定是整体上每个环节都要有最佳的节奏协调控制而不一定是每个环节都是最优。这个在计算机的数据处理上就更是明显。一般来说&#xff0c;IO的速度是最低的&#xff0c;至少在可见的时光里要想超越CPU和内存还是很难的…

Scope 模块

Scope 模块可以连接任何类型的实数信号线 (不支持复数)。 波形显示界面主要包括两个部分: Scope 独有的工具栏、波形显示区域。 波形显示界面默认是黑色背景, 当有单个信号输入时, 信号线是黄色的。 Scope 模块也有菜单栏, 只不过默认将其句柄和显示都隐藏起来, 可以通过下面…

技术类知识汇总(二)

在自己日常学习javaweb的过程中&#xff0c;做的一些笔记和总结&#xff0c;汇总如下&#xff1a; Springboot项目的静态资源(html&#xff0c;css&#xff0c;js等前端资源)默认存放目录为&#xff1a;classpath:/static classpath:/public classpath:/resources"三层架…

java-hprof 文件是什么

一、是什么 hprof 文件是 Java进程所使用的内存情况在某一时间的一次快照&#xff08;Heap Profile 的缩写&#xff09;&#xff0c;格式为java_pidxxxxx*.hprof 二、文件里面有什么 1、所有的对象信息 对象的类信息、字段信息、原生值(int, long等)及引用值 2、所有的类信…

一键下载Python各版本中的最新版

一、背景需求 下载Python的安装包非常简单&#xff0c;只需要去官网就可以了&#xff1a;https://www.python.org/downloads/windows/ 但是有时候你可能需要环境测试&#xff0c;需要安装很多版本的Python。 一个一个找倒是也可以&#xff0c;但是我做了个自动筛选的脚本&am…

Kafka-Consumer

Kafka消费者 消费者 与生产者对应的是消费者&#xff0c;应用程序可以通过KafkaConsumer来订阅主题&#xff0c;并从订阅的主题中拉取消息。 消费者与消费者组 Kafka的消费者&#xff08;Consumer&#xff09;负责订阅Kafka中的主题&#xff08;Topic&#xff09;&#xff…

Web 安全之证书透明(Certificate Transparency)详解

目录 证书透明性的概念 数字证书和颁发机构 证书透明的起源 证书透明的工作原理 证书透明的实现方法 证书透明的优点 浏览器和客户端对证书透明的支持情况 小结 证书透明&#xff08;Certificate Transparency, CT&#xff09;是网络安全领域中的一个重要概念&#xff…

车载以太网-数据链路层-MAC

文章目录 车载以太网MAC(Media Access Control)车载以太网MAC帧格式以太网MAC帧报文示例车载以太网MAC层测试内容车载以太网MAC(Media Access Control) 车载以太网MAC(Media Access Control)是一种用于车载通信系统的以太网硬件地址,用于在物理层上识别和管理数据包的传…

5 个适用于 Windows 的顶级免费数据恢复软件

对于计算机来说&#xff0c;最重要的是用户数据。除了您的数据之外&#xff0c;有关计算机的其他所有内容都是可替换的。这三个是数据丢失的最常见原因&#xff1a; 文件/文件夹删除丢失分区分区损坏 文件/文件夹删除 文件/文件夹删除是最常见的数据丢失类型。大多数时候&am…

《微信小程序开发从入门到实战》学习三十一

3.4 开发参与投票页面 3.4.9 显示投票结果 在实际使用中&#xff0c;一个用户不能对同一个投票进行重复提交&#xff0c;因此需要向服务器端提交投票结果和提交用户ID。另外页面&#xff0c;需要完善。用户提交完投票后 &#xff0c;还需要显示投票目前的结果&#xff0c;提交…

C语言进阶之笔试题详解(1)

引言&#xff1a; 对指针知识进行简单的回顾&#xff0c;然后再完成笔试题。 ✨ 猪巴戒&#xff1a;个人主页✨ 所属专栏&#xff1a;《C语言进阶》 &#x1f388;跟着猪巴戒&#xff0c;一起学习C语言&#x1f388; 目录 引言&#xff1a; 知识简单回顾 指针是什么 指针变…