聚类模型的算法性能评价

一、概述

  作为机器学习领域的重要内容之一,聚类模型在许多方面能够发挥举足轻重的作用。所谓聚类,就是通过一定的技术方法将一堆数据样本依照其特性划分为不同的簇类,使得同一个簇内的样本有着更相近的属性。依不同的实现策略,聚类算法有很多种,如基于距离的k-means、基于密度的DBSCAN等。在聚类完成之后,其性能的评估是一个不可规避的问题,常见的评估方法依有无事先的标记性信息分为外部评估法和内部评估法。

二、评价指标

1.外部评估法

  一种常用的评估方式是外部评估,利用测试样本事先已有的标记信息来衡量模型的性能。常见的外部评估指标有纯度(Purity)、兰德指数(Rand Index, RI)、调整兰德指数(Adjusted Rand Index, ARI)、F值(F-score)、杰卡德系数(Jaccard, JC)、标准化互信息(NMI)等。

(1)纯度

  纯度是一种较直接的性能表征方式,计算的是正确聚类的样本数与总样本数的比值。在聚类完成之后,对每个簇内的样本,假设知晓其事先的标记性属性信息,每个簇中类别数量最多的样本即作为该簇的属性类别,给类别下的样本即纯性样本,各个簇的纯性样本数之和对总样本数的占比即纯度(Purity)。表达式为
P u r i t y = 1 N ∑ k m a x j ∣ w k ∩ c j ∣ Purity=\frac{1}{N}\sum_{k}{max_j\left| w_k\cap c_j \right|} Purity=N1kmaxjwkcj
  其中,N为总的样本数, Ω = { w 1 , w 2 , . . . , w K } \Omega=\left\{ w_1,w_2,...,w_K \right\} Ω={w1,w2,...,wK}表示聚类簇的划分, C = { c 1 , c 2 , . . . , c J } C=\left\{ c_1,c_2,...,c_J \right\} C={c1,c2,...,cJ} 表示样本真实类别的划分。纯度的取值范围是[0,1],值越大,性能越好。
【示例】
  现对一堆样本进行聚类操作,划分了三个簇,如下所示
在这里插入图片描述
  在Cluster A中,三角形最多,因此该簇归属为三角形的簇,有效样本数为5;
  在Cluster B中,圆形最多,因此该簇归属为圆形的簇,有效样本数为4;
  在Cluster C中,正方形最多,因此该簇归属为正方形的簇,有效样本数为4。

  纯度为有效样本数对总样本的占比
P u r i t y = 5 + 4 + 4 8 + 6 + 6 = 13 20 = 0.65 Purity=\frac{5+4+4}{8+6+6}=\frac{13}{20}=0.65 Purity=8+6+65+4+4=2013=0.65

(2)兰德指数

  对于已有了预先标记信息的情形,可以以与分类模型中相类似的方式进行衡定,明确下列几个概念
   TP(True Positive):同类样本点被划分在同一个簇中的可能情形数;
   FP(False Positive):非同类样本点被划分在同一个簇中的可能情形数;
   TN(True Negative):非同类样本点分布在不同簇中的可能情形数;
   FN(False Negative):同类样本点分布在不同簇中的可能情形数。
在这里插入图片描述
  兰德指数就是指准确率,聚类后样本分布的整体准确率,定义为
R I = T P + T N T P + F P + T N + F N RI=\frac{TP+TN}{TP+FP+TN+FN} RI=TP+FP+TN+FNTP+TN

(3)调整兰德指数

  对于随机结果,兰德指数并不能保证值接近于零,这与直观上的意义不甚符合,为能够改善这种情况,调整的兰德指数(ARI)被提出。它的表达式为
A R I = R I − E ( R I ) m a x ( R I ) − E ( R I ) ARI=\frac{RI-E(RI)}{max(RI)-E(RI)} ARI=max(RI)E(RI)RIE(RI)
  ARI取值范围为[-1,1],值越接近于1,性能越好;接近于0,相当于随机聚类;接近于-1,性能不如随机聚类。

(4)F值

  这里同样首先借鉴了分类模型中精准度和召回率的概念,然后以F度量进行综合衡定。精准度(Precision)和召回率(Recall)定义为
P r e c i s i o n = T P T P + F P Precision=\frac{TP}{TP+FP} Precision=TP+FPTP

R e c a l l = T P T P + F N Recall=\frac{TP}{TP+FN} Recall=TP+FNTP

  F度量综合衡量精确度(查准率)和召回率(查全率), F β F_\beta Fβ是F1的一般形式,能让我们表达出对查准率/查全率的不同偏好,如F1分数认为召回率和精确度同等重要,F2分数认为召回率的重要程度是精确度的两倍,而F0.5分数认为召回率的重要程度是精确度的一半。

F 1 = 2 ∗ p r e c i s i o n ∗ r e c a l l p r e c i s i o n + r e c a l l F_1=\frac{2\ast precision \ast recall}{precision+recall} F1=precision+recall2precisionrecall

F β = ( 1 + β 2 ) ∗ p r e c i s i o n ∗ r e c a l l β 2 ∗ p r e c i s i o n + r e c a l l F_\beta=\frac{(1+\beta^{2})\ast precision \ast recall}{\beta^2\ast precision + recall} Fβ=β2precision+recall(1+β2)precisionrecall

  F度量的取值范围为[0,1],值越大性能越好。

(5)杰卡德系数

  杰卡德系数(Jaccard, JC)定义为聚类结果正确的样本数与聚簇结果或实际结果一致的比例,取值范围为0到1。表达式为
J C = T P T P + F P + F N JC=\frac{TP}{TP+FP+FN} JC=TP+FP+FNTP

  杰卡德系数值越大,性能越好。

(6)标准化互信息

  这里首先介绍一下互信息(Mutual Information)的概念,它反映了两个事件相互影响所产生的信息量。设两个随机变量(X,Y)的联合分布为p(x,y),边缘分布分别为p(x),p(y),互信息I(X; Y)是联合分布p(x,y)与边缘分布p(x)p(y)的相对熵,即
I ( X ; Y ) = ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g p ( x , y ) p ( x ) p ( y ) I\left( X;Y \right)=\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right)log\frac{p(x,y)}{p(x)p(y)}}} I(X;Y)=xXyYp(x,y)logp(x)p(y)p(x,y)
  标准化互信息(Normalized Mutual Information, NMI)计算表达式为

N M I = I ( X , Y ) F ( H ( x ) , H ( y ) ) NMI=\frac{I\left( X,Y \right)}{F\left( H(x),H(y) \right)} NMI=F(H(x),H(y))I(X,Y)

  其中F(x,y)可以为min/max函数、几何平均或算术平均,几何平均即 F ( x 1 , x 2 ) = x 1 ⋅ x 2 F\left( x_1,x_2 \right)=\sqrt{x_1\cdot x_2} F(x1,x2)=x1x2 ,算术平均即 F ( x 1 , x 2 ) = x 1 + x 2 2 F\left( x_1,x_2 \right)=\frac{x_1+x_2}{2} F(x1,x2)=2x1+x2,采用算术平均是比较常见的一种计算方式,此时NMI表达式可化为
N M I = 2 ⋅ I ( X , Y ) H ( X ) + H ( Y ) NMI=\frac{2\cdot I\left( X,Y \right)}{H\left( X \right)+H\left( Y \right)} NMI=H(X)+H(Y)2I(X,Y)
  其中,I(X,Y)为互信息, H ( X ) = − ∑ i p ( x i ) l o g p ( x i ) H\left( X \right)=-\sum_{i}{p(x_i)logp(x_i)} H(X)=ip(xi)logp(xi) H ( Y ) = − ∑ j p ( y j ) l o g p ( y j ) H\left( Y \right)=-\sum_{j}{p(y_j)logp(y_j)} H(Y)=jp(yj)logp(yj)为信息熵。

2.内部评估法

  另一种常用的评估方式是内部评估,利用测试样本本身的信息衡量模型性能。常见的内部评估指标有紧密度(Compactness, CP)、间隔度(Separation, SP)、轮廓系数(Silhouette Coefficient, SC)、戴维森堡丁指数(Davies-Bouldin Index, DBI)、邓恩指数(Dunn Validity Index, DVI)等。

(1)紧密度

  紧密度(Compactness, CP)是指簇内各点到聚类中心的平均距离,值越小说明簇内紧密度越高
C P = 1 n ∑ i = 1 n ∣ x i − μ ∣ CP=\frac{1}{n}\sum_{i=1}^{n}{\left| x_i-\mu \right|} CP=n1i=1nxiμ

(2)间隔度

  间隔度(Separation, SP)指各个聚类中心之间的平均距离,值越高表明类间距离越大
S P = 1 k 2 ∑ i = 1 k ∑ j = 1 k ∣ ∣ μ i − μ j ∣ ∣ 2 SP=\frac{1}{k^2}\sum_{i=1}^{k}{\sum_{j=1}^{k}{\left| \left| \mu_i-\mu_j \right| \right|_2}} SP=k21i=1kj=1kμiμj2

(3)轮廓系数

  对单个样本,设a是其与同簇中其他样本的平均距离,b是与它距离最近的不同簇类中样本的平均距离,轮廓系数为
s = b − a m a x ( a , b ) s=\frac{b-a}{max\left( a,b \right)} s=max(a,b)ba

  样本集合的轮廓系数是各样本轮廓系数的平均值
S C = 1 n ∑ i = 1 n s i SC=\frac{1}{n}\sum_{i=1}^{n}{s_i} SC=n1i=1nsi

  轮廓系数的取值范围是[-1,1],取值越接近1聚类性能越好,反之越差。

(4)戴维森堡丁指数

  对于两个簇的样本而言,各自簇内平均距离之和除以两簇中心的距离,称为簇间相似度,簇间相似度越小说明簇内距离越小、簇间距离越大,效果越好。对所有的簇,分别找到与之聚类效果最差那个簇的簇间相似度,然后求平均值,即为戴维森堡丁指数(DBI)的定义。表达式为
D B I = 1 N ∑ i = 1 N max ⁡ j ≠ i [ σ i + σ j d ( c i , c j ) ] DBI=\frac{1}{N}\sum_{i=1}^{N}{\max_{j\ne i}{\left[ \frac{\sigma_i+\sigma_j}{d\left( c_i,c_j \right)} \right]}} DBI=N1i=1Nj=imax[d(ci,cj)σi+σj]

  其中, σ i = 1 n i ∑ k = 1 n i x k − μ i \sigma_i=\frac{1}{n_i}\sum_{k=1}^{n_i}{x_k-\mu_i} σi=ni1k=1nixkμi σ j = 1 n j ∑ k = 1 n j x k − μ j \sigma_j=\frac{1}{n_j}\sum_{k=1}^{n_j}{x_k-\mu_j} σj=nj1k=1njxkμj d ( c i , c j ) = ∣ ∣ μ i − μ j ∣ ∣ 2 d\left( c_i,c_j \right)=\left| \left| \mu_i-\mu_j \right| \right|_2 d(ci,cj)=μiμj2
易知,DBI值越小,表明聚类效果越好,反之越差。

(5)邓恩指数

  邓恩指数定义为两簇之间最小的那个簇间距离与各簇中最大的那个簇内距离的比值。表达式为

D V I = m i n 1 ≤ i ≠ j ≤ N d ( μ i , μ j ) m a x 1 ≤ k ≤ N d i n t r a ( k ) DVI=\frac{min_{1\leq i\ne j\leq N}d\left( \mu_i,\mu_j \right)}{max_{1\leq k \leq N} d_{intra}(k)} DVI=max1kNdintra(k)min1i=jNd(μi,μj)

  其中,簇间距离指两个簇的质心之间的距离,对于维度为D的样本集有

d ( μ i , μ j ) = ∑ d = 1 D ( μ i ( d ) − μ j ( d ) ) 2 d\left( \mu_i,\mu_j \right)=\sqrt{\sum_{d=1}^{D}{\left( \mu_{i}^{(d)}-\mu_{j}^{(d)} \right)^2}} d(μi,μj)=d=1D(μi(d)μj(d))2

  簇内距离是簇内各样本到质心的平均距离,对于一个簇S,若质心为c,则它的簇内距离表达式为

d i n t r a = 1 ∣ S ∣ ∑ s = 1 ∣ S ∣ d ( x s , c ) d_{intra}=\frac{1}{|S|}\sum_{s=1}^{|S|}{d\left( x_s,c \right)} dintra=S1s=1Sd(xs,c)

  因簇间距离越大、簇内距离越小时聚类效果越好,所以邓恩指数越大,性能越好。


End.


pdf下载

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/35296.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

华为HCIP Datacom H12-821 卷16

1.判断题 在 VRRP 中,当设备状态变为 Master 后,,会立刻发送免费 ARP 来刷新下游设备的 MAC 表项,从而把用户的流量引到此台设备上来 A、对 B、错 正确答案: A 解析: 2.判断题 路由选择工具 route- policy 能够基于预先定义的条件来进行过滤并设置 BGP

软件著作权的申请信息在哪看?

软著对于企业来说是一个非常有价值的知识产权。软著可以保证企业自身的利益得到合法的保护,并且可以反映企业的技术创新能力,能够让企业提高自己的竞争力,在申报一些补贴,招标时作为加分项。因此,很多科技型企业都会申…

1982Springboot宠物美容院管理系统idea开发mysql数据库web结构java编程计算机网页源码maven项目

一、源码特点 springboot宠物美容院管理系统是一套完善的信息系统,结合springboot框架和bootstrap完成本系统,对理解JSP java编程开发语言有帮助系统采用springboot框架(MVC模式开发),系 统具有完整的源代码和数据库…

【QT】Widget

目录 widget常用属性及其作用 enabled geomtry window frame window frame的影响 相关API windowTitle windowIcon qrc机制 qrc使用方式 自定义鼠标图片 设置字体样式 设置鼠标悬停提示 toolTip 控件获取焦点 styleSheet widget常用属性及其作用 属性作用…

手把手教你打造高精度STM32数字时钟,超详细步骤解析

STM32数字时钟项目详解 1. 项目概述 STM32数字时钟是一个集成了时间显示、闹钟功能、温湿度检测等多功能于一体的小型电子设备。它利用STM32的实时时钟(RTC)功能作为核心,配合LCD显示屏、按键输入、温湿度传感器等外设,实现了一个功能丰富的数字时钟系统。 2. 硬件组成 STM…

IND83081芯片介绍(二)

七、典型应用 上面显示了独立的CAN收发器,而下面则显示了多个iND83081可以共享同一个CAN收发器的应用场景。通过这些连接,iND83081可以实现对多个LED的驱动和控制,同时与外部MCU进行通信 。 八、ELINS接口 1.ELINS简介 ELINS是一种从接口&a…

Oracle 19C19.3 rac安装并RU升级到19.14

19C支持RU补丁安装。 下载好19.14的RU补丁 [rootrac1 soft]# ll total 9830404 -rw-r--r-- 1 grid oinstall 3059705302 Jun 18 15:26 LINUX.X64_193000_db_home.zip -rw-r--r-- 1 grid oinstall 2889184573 Jun 18 15:27 LINUX.X64_193000_grid_home.zip -rw-r--r-- 1 grid …

Antivirus Zap Pro :苹果 mac 电脑全面的系统安全解决方案

Antivirus Zap Pro 是一个全面的系统安全解决方案,它可以扫描和删除 Mac 中的恶意软件和其他恶意软件,还可以检测 Mac 上已经存在的威胁或可疑文件,并保护您的 Mac 免遭日后的威胁,满足用户不同的 Mac 电脑杀毒需求,有…

Firewalld防火墙基础

Firewalld 支持网络区域所定义的网络连接以及接口安全等级的动态防火墙管理工具 支持IPv4、IPv6防火墙设置以及以太网桥 支持服务或应用程序直接添加防火墙规则接口 拥有两种配置模式 运行时配置:临时生效,一旦重启或者重载即不生效 永久配置&#xff1a…

2024年【焊工(初级)】实操考试视频及焊工(初级)考试试题

题库来源:安全生产模拟考试一点通公众号小程序 焊工(初级)实操考试视频根据新焊工(初级)考试大纲要求,安全生产模拟考试一点通将焊工(初级)模拟考试试题进行汇编,组成一…

【人工智能学习之图像操作(二)】

【人工智能学习之图像操作(二)】 图像上的运算图像混合按位运算 图像的几何变换仿射变换透视变换膨胀操作腐蚀操作开操作闭操作梯度操作礼帽操作黑帽操作 图像上的运算 图像上的算术运算,加法,减法,图像混合等。 加减…

【FPGA项目】System Generator算法板级验证-快速搭建外围测试电路

🎉欢迎来到FPGA专栏~System Generator算法板级验证-快速搭建外围测试电路 ☆* o(≧▽≦)o *☆嗨~我是小夏与酒🍹 ✨博客主页:小夏与酒的博客 🎈该系列文章专栏:FPGA学习之旅 文章作者技术和水平有限,如果文…

【微服务网关——中间件实现】

1.中间件的意义 避免成为if狂魔提高复用、隔离业务调用清晰、组合随意 2.实现原理 中间件一般都封装在路由上,路由是URL请求分发的管理器中间件选型 基于链表构建中间件 基于责任链的实现缺点:实现复杂,调用方式不灵活 使用数组构建中间件 控…

大模型笔记1: Longformer环境配置

论文: https://arxiv.org/abs/2004.05150 首先保证电脑上配置了git. git环境配置: https://blog.csdn.net/Andone_hsx/article/details/87937329 3.1、找到git安装路径中bin的位置,如:D:\Program Files\Git\bin 找到git安装路径中git-core的…

PostgreSQL 连接器:在 SeaTunnel 中的应用与优势

在现代企业中,数据已经成为核心资产,基于开源数据集成平台SeaTunnel,工程师如何高效地连接和管理这些数据源,直接关系到企业的竞争力和运营效率。 本文将给大家介绍如何通过 JDBC PostgreSQL 数据源连接器,在 SeaTunne…

第15周:RNN心脏病预测

目录 前言 二、前期准备 2.1 设置GPU 2.2 导入数据 2.2.1 数据介绍 2.2.2 导入代码 2.2.3 检查数据 三、数据预处理 3.1 划分训练集与测试集 3.2 标准化 四、构建RNN模型 4.1 基本概念 4.2 搭建代码 五、编译模型 六、训练模型 七、模型评估 总结 前言 &#…

直播怎么录制视频?直播视频,3种录制方法

“今晚我最喜欢的游戏博主要进行直播,但我可能还要加班。怎么办,不想错过直播的内容!电脑怎么才能进行直播录制视频啊?谁能教教我?” 在数字化的今天,直播已经成为人们获取信息和娱乐的重要途径。有时&…

执行yum命令报错Could not resolve host: mirrors.cloud.aliyuncs.com; Unknown error

执行yum命令报错 [Errno 14] curl#6 - "Could not resolve host: mirrors.cloud.aliyuncs.com; Unknown error 修改图中所示两个文件: vim epel.repo vim CentOS-Base.repo 将所有的http://mirrors.cloud.aliyuncs.com 修改为http://mirrors.aliyun.com。 修改…

趣测系统搭建APP源码开发,娱乐丰富生活的选择!

文章目录 前言一、pandas是什么?二、使用步骤 1.引入库2.读入数据总结 前言 趣测系统提供了一个集合多种有趣测试的平台,如心理测试和星座测试等,这些测试内容富有趣味性和娱乐性,能够帮助大众在忙碌的生活中找到放松和娱乐的时刻…

yolov5驾驶员不规范行为检测

1 项目介绍 1.1 摘要 随着汽车工业的迅速发展和交通拥堵的加剧,驾驶员在行车过程中的不规范行为成为了导致交通事故频发的重要因素之一。为了减少交通事故的发生,保障道路安全,提高驾驶员的行车安全意识,本研究致力于实现驾驶员…