机器学习实验六:聚类

系列文章目录

  1. 机器学习实验一:线性回归
  2. 机器学习实验二:决策树模型
  3. 机器学习实验三:支持向量机模型
  4. 机器学习实验四:贝叶斯分类器
  5. 机器学习实验五:集成学习
  6. 机器学习实验六:聚类

文章目录

  • 系列文章目录
  • 一、实验目的
  • 二、实验原理
    • 1.聚类思想
    • 2.K 均值聚类算法 K-Means
  • 三、实验内容
  • 四、实验步骤
    • 1.训练 K-Means 模型
    • 2. 计算聚类纯度、兰德系数和 F1 值,评测聚类效果
  • 总结


一、实验目的

(1)掌握聚类的基本思想;
(2)掌握 K-means 算法,编程实现 K-means;
(3)掌握使用 K-Means 算法对鸢尾花三分类数据集进行聚类操作。

二、实验原理

1.聚类思想

聚类(Clustering)是一种典型的“无监督学习”,是把物理对象或抽象对
象的集合分组为由彼此类似的对象组成的多个类的分析过程。
聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集对
应一个簇。与分类的不同在于,聚类所要求的划分的类别是未知,类别个数也是
未知的。聚类的目标为簇内相似度尽可能高,簇间相似度尽可能低。

2.K 均值聚类算法 K-Means

K-means 是一种常用的基于欧式距离的聚类算法,其认为两个目标的距离越
近,相似度越大。其算法流程如下:在这里插入图片描述

三、实验内容

使用 Python 读取鸢尾花三分类数据集并训练最佳的 K-Means 模型,随后使
用生成的模型将数据进行聚类,并根据使用聚类纯度、兰德系数和 F1 值评测聚
类效果。
由于本次为聚类任务,因此使用聚类相关的混淆矩阵和评价指标。
聚类任务中的混淆矩阵与普通混淆矩阵的意义有一定区别,如下表所示:在这里插入图片描述
其中,TP 为两个同类样本在同一簇的数量;FP 为两个非同类样本在同一簇
的数量;TN 为两个非同类样本分别在两个簇的数量;FN 为两个同类样本分别在
两个簇的数量。
评价指标选择为聚类纯度 Purity、兰德系数 Rand Index(RI)、F1 度量值,
计算公式如下:在这里插入图片描述
代码实现时,可以直接调用 sklearn 库中的 pair_confusion_matrix()获得
混淆矩阵,随后利用公式进行计算。

四、实验步骤

1.训练 K-Means 模型

根据数据,我们已知鸢尾花分3类,因此我们这里的聚类数k=3。利用sklearn
的 KMeans()方法训练 K-Means 模型,并将结果用散点图表示,实现代码如下:

#训练 KMeans 模型
estimator = KMeans(n_clusters=3)
estimator.fit(X) #聚类
#绘制结果散点图
x0 = X[label_pred == 0]
x1 = X[label_pred == 1]
x2 = X[label_pred == 2]
plt.scatter(x0[:, 0], x0[:, 1], c = "red", marker='o', label='label0') 
plt.scatter(x1[:, 0], x1[:, 1], c = "green", marker='*', label='label1') 
plt.scatter(x2[:, 0], x2[:, 1], c = "blue", marker='+', label='label2') 
plt.xlabel('petal length') 
plt.ylabel('petal width') 
plt.legend(loc=2) 
plt.show() 

2. 计算聚类纯度、兰德系数和 F1 值,评测聚类效果

使用 sklearn.metrics 库中提供的 pair_confusion_matrix()方法求得当前
聚类的混淆矩阵,随后利用聚类纯度、兰德系数和 F1 值的计算公式计算得到当
前聚类效果的相应指标值。
以下为该部分代码:

#聚类纯度
def accuracy(labels_true, labels_pred):clusters = np.unique(labels_pred)labels_true = np.reshape(labels_true, (-1, 1))labels_pred = np.reshape(labels_pred, (-1, 1))count = []for c in clusters:idx = np.where(labels_pred == c)[0]labels_tmp = labels_true[idx, :].reshape(-1)count.append(np.bincount(labels_tmp).max())return np.sum(count) / labels_true.shape[0]
#兰德系数、F1 值
def get_rand_index_and_f_measure(labels_true, labels_pred, beta=1.):(tn, fp), (fn, tp) = pair_confusion_matrix(labels_true, labels_pred)ri = (tp + tn) / (tp + tn + fp + fn)p, r = tp / (tp + fp), tp / (tp + fn)f_beta = 2*p*r/(p+r)return ri, f_beta
#输出结果
purity = accuracy(y, y_pred)
ri, f_beta = get_rand_index_and_f_measure(y, y_pred, beta=1.)
print(f"聚类纯度:{purity}\n 兰德系数:{ri}\nF1 值:{f_beta}")

总结

以上就是今天要讲的内容,机器学习实验六:聚类

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/203460.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

持续集成交付CICD: Sonarqube REST API 查找与新增项目

目录 一、实验 1.SonarQube REST API 查找项目 2.SonarQube REST API 新增项目 一、实验 1.SonarQube REST API 查找项目 (1)Postman测试 转换成cURL代码 (2)Jenkins添加凭证 (3)修改流水线 pipeline…

node切换版本

可打开黑窗口来进行命令输入操作: 1. node -v :查看当前版本 2.nvm list :查看已经下载的版本 3.nvm list available查看可用的node.js版本号: 4.nvm install node版本号(例如:nvm install 12.17.0)即可安装对应版本以及自动安装…

某60内网渗透之跨平台横向移动【windows计划任务利用】

内网渗透 文章目录 内网渗透跨平台横向移动【windows计划任务利用】实验目的实验环境实验工具实验原理实验内容跨平台横向移动[windows计划任务利用] 实验步骤针对 WindowsXP/2003 的利用方式(at命令)针对 Windows Vista 及以上版本的利用方式(schtasks命令)跨平台横向移动…

轻快小miniconda3在linux下的安装配置-centos9stream-Miniconda3 Linux 64-bit

miniconda与anaconda的区别: Miniconda 和 Anaconda 是用于管理环境和安装软件包的 Python 发行版。它们之间的主要区别在于以下几点: 1. 安装内容和大小: Anaconda: Anaconda 是一个完整的 Python 数据科学平台,包含…

easyui实现省市县三级联动

一、技术: 前端采用的是easyui+jquery+jsp页面 后端采用springmvc+mybatis+mysql8 效果图 二、cascadeEasyui.jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <%String path = request.getContex…

wait notify

文章目录 1. API 介绍2. 怎么使用wait、notify2.1 sleep 和 wait 的区别2.2 sleep 和 wait 的使用模板 1. API 介绍 都属于 Object 对象的方法。必须获得此对象的锁&#xff0c;才能调用这几个方法&#xff0c;只有重量级锁才能调用wait、notify obj.wait() 让进入 object 监…

vue中实现数字+英文字母组合键盘

完整代码 <template><div class"login"><div click"setFileClick">欢迎使用员工自助终端</div><el-dialog title"初始化设置文件打印消耗品配置密码" :visible.sync"dialogSetFile" width"600px&quo…

持续集成交付CICD:Sonarqube自动更新项目质量配置

目录 一、实验 1.Sonarqube手动自定义质量规则并指定项目 2.Sonarqube自动更新项目质量配置 一、实验 1.Sonarqube手动自定义质量规则并指定项目 &#xff08;1&#xff09;自定义质量规则 ①新配置 ②更多激活规则③根据需求激活相应规则④已新增配置 ⑤ 查看 &#x…

Hive数据库系列--Hive数据类型/Hive字段类型/Hive类型转换

文章目录 一、Hive数据类型1.1、数值类型1.2、字符类型1.3、日期时间类型1.4、其他类型1.5、集合数据类型1.5.1、Struct举例1.5.2、Array举例1.5.3、Map举例 二、数据类型转换2.1、隐式转换2.2、显示转换 本章主要讲解hive的数据类、字段类型。官网文档地址见https://cwiki.apa…

二百一十三、Flume——Flume拓扑结构介绍

一、目的 最近在看尚硅谷的Flume资料&#xff0c;看到拓扑结构这一块&#xff0c;觉得蛮有意思&#xff0c;于是整理一下Flume的4种拓扑结构 二、拓扑结构 &#xff08;一&#xff09;简单串联 1、结构含义 这种模式是将多个flume顺序连接起来了&#xff0c;从最初的sourc…

【数据结构】- 详解哈夫曼树(用 C 语言实现哈夫曼树的构造和哈夫曼编码)

目录 一、哈夫曼树的基本概念 二、哈夫曼树的构造算法 2.1 - 哈夫曼树的构造过程 2.2 - 哈夫曼树的存储表示 2.3 - 算法实现 三、哈夫曼编码 3.1 - 哈夫曼编码的主要思想 3.2 - 哈夫曼编码的性质 3.3 - 算法实现 一、哈夫曼树的基本概念 哈夫曼树的定义&#xff0c;涉…

Hazelcast分布式内存网格(IMDG)基本使用,使用Hazelcast做分布式内存缓存

文章目录 一、Hazelcast简介1、Hazelcast概述2、Hazelcast之IMDG3、数据分区 二、Hazelcast配置1、maven坐标2、集群搭建&#xff08;1&#xff09;组播自动搭建 3、客户端4、集群分组5、其他配置 三、Hazelcast分布式数据结构1、IMap2、IQueue&#xff1a;队列3、MultiMap4、I…

网络安全(四)--Linux 主机防火墙

7.1. 介绍 防火墙&#xff08;Firewall&#xff09;&#xff0c;也称防护墙&#xff0c;是由Check Point创立者Gil Shwed于1993年发明并引入国际互联网&#xff08;US5606668&#xff08;A&#xff09;1993-12-15&#xff09;。 它是一种位于内部网络与外部网络之间的网络安全…

人工智能-编译器和解释器

编译器和解释器 命令式编程使用诸如print、“”和if之类的语句来更改程序的状态。 考虑下面这段简单的命令式程序&#xff1a; def add(a, b):return a bdef fancy_func(a, b, c, d):e add(a, b)f add(c, d)g add(e, f)return gprint(fancy_func(1, 2, 3, 4)) 10 Python…

课题学习(十五)----阅读《测斜仪旋转姿态测量信号处理方法》论文

一、 论文内容 1.1 摘要 为准确测量旋转钻井时的钻具姿态&#xff0c;提出了一种新的信号处理方法。测斜仪旋转时&#xff0c;垂直于其旋转轴方向加速度计的输出信号中重力加速度信号分量具有周期性特征&#xff0c;以及非周期性离心加速度分量频率低于重力加速度信号分量频率…

三、jvm中的对象及引用

一、对象在jvm的创建过程 检查加载-->分配内存-->内存空间初始化-->设置-->对象初始化 1) 检查加载 首先检查这个指令的参数是否能在常量池中定位到一个类的符号引用&#xff0c;并且检查类是否已经被加载、解析和初始化过。 虚拟机遇到一条 new 指令时&#xf…

mybatis的分页插件

在mybatis核心配置文件中&#xff1a; 这时已经用了SSM整合&#xff0c;好多像是mapper或者数据源等都移出去了 <?xml version"1.0" encoding"UTF-8" ?> <!DOCTYPE configurationPUBLIC "-//mybatis.org//DTD Config 3.0//EN""…

Zabbix自定义飞书webhook告警媒介2

说明:适用于7.0及以上版本,低版本可能会有问题。 参数如下: 名称 值EVENT.DURATION{EVENT.DURATION}EVENTDATE

当使用RSA加密,从手机前端到服务器后端的请求数据存在+

将转成了空格&#xff0c;导致解密出错 将空格转成了

Unity中Batching优化的GPU实例化(1)

文章目录 前言一、GPU实例化的规则1、必须满足 Mesh 网格一样2、只有OpenGL es 3.0及以上才支持&#xff08;3.0及以上有部分硬件可能也不支持&#xff09; 二、GPU实例化的应用场景1、公开几个成员属性&#xff0c;用于存放可以调整的数据2、用Random.insideUnitCircle随机生成…