sheng的学习笔记-AI-半监督聚类

AI目录:sheng的学习笔记-AI目录-CSDN博客

半监督学习:sheng的学习笔记-AI-半监督学习-CSDN博客 

聚类:sheng的学习笔记-AI-聚类(Clustering)-CSDN博客

均值算法:sheng的学习笔记-AI-K均值算法_k均值算法怎么算迭代两次后的最大值-CSDN博客

什么是半监督聚类

聚类是一种典型的无监督学习任务,然而在现实聚类任务中我们往往能获得一些额外的监督信息,于是可通过半监督聚类(semi-supervised clustering)来利用监督信息以获得更好的聚类效果。

聚类任务中获得的监督信息大致有两种类型。

  1. 第一种类型是“必连”(must-link)与“勿连”(cannot-link)约束,前者是指样本必属于同一个簇,后者是指样本必不属于同一个簇;
  2. 第二种类型的监督信息则是少量的有标记样本。

约束 k 均值算法

什么是约束k均值

约束k均值(Constrained k-means)算法是利用第一类监督信息的代表。

给定样本集D={x1,x2,...,xm}以及“必连”关系集合M和“勿连”关系集合C,(xi,xj)∈M表示xi与xj必属于同簇,(xi,xj)∈C表示xi与xj必不属于同簇。

该算法是K均值算法的扩展,它在聚类过程中要确保M与C中的约束得以满足,否则将返回错误提示

算法

解释如下

 数据表现

令样本x4与x25,x12与x20,x14与x17之间存在必连约束,x2与x21,x13与x23,x19与x23之间存在勿连约束,即

M={(x4,x25),(x25,x4),(x12,x20),(x20,x12),(x14,x17),(x17,x14)},

C={(x2,x21),(x21,x2),(x13,x23),(x23,x13),(x19,x23),(x23,x19)}。

设聚类簇数K=3,随机选取样本x6,x12,x27作为初始均值向量

图13.8 西瓜数据集4.0上约束K均值算法(K=3)在各轮迭代后的结果。

样本点与均值向量分别用“∙”与“+”表示,必连约束和勿连约束分别用实线段与虚线段表示,红色虚线显示出簇划分。

显示出约束K均值算法在不同迭代轮数后的聚类结果。经5轮迭代后均值向量不再发生变化(与第4轮迭代相同)​,于是得到最终聚类结果

C1={x3,x5,x7,x9,x13,x14,x16,x17,x21};

C2={x6,x8,x10,x11,x12,x15,x18,x19,x20};

C3={x1,x2,x4,x22,x23,x24,x25,x26,x27,x28,x29,x30}。

约束种子 k 均值算法

什么是约束种子 k 均值

约束种子 k 均值Constrained Seed k-means算法是利用第二类监督的代表。

给定样本集D={x1,x2,...,xm},假定少量的有标记样本为,其中为隶属于第k个聚类簇的样本。

这样的监督信息利用起来很容易:直接将它们作为“种子”​,用它们初始化k均值算法的k个聚类中心,并且在聚类簇迭代更新过程中不改变种子样本的簇隶属关系。这样就得到了约束种子k均值(Constrained Seedk-means)算法

算法代码

解释如下 

数据表现

仍以西瓜数据集4.0为例,

假定作为种子的有标记样本为S1={x4,x25},S2={x12,x20},S3={x14,x17}。

 以这三组种子样本的平均向量作为初始均值向量,图13.10显示出约束种子k均值算法在不同迭代轮数后的聚类结果。经4轮迭代后均值向量不再发生变化(与第3轮迭代相同)​,于是得到最终聚类结果

C1={x1,x2,x4,x22,x23,x24,x25,x26,x27,x28,x29,x30};

C2={x6,x7,x8,x10,x11,x12,x15,x18,x19,x20};

C3={x3,x5,x9,x13,x14,x16,x17,x21}。

图13.10 西瓜数据集4.0上约束种子k均值算法(k=3)在各轮迭代后的结果。

样本点与均值向量分别用“∙”与“+”表示,种子样本点为红色,红色虚线显示出簇划分。

参考文章

12.半监督学习 - 五、半监督聚类 - 《AI算法工程师手册》 - 书栈网 · BookStack

14 半监督学习 - 14.4 半监督聚类 - 《周志华《机器学习》学习笔记》 - 书栈网 · BookStack

书:机器学习 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/52800.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

突发!Runway 从 HuggingFace 及 GitHub 上删库跑路,背后有何隐情?

突发!2024年8月29日Runway 从 HuggingFace 及 GitHub 上删库跑路,背后有何隐情? 🧐 今天我们来聊一聊科技圈一则爆炸性消息:Runway ML 从 HuggingFace 和 GitHub 上删库跑路,毫无预警!这个举动…

properties文件提示未引用

问题描述 以前用的好好的项目,今天突然打开就发现idea不识别spring配置信息显示未引用,如果config代码中引入的配置却可以高亮显示,然后输入spring相关的配置,文件是没有提示的。经过研究发现是spring相关的插件被关闭了。效果如下 解决方法 启用三个插件spring Boot,Sp…

看完这100道软件测试面试题,拿不到offer,算我输

掌握此套面试题,人手至少2份offer,绝不瞎吹!分享给大家。 一、自我介绍 二、灵活问题 1、大概说说之前公司的测试流程 2、测试报告有哪些内容? 3、如何保证用例的覆盖度? 4、什么是测试用例,什么是测试脚本&…

知识社区的小程序源码系统 界面支持万能DIY装修 带源代码包以及搭建部署教程

系统概述 知识社区的小程序源码系统是一款专为构建知识分享和交流社区而设计的强大工具。它提供了完整的源代码包,使开发者能够根据自己的需求进行定制和扩展,打造出个性化的小程序应用。 该系统的界面设计简洁大方,易于操作,同…

【JavaEE】线程安全性问题,线程不安全是怎么产生的,该如何应对

产生线程不安全的原因 在Java多线程编程中,线程不安全通常是由于多个线程同时访问共享资源而引发的竞争条件。以下是一些导致线程不安全的常见原因: 共享可变状态:当多个线程对共享的可变数据进行读写时,如果没有适当的同步机制&…

鸿蒙Next 单元测试框架——hypium

一 框架概述 单元测试框架(hypium)是HarmonyOS上的测试框架,提供测试用例编写、执行、结果显示能力,用于测试系统或应用接口。 表1 单元测试框架功能特性 二 安装使用 目前hypium以npm包的形式发布, 因此需要在Deveco Studio 工程级package.json内配…

CSS-常用属性【看这一篇就够了】

目录 前言文章 常用属性 cursor鼠标样式 outline外轮廓 border与outline的区别 overflow超出部分隐藏 overflow属性值 overflow-x和overflow-y vertical-align属性 应用案例 常用的a标签布局按钮 水平居中的轮播图按钮 产品展示效果: 小米商城菜单 前…

【C#】属性的声明

在面向对象程序设计中,属性是访问对象存储数据的首选方式。 一般不要直接公开类的变量成员,即便是get访问器和set访问器并无数据访问规则。 属性的声明 1. 完整声明 在代码中输入propfull ,并连续按两下tab键 高亮的部分是可以修改的部分,按tab键可以…

FPGA上板项目(四)——FIFO测试

目录 实验内容实验原理FIFO IP 核时序绘制HDL 代码仿真综合实现上板测试 实验内容 理解 FIFO 原理调用 FIFO IP 核完成数据读写 实验原理 FIFO:First In First Out,先入先出式数据缓冲器,用来实现数据先入先出的读写方式。可分类为同步 FI…

一个php快速项目搭建框架源码,带一键CURD等功能

介绍: 框架易于功能扩展,代码维护,方便二次开发,帮助开发者简单高效降低二次开发成本,满足专注业务深度开发的需求。 百度网盘下载 图片:

科研绘图系列:R语言多组极坐标图(grouped polar plot)

介绍 Polar plot(极坐标图)是一种二维图表,它使用极坐标系统来表示数据,而不是像笛卡尔坐标系(直角坐标系)那样使用x和y坐标。在极坐标图中,每个数据点由一个角度(极角)和一个半径(极径)来确定。角度通常从水平线(或图表的某个固定参考方向)开始测量,而半径则是…

【网络安全】服务基础第一阶段——第六节:Windows系统管理基础---- DNS部署与安全

计算机智能识别并用IP地址定位,例如我们想要访问一个网页,其实是只能使用这个网页的IP地址,即四位的0~255来访问,但这一串数字难以记忆,于是就有了DNS,将难以记忆的数字转化为容易记忆的域名&am…

合宙LuatOS产品规格书——Air700EAQ

Luat Air700EAQ是合宙的LTE Cat.1bis通信模块,采用移芯EC716E平台,支持LTE 3GPP Rel.13技术。 该模块专为满足小型化、低成本需求而设计,具备超小封装和极致成本优势。 Air700EAQ支持移动双模,内置丰富的网络协议,集…

基于AI大模型开发上层应用常见的技术栈

基于AI大模型的上层应用开发,技术栈要求通常包括以下几个方面: 编程语言:Python是AI领域的主要编程语言,具有大量的库和框架支持,是大模型开发的首选语言 。TypeScript也是不错的选择,很多模型对外提供类似…

Java使用POI创建带样式和公式的Excel文件

这篇文章将演示如何使用POI 创建带样式和公式的Excel文件。 代码 import org.apache.poi.ss.usermodel.*; import org.apache.poi.xssf.usermodel.XSSFWorkbook;import java.io.FileOutputStream; import java.io.IOException;public class ExcelDemo {public static void mai…

FPGA第 5 篇,FPGA技术优略势,FPGA学习方向,FPGA学习路线(FPGA专业知识的学习方向,FPGA现场可编程门阵列学习路线和方向)

前言 前几篇讲了一下FPGA的发展和应用,以及未来前景。具体详细,请看 FPGA发展和应用,以及未来前景https://blog.csdn.net/weixin_65793170/category_12665249.html 这里我们来,记录一下,FPGA专业知识的学习路线 一.…

Python(C++)自动微分导图

🎯要点 反向传播矢量化计算方式前向传递和后向传递计算方式图节点拓扑排序一阶二阶前向和伴随模式计算二元分类中生成系数高斯噪声和特征二元二次方程有向无环计算图超平面搜索前向梯度下降算法快速傅里叶变换材料应力和切线算子GPU CUDA 神经网络算术微分 Pytho…

C语言阴阳迷宫

目录 开头程序程序的流程图程序游玩的效果下一篇博客要说的东西 开头 大家好&#xff0c;我叫这是我58。 程序 #define _CRT_SECURE_NO_WARNINGS 1 #include <stdio.h> #include <stdlib.h> #include <string.h> #include <Windows.h> enum WASD {W…

设计模式 -- 外观模式(Facade Pattern)

1 问题引出 组建一个家庭影院 DVD 播放器、投影仪、自动屏幕、环绕立体声、爆米花机,要求完成使用家庭影院的功能&#xff0c;其过程为&#xff1a; 直接用遥控器&#xff1a;统筹各设备开关 开爆米花机&#xff0c;放下屏幕 &#xff0c;开投影仪 &#xff0c;开音响&#xf…

图像金字塔的作用

1. 概述 图像金字塔是图像多尺度表达的一种&#xff0c;主要应用与图像分割&#xff0c;是一种以多分辨率来解释图像的有效但概念简单的结构。图像金字塔实际上是一张图片在不同尺度下的集合&#xff0c;即原图的上采样和下采样集合。金字塔的底部是高分辨率图像&#xff0c;而…