聚类距离度量(保姆级讲解,包学会~)

        在机器学习的聚类中,我们通常需要使用距离来进行类的划分,或者比较不同类之间的各种距离,这里我们介绍西瓜书上所提出的一些距离计算方式。

        首先介绍一下距离的一些性质:

西瓜书上给出了四条性质,第一个是非负性,这个好理解,一般来说,距离不会产生负值。下面三条我们结合着例子解释,如下图:

        我们看图,这里我们就采用大家都熟悉的欧式距离来说明,第二条距离为零,那肯定就是一个点的距离,比如图中的A到A的距离;第三条的意思就是A到B的距离等于B到A的距离;第四条就是三角形的两边之和大于第三边,反应到图上就是B到C的距离小于B到A距离加A到C的距离。

        接下来介绍距离公式,如图所示:

第一个公式其实是一个总结的公式,我们令p为2就得到大家熟悉的欧式距离了,至于p为1时的曼哈顿距离,我们看下图:

        图中的绿色线就是欧式距离,蓝线、红线、黄线都是曼哈顿距离,并且它们的距离都相等,这是为什么呢?其实,曼哈顿距离就是两点的横坐标和纵坐标之差再相加,在现实情况中,曼哈顿距离可能会更常用,因为一般情况下两点之间总会有遮挡物,需要避开。

        上述说的都是可以直接对“数”进行计算的,那有些不是数值型变量的,我们又该如何进行计算的呢?比如下图中的变量:

比如图中这种变量的,我们又该如何计算距离?西瓜书中给出了一种方案:

书中的公式看着好复杂呀,那我们先不看公式,我们先看一个例子:

        我们看图中,假设说在颜色这个属性上,有红色和蓝色这两个值,一共有三个分类,我们看,第一个分类里面有七个红色,10个蓝色,红色总数有11个,蓝色总数有17,那在第一个类里面的距离计算就是红色的个数除以红色总数,蓝色的个数除以蓝色总数,就算出来了,以此类推,其他类也是这样,再把所有值相加就得出VDM了。

        现在再回头看上述的公式,是不是就很简单啦?

最后我们再介绍两种变形的公式:

第一个公式就是对于那种既有数值变量也有列名变量混合的计算公式,就是两种公式混合起来。

第二个公式加了一个权重,可能会有某些样本值得重要程度不同,所以加了权重,其实和前面距离计算公式差不多。

ok,这篇就到这里啦,欢迎小伙伴们批评指正~(图片来源于西瓜书和网络)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/35568.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用命令行创建uniapp+TS项目,使用vscode编辑器

一:如果没有pnpm,先安装pnpm 二:使用npx工具和degit工具从 GitHub 上的 dcloudio/uni-preset-vue 仓库克隆一个名为 vite-ts 的分支,到项目中. 执行完上面命令后,去manifest.json添加appid(自己微信小程序的Id),也可不执行直接下一步,执行pnpm install ,再执行pnpm:dev:mp-weix…

Mysql索引的实现原理,B+Tree,WAL

InnoDB 引擎,每一个数据表有两个文件 .frm和.ibd,分别为表结构,数据和索引,数据挂在主索引的叶子节点上,此主索引称为聚簇索引。 MyISAM 引擎,每一个数据表有三个文件.frm和.MYI和.MYD,分别为表…

恋爱脑?No,爱情保镖还得靠AI!

本文由 ChatMoney团队出品 你是否曾经想过,为什么我们会在恋爱中变得如此“上头”,仿佛整个世界都围绕着那个TA旋转? 恋爱脑,通常是指一个人在恋爱中过度投入、过度依赖对方,甚至无法自拔的心理状态。 你会发现自己时时刻刻都在…

Linux网络-网络层IP协议、数据链路层以太网协议、ARP协议、ICMP协议和NAT技术

文章目录 前言一、IP协议IP报头解析4位版本4位首部长度16位总长度8位生存时间8位协议16位首部校验和32位源IP地址和32位目标IP地址 网段划分子网-局域网子网掩码特殊的IP地址 公网IP地址与私网IP地址运营商路由路由表 数据链路层MAC帧格式局域网通信原理局域网数据碰撞 MTU分片…

Docker-compose 实现Prometheus+Grafana监控MySQL及Linux主机

. ├── Grafana │ ├── data │ └── docker-compose.yaml ├── Mysql │ ├── conf │ ├── data │ ├── docker-compose.yaml │ └── logs ├── Mysqld_exporter │ ├── conf │ └── docker-compose.yaml ├── node-exporter │…

HarmonyOS应用开发学习经验

一、HarmonyOS学习官网 开发者能力认证 HarmonyOS应用开发者基础认证6月之前的学习资源官网已经关闭过期,大家不要慌,官方更新了最新资源,但是,对于之前没有学习完的学员不友好,存在知识断片的现象,建议官…

如何理解:业务架构、应用架构、数据架构、技术架构与系统和复杂度

关于系统的理解 1.1 系统的概述 随着人类社会的发展,人们面对越来越多的规模巨大、关系复杂、参数众多地复杂问题,这些问题的复杂度已经远远超出人类的理解能力,系统论就是为了分析和解决这些问题而生。我们平时接触的计算机系统包括软件系统…

ChatGPT的Mac客户端正式发布了!Mac用户有福了

ChatGPT的Mac客户端正式发布了!Mac用户有福了 🎉 大家好,我是猫头虎,科技自媒体博主。今天我带来了一个超级重磅的消息 📢,就是 ChatGPT 的客户端终于来了!这对我们所有 Mac 用户,尤…

2024全国大学生信息安全竞赛(ciscn)半决赛(华中赛区)Pwn题解

简介 前段时间赛前准备把ciscn东北赛区、华南赛区、西南赛区半决赛的题都复现完了。 可惜遇到了华东北赛区的离谱平台和离谱pwn出题人: 假的awdp(直接传🐎到靶机,然后连上去cat /flag.txt即可)题型分布不合理&#…

当前的网安行业绝对不是高薪行业

昨天,面试了一个刚毕业两年的同学小A。第一学历为某大专,第二学历为某省地区的本科院校。面试过程表现一般偏下,但动不动就要薪资15K 这个人,我当场就PASS了。主要原因是,并非是否定小A同学的能力,而是他…

VSCode运行前端项目-页面404

背景: 通过VSCode运行前端本地项目,运行成功后打开本地链接:http://1x.xxx.x.xxx:9803/ ,发现打开的页面重定向到404:http//1xx.xxx.x.xxx:9803/404; 并且控制台出现:Failed to load resource: …

win10修改远程桌面端口,Windows 10下修改远程桌面端口及服务器关闭445端口的操作指南

Windows 10下修改远程桌面端口及服务器关闭445端口的操作指南 一、修改Windows 10远程桌面端口 在Windows 10系统中,远程桌面连接默认使用3389端口。为了安全起见,建议修改此端口以减少潜在的安全风险。以下是修改远程桌面端口的步骤: 1. 打…

IMX6ULL SD卡启动uboot+kernel+rootfs

目录 1. 背景说明 2.SD卡启动 2.1准备条件 2.2 对SD卡分区格式化 2.3 制作sd卡镜像 3.效果测试 1. 背景说明 网络上绝大数教程,教大家把uboot烧录到SD卡,然后uboot启动后,通过TFTP下载kernel和设备树,然后通过nfs挂载文件系…

ultralytics官方更新 | 添加YOLOv10到ultralytics

💡💡💡本专栏所有程序均经过测试,可成功执行💡💡💡 专栏目录:《YOLOv8改进有效涨点》专栏介绍 & 专栏目录 | 目前已有40篇内容,内含各种Head检测头、损失函数Loss、…

【C++】类和对象(六)

文章目录 二、static成员概念面试题一个题目 三、友元友元函数说明 友元类 四、内部类(了解)概念:注意:特性: 五、匿名对象 书接上回: 【C】类和对象(五)隐式类型转换 二、static成员 01_31 03 12 01 概…

idea项目推送gitee/github

选择需要的项目创建本地Git仓库 添加到暂存区 第一次提交 或者点击这里 写备注并commit 推送远程仓库 填写地址 解决上图警告 右键打开项目,输入 git pull origin master –allow-unrelated-historiesgit push -u origin master -f推送成功 idea项目推送github及克…

怎么用韩语说帮忙更合体,柯桥零基础韩语培训

1. **详细解释:** - **标准写法与音译:** - **돕다**(读作 dop-da):动词“帮助”。 - **도와주다**(读作 do-wa-ju-da):动词“帮忙”,字面意思是“给予帮助”。 - **도움…

PMP证书在国内已经泛滥了,大家怎么看?

目前,越来越多的人获得了PMP证书。自1999年PMP引入中国以来,全国累计PMP考试人数接近60万人次,通过PMP认证的人数约为42万人。虽然这个数据看起来很大,但绝对不能说是过多。 首先,PMP在中国并不普遍。根据美国项目管理…

【源码+文档+调试讲解】灾害应急救援平台

摘 要 灾害应急救援平台的目的是让使用者可以更方便的将人、设备和场景更立体的连接在一起。能让用户以更科幻的方式使用产品,体验高科技时代带给人们的方便,同时也能让用户体会到与以往常规产品不同的体验风格。 与安卓,iOS相比较起来&…

深度学习项目实例(一)—— 实时AI换脸项目

一、前言 人工智能(AI)技术的快速发展为各个领域带来了革命性的变化,其中之一就是人脸识别与图像处理技术。在这之中,AI换脸技术尤其引人注目。这种技术不仅在娱乐行业中得到广泛应用,如电影制作、视频特效等&#xf…