【机器学习】第10章 聚类算法

一、概念

1.聚类

(1)是无监督学习,其实无监督学习就是无中生有,不给你标准答案(标签啊啥的),然后让你自己来。

(2)聚类就是这样,让机器自己根据相似特征把相似的东西放到一块。

(3)聚类就是将集合划分成由类(相)似的对象组成的多个类的过程。

聚类分析是研究(样品或指标)分类问题的一种统计分析方法。

(4)概念:

聚类是把各不相同的个体分割为有更多相似性子集合的工作,聚类生成的子集合称为簇(cluster)。

(5)聚类的要求

生成的簇内部的任意两个对象之间具有较高的相似度,于不同簇的两个对象间具有较高的相异度。

其中度量就用前面学习的欧氏距离,曼哈顿距离等进行测量。

(6)聚类的好坏不存在绝对标准

如扑克牌可以按花色分,也可以按数字分,具体情况具体分析。

(7)聚类与分类的区别:

聚类所要求划分的类是未知的,是无意识的,一般把它理解为无监督学习。

而分类算法是有训练样本的,属于监督学习。

(下面图,先是分类,后是聚类,可以很明显的看出标签的提示)

2.K-Means聚类算法

由聚类思想脱胎而生的nb算法之一。

(1)其中K代表要求划分成K个簇,means是均值的意思,也就是说每个簇的中心点是该簇中所有点的均值。

(2)保证每个簇必须包含一个对象,也要保证每个对象有且仅属于一个簇。

(3)流程:

a.随机选择k个点作为初始的聚类中心,注意这些点它可以是样本得到点,也可以不是。

b.对于剩下的点,根据其与聚类中心的距离,将其归入最近的族。

c.对每个族,计算所有点的均值作为新的聚类中心,注意这个点是产生出来的。

d.重复2、3直到聚类中心不再发生改变

(整个过程类似蠕动,中心点不断蠕动,直到发现好的地方)

(4)局限性:

a.图像过于抽象,平均值不靠谱

b.数据量过大是,收敛缓慢

(5)聚类分析的度量指标

a.外部指标:指用事先指定的聚类模型作为参考来评判聚类结果的好坏

b.内部指标:是指不借助任何外部参考,只用参与聚类的样本评判聚类结果好坏

二、习题

多选题:

3. 聚类的宗旨是(BD

A、类内距离最大化  

B、类间距离最大化  

C、类间距离最小化  

D、类内距离最小化  

判断题:

19. 聚类的目的是对样本集合进行自动分类,以发掘数据中隐藏的信息、结构,从而发现可能的商业价值。 ( T)      

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/29348.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ThreadLocal内存泄漏

什么是内存泄漏? 内存泄漏发生在程序中已动态分配的堆内存由于某种原因未被释放或无法释放,导致系统内存浪费。 这种情况会让程序运行速度变慢,甚至可能导致系统崩溃。 ThreadLocal是Java提供的一个本地线程副本变量工具类,它允…

AOSP刷Fart8脱壳机安装及使用

我的电脑硬件不支持对AOSP源码进行编译,所以只能用别人编译好的刷机包进行刷机。使用的刷机包是luffy 8期 day37 下的v5目录下的taimen包,这个刷机包里面 的AOSP是 UserDebug 版本,已经实现的功能有: - root特征隐藏 - Fart特征隐…

架构模式——分层架构

分层架构:软件设计的经典之选 分层架构是软件开发中一种常见且广泛应用的架构模式。它通过将应用程序划分为不同的层次,每一层都承担特定的职责,从而帮助开发者组织代码、简化复杂性,并增强系统的可维护性和可扩展性。本文将详细…

asio之select_interrupter

简介 select_interrupter用于唤醒reactor的事件循环,其是对不同唤醒机制的别名 定义 在有eventfd时,表示的是eventfd_select_interrupter,在window平台下使用的是socket_select_interrupter ,否则表示的是pipe_select_interrup…

如何去掉el-input-number两侧的上下按键

期初做法 输入的数据都是数字&#xff0c;就想着使用number类型的输入框但是输入框很小的情况下&#xff0c;就会导致上下按键特别占地方&#xff0c;所以想去掉使用deep 语法进行样式覆盖 <style scoped> /deep/ input::-webkit-outer-spin-button, /deep/ input::-webk…

适合度与挑战并存的计算机相关专业!计算机行业前景看好!

作为即将踏入大学校门的高考生&#xff0c;我在选择专业时&#xff0c;计算机相关专业无疑是一个热门选项。然而&#xff0c;随着市场竞争的加剧和行业饱和度的提高&#xff0c;我对此类专业的未来发展产生了些许疑虑。  首先&#xff0c;计算机科学与技术、人工智能、网络安…

char 型变量中能不能存贮一个中文汉字?为什么?

在 Java 中&#xff0c;char 类型变量可以存储一个中文汉字&#xff0c;这是因为 char 类型使用 Unicode 编码&#xff0c;而 Unicode 编码字符集包括了大量的汉字。详细解释如下&#xff1a; Unicode 和 Java 中的 char 类型 Unicode 编码&#xff1a; Unicode 是一种字符编码…

数据仓库之Kappa架构

Kappa架构是一种简化的数据处理架构&#xff0c;旨在处理实时数据流&#xff0c;解决传统Lambda架构中批处理和实时处理的复杂性。Kappa架构完全基于流处理&#xff0c;不区分批处理和实时处理&#xff0c;所有数据都是通过流处理系统进行处理。以下是对Kappa架构的详细介绍&am…

【ArcGIS微课1000例】0120:ArcGIS批量修改符号的样式(轮廓)

ArcGIS可以批量修改符号的样式,如样式、填充颜色、轮廓等等。 文章目录 一、加载实验数据二、土地利用符号化三、批量修改符号样式四、注意事项一、加载实验数据 订阅专栏后,从私信查收专栏配套的完整实验数据包,打开0120.rar中的土地利用数据,如下图所示: 查看属性表: …

事务所管理系统的设计

管理员账户功能包括&#xff1a;系统首页&#xff0c;个人中心&#xff0c;管理员管理&#xff0c;客户管理&#xff0c;评论管理&#xff0c;基础数据管理&#xff0c;公告信息管理 客户账户功能包括&#xff1a;系统首页&#xff0c;个人中心&#xff0c;律师管理&#xff0…

如果搜索一定超时,如何用dp来以空间换时间

E - Alphabet Tiles (atcoder.jp) 题目大意&#xff1a;1到k长度的字符串时&#xff0c;在A-Z给定数量下&#xff0c;搭配出多少种不同的字符串 思路 排列组合&#xff0c;会死人的 暴搜&#xff1a;可以解决&#xff0c;但是时间太长 dp&#xff1a;考虑前 i 个字母&…

下载lombok.jar包,简化类的代码

Download (projectlombok.org) 去这个网站下载lombok.jar包 打开这个包文件的位置,拖到项目lib文件夹: 在这里右键添加为库(Add as library)。 添加这三个注解即可&#xff0c;类里面不需要其他东西了

浏览器 插件 Lighthouse

Lighthouse是一款开源的自动化工具&#xff0c;它能够帮助改善你的web应用程序的性能、质量和正确性。你可以在任何网页上运行它&#xff0c;无论是公开的还是需要认证的。 Lighthouse有一款Chrome扩展插件&#xff0c;也可以在Chrome DevTools中使用&#xff0c;或者作为Node…

【代码随想录】【算法训练营】【第41天】 [416]分割等和子集

前言 思路及算法思维&#xff0c;指路 代码随想录。 题目来自 LeetCode。 day 40&#xff0c;休息&#xff0c;休息一下~ day 41&#xff0c;艰难的周一~ 题目详情 [416] 分割等和子集 题目描述 416 分割等和子集 解题思路 前提&#xff1a;是否可以将数组分为和相等的…

css中content属性你了解多少?

在CSS中&#xff0c;content属性通常与伪元素&#xff08;如 ::before 和 ::after&#xff09;一起使用&#xff0c;用于在元素的内容之前或之后插入生成的内容。这个属性不接受常规的HTML内容&#xff0c;而是接受一些特定的值&#xff0c;如字符串、属性值、计数器值等。 以…

计算机组成原理-期末考前常见简答题总结

1、简述冯-诺伊曼计算机的主要设计思想&#xff0c;它有哪些部件构成&#xff1f; 主要思想&#xff1a;存储程序和程序控制。将解题程序防止存储器中&#xff0c;程序控制&#xff1a;控制器顺序执行程序&#xff0c;按指令功能控制全机协调地完成运算任务。主要部件有控制器…

从零开始精通Onvif之图片抓拍

&#x1f4a1; 如果想阅读最新的文章&#xff0c;或者有技术问题需要交流和沟通&#xff0c;可搜索并关注微信公众号“希望睿智”。 概述 在视频监控系统中&#xff0c;图片抓拍功能&#xff08;也称为快照功能&#xff09;是指通过摄像头或其他视频采集设备&#xff0c;将实时…

NPM 包管理器简介

目录 官方数据 npm 简介 包 安装所有依赖 安装单个包 更新包 版本控制 运行任务 官方数据 包量高达310w&#xff0c; 6月份的第三周下载量高达600亿&#xff0c;5月份下载量更是高达2473亿&#xff0c;这惊人的数字无外乎体现当今互联网的活跃程度和仍旧处于高速发展阶…

Web前端开发实战:HTML5+CSS3+JavaScript+Vue+Bootstrap

&#x1f482; 个人网站:【 摸鱼游戏】【神级代码资源网站】【工具大全】&#x1f91f; 一站式轻松构建小程序、Web网站、移动应用&#xff1a;&#x1f449;注册地址&#x1f91f; 基于Web端打造的&#xff1a;&#x1f449;轻量化工具创作平台&#x1f485; 想寻找共同学习交…

IT入门知识第四部分《数据库》(4/10)

目录 1. 数据库基础 1.1 数据库的定义 1.2 数据库的关键概念 数据模型 数据库架构 数据库操作语言&#xff08;DML 和 DDL&#xff09; 总结 2. 关系型数据库 2.1 MySQL MySQL 的历史和特点 MySQL 的安装和配置 MySQL 的基本操作 2.2 PostgreSQL PostgreSQL 的特…