0X0-基于Sklearn的机器学习入门：聚类（上）

0X0-基于Sklearn的机器学习入门：聚类（上）

news/2025/4/27 1:22:36/文章来源:https://blog.csdn.net/ahhjian/article/details/139749627

本节及后续章节将介绍深度学习中的几种聚类算法，所选方法都在Sklearn库中聚类模块有具体实现。本节为上篇，将介绍几种相对基础的聚类算法，包括K-均值算法和均值漂移算法。

目录

X.1 聚类概述

X.1.1 聚类的种类

X.1.2 Sklearn聚类子模块

X.2 K均值聚类

X.1 聚类概述

聚类（Clustering）是机器学习中的一类无监督学习方法。它是按照某个特定标准（如距离）把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起，不同类数据尽量分离。

X.1.1 聚类的种类

按照策略不同，传统的聚类方法主要可以分为三类：划分式聚类方法（Partition-based Methods）、基于密度的聚类方法（Density-based methods）和层次化聚类方法（Hierarchical Methods）等。

划分式聚类方法：该类方法需要事先指定簇类的数目或者聚类中心，通过反复迭代，直至最后达到"簇内的点足够近，簇间的点足够远"的目标。经典的划分式聚类方法有K-means（K-均值）等。
基于密度的聚类方法：基于密度的聚类方法可以在有噪音的数据中发现各种形状和各种大小的簇。其核心思想就是先发现密度较高的点，然后把相近的高密度点逐步都连成一片，进而生成各种簇。经典的基于密度的聚类方法有mean-shift（均值漂移）、DBSCAN算法等。
层次化聚类方法：层次聚类算法（Hierarchical clustering）将数据集划分为一层一层的 clusters，后面一层生成的 clusters 基于前面一层的结果。层次聚类算法一般分为两类：Agglomerative 层次聚类：又称自底向上（bottom-up）的层次聚类，以及Divisive 层次聚类：又称自顶向下（top-down）的层次聚类。经典的基于密度的聚类方法有BIRCH算法等。

除此之外，还有一些高级的方法，如谱聚类（Spectral Clustering ）：其主要思想是把所有的数据看做空间中的点，这些点之间可以用边连接起来。距离较远的两个点之间的边权重值较低，而距离较近的两个点之间的边权重值较高，通过对所有数据点组成的图进行切图，让切图后不同的子图间边权重和尽可能的低，而子图内的边权重和尽可能的高，从而达到聚类的目的。

X.1.2 Sklearn聚类子模块

在Sklearn的cluster（聚类）子模块中，提供了上述几种典型的聚类算法，具体函数名称见下表：

Sklearn中聚类模块主要算法一览表

X.2 K均值聚类

原理

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/854693.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

设计模式1

设计模式1

1、面向对象三大特性：封装、继承、多态 2、什么是接口？ 3、面向对象的SOLID五大原则 4、简单工厂模式 5、工厂方法模式

阅读更多...

网络安全：数据库安全性

网络安全：数据库安全性

文章目录网络安全：数据库安全性引言数据库安全性的重要性常见的数据库安全威胁数据库安全性的最佳实践数据加密访问控制审计和监控结语网络安全：数据库安全性引言在前两篇文章中，我们讨论了SQL注入的概念和防范措施。本篇文章将聚焦于…

阅读更多...

Python数据分析与建模库-03数据分析处理库Pandas-1.数据读取

Python数据分析与建模库-03数据分析处理库Pandas-1.数据读取

该视频主要讲述了pandas库在数据处理中的重要性。首先介绍了pandas库是基于numpy库封装了一些操作，简化了数据处理过程。然后通过读取CSV文件的例子，演示了如何使用pandas的read_csv函数将数据读入，并展示了数据类型和数据格式。接着介绍…

阅读更多...

HTML中的＜iframe＞标签及其属性

HTML中的＜iframe＞标签及其属性

<iframe>标签在HTML中用于嵌入另一个HTML页面。它提供了一种在当前页面内展示外部内容的方式，而无需离开当前页面。以下是<iframe>的一些常用属性： src：指定要嵌入的页面的URL。width 和 height：设置iframe的尺寸。n…

阅读更多...

又一个SQL Developer中调试存储过程的例子

又一个SQL Developer中调试存储过程的例子

此例基于OBE（Oracle By Example）的示例。是在SQL Developer中调试存储过程一文的进阶。复习了前文的一些基本概念，并纠正了官方示例的一个错误。本文使用的是标准的HR 示例 Schema，调试的存储过程源代码如下： CREAT…

阅读更多...

【PB案例学习笔记】-22制作一个语音朗读金额小应用

【PB案例学习笔记】-22制作一个语音朗读金额小应用

写在前面这是PB案例学习笔记系列文章的第22篇，该系列文章适合具有一定PB基础的读者。通过一个个由浅入深的编程实战案例学习，提高编程技巧，以保证小伙伴们能应付公司的各种开发需求。文章中设计到的源码，小凡都上传到了gite…

阅读更多...

关于在word中使用Axmath的报错的解决

关于在word中使用Axmath的报错的解决

介绍 Axmath是数学公式编辑器软件。官网如下。 AxMath/AxGlyph/AxCells (amyxun.com) 支持正版。在word中使用Axmath 点击word中的“文件”→“选项”。选择“加载项” 选择“word加载项” 在Axmath默认的安装目录如下： C:\Program Files (x86)\AxMathhao&am…

阅读更多...

论文创新点和贡献点该如何挖掘？

论文创新点和贡献点该如何挖掘？

贡献点是怎么去挖掘，去写，去找方向。可量化层面 1>精度 2>窗口、token、频率、一些其他特征、embedding 3>时间复杂度、训练推理速度、内存开销啥的 4>时序和通道局部-全局（不同特征视角） 5>多任务、数据&…

阅读更多...

云计算 | （三）云使能技术

云计算 | （三）云使能技术

文章目录 📚云使能技术🐇ISP与网络互联架构⭐️Internet服务提供者(ISP)⭐️无连接分组交换（数据报网络）⭐️基于路由器的互联⭐️网络技术和商业考量👀小结🐇数据中心技术⭐️数据中心⭐️计算硬件⭐️存储硬件⭐️网络硬件👀小结🐇虚拟化技术⭐️虚拟化⭐️虚拟…

阅读更多...

【头歌】HBase扫描与过滤答案解除复制粘贴限制

【头歌】HBase扫描与过滤答案解除复制粘贴限制

解除复制粘贴限制当作者遇到这个限制的时候火气起来了三分，然后去网上搜索答案，然后发现了一位【碳烤小肥肠】居然不贴代码，XX链接，贴截图，瞬时火气冲顶，怒写此文首先启动万能的控制台，然后C…

阅读更多...

5年Android 开发者的社招面经总结（值得你记录收藏）

5年Android 开发者的社招面经总结（值得你记录收藏）

4. 分别代表什么含义，他们有什么区别？ 5. 了解过 Java 的集合吗？ 6. 说说 HashMap 的底层实现原理？ 7. ArrayList 和 LinkedList 的区别？ 8. Java 集合中哪些是线程安全的？ 9. JVM 的内存…

阅读更多...

中年帕金森：守护健康，从容面对生活挑战

中年帕金森：守护健康，从容面对生活挑战

在快节奏的现代生活中，中年人群面临着越来越多的健康挑战。其中，帕金森病作为一种常见的神经系统疾病，逐渐引起了人们的关注。帕金森病不仅影响患者的身体健康，还对其日常生活造成极大的困扰。那么，我们该如何应对中年…

阅读更多...

android manifest.hal.name

android manifest.hal.name

在Android系统中，manifest.hal.name 是在HAL（Hardware Abstraction Layer，硬件抽象层）相关的配置中使用的一个属性。这个属性是用来定义HAL接口的名称，它是HAL模块身份的一个关键标识。HAL作为Android架构中的重要组成…

阅读更多...

智慧分流：探索互联网与物联网的负载均衡技术

智慧分流：探索互联网与物联网的负载均衡技术

数字化时代，个人认为，无论是互联网还是物联网，还是其他网，在各个层级，都对系统的稳定性和效率提出了更高的要求。负载均衡技术作为保障系统平稳运行的关键，其重要性不言而喻。在数字世界的海洋中&#xff0…

阅读更多...

vue2+element 组件封装使用

vue2+element 组件封装使用

1.图片上传组件使用 <el-descriptions-item label"附件图片" :span"3"><ImageUpload v-model"picUrl" :fileSize"0" getImg"getImg"></ImageUpload></el-descriptions-item> // 图片getImg(val)…

阅读更多...

在哪里可以查到一手的标讯信息？

在哪里可以查到一手的标讯信息？

标讯信息集招投标讯息的简称。在市场上，标讯是一种非常关键的信息，包括招标公告，文件，截止日期等关键内容，便于需求方和供应商进行业务合作。对于企业来说，及时获取到最新的标讯信息是非常重要的&#xf…

阅读更多...

MySQL8新特性：窗口函数

MySQL8新特性：窗口函数

目录一、概念二、语法基本语法语法解析进阶语法命名窗口WINDOW AS框架FRAME_CLAUSE 三、窗口函数ROW_NUMBERRANKDENSE_RANKPERCENT_RANKCUME_DISTFIRST_VALUE与LAST_VALUENTH_VALUELAG与LEADNTILE 四、窗口函数使用事项五、窗口函数优化方法六、面试常问（持续更新…

阅读更多...

设计模式-创建型-04-建造者模式

设计模式-创建型-04-建造者模式

1、盖房项目需求 1）需要建房子：这一过程为打桩、砌墙、封顶2）房子有各种各样的，比如普通房，高楼，别墅，各种房子的过程虽然一样，但是要求不要相同的3）请编写程序&#xf…

阅读更多...

【1990-2023】上市公司高新技术企业数据（Excel+stata）+do代码

【1990-2023】上市公司高新技术企业数据（Excel+stata）+do代码

数据简介：根据《上市公司资质认定信息文件》数据进行整理。筛选“认定项目类型” 为“高新技术企业”；筛选“认定对象身份”为“上市公司本身”，根据“认定时间”和“有效期限”判断当年是否为高新技术企业。有效期限通常为3年，缺…

阅读更多...

ultralytics版本及对应的更新

ultralytics版本及对应的更新

Ultralytics Ultralytics 是一家专注于计算机视觉和深度学习工具的公司，尤以其开源的 YOLO (You Only Look Once) 系列深受欢迎。目前，Ultralytics 主要管理和开发 YOLOv5 和 YOLOv8。以下是各个版本的概述及其主要更新： YOLOv5 YOLOv5 是…

阅读更多...

最新文章