【机器学习】K-Means算法详解:从原理到实践


鑫宝Code

🌈个人主页: 鑫宝Code
🔥热门专栏: 闲话杂谈| 炫酷HTML | JavaScript基础
💫个人格言: "如无必要,勿增实体"


文章目录

  • K-Means算法详解:从原理到实践
    • 引言
    • 1. 基本原理
      • 1.1 簇与距离度量
      • 1.2 初始化与迭代
    • 2. 算法流程
    • 3. 参数选择与优化
    • 4. 优缺点分析
      • 优点
      • 缺点
    • 5. 实际应用案例
      • 5.1 客户细分
      • 5.2 文档分类
      • 5.3 图像分割
    • 6. 结语

K-Means算法详解:从原理到实践

在这里插入图片描述

引言

K-Means是一种广泛应用于数据挖掘、机器学习领域的无监督学习算法,主要用于聚类分析。它的核心思想是将数据集划分为K个簇(cluster),每个簇内的数据相似度较高,而不同簇间的数据相似度较低。本文将深入浅出地介绍K-Means算法的基本原理、算法流程、优缺点、参数选择、优化方法以及实际应用案例,帮助读者全面理解和掌握这一经典算法。

1. 基本原理

1.1 簇与距离度量

  • :K-Means的目标是将数据集分割成K个互不相交的子集,每个子集即为一个簇。
  • 距离度量:衡量数据点间相似度的标准,常用欧氏距离。对于高维数据,也可以采用其他距离度量方法,如曼哈顿距离、余弦相似度等。

1.2 初始化与迭代

  • 初始化:随机选择K个数据点作为初始聚类中心。
  • 迭代过程
    1. 分配:将每个数据点分配给最近的聚类中心所在的簇。
    2. 更新:根据每个簇内数据点的均值(对于连续属性)或众数(对于离散属性)重新计算聚类中心。
  • 终止条件:当聚类中心不再发生显著变化或达到预设的最大迭代次数时停止。

2. 算法流程

1. 设定聚类数量K,随机选取K个数据点作为初始质心。
2. 对于数据集中的每个数据点,计算其与所有质心的距离,将其归入最近的质心所代表的簇。
3. 重新计算每个簇的质心,方法是取簇中所有点的均值。
4. 检查质心是否发生变化。如果质心有变化,则返回步骤2;否则,结束,输出最终的簇划分结果。

以下是一个使用Python和scikit-learn库实现K-Means聚类算法的示例代码。这个例子包括了从数据准备、模型训练到结果可视化的基本流程。

首先,请确保已经安装了numpy, matplotlib, 和 scikit-learn 这几个必要的库。如果没有安装,可以通过运行 pip install numpy matplotlib scikit-learn 来安装它们。以下代码仅供参考🐶

# 导入所需库
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs# 生成模拟数据集
# make_blobs 用于创建带有标签的数据集,这里我们忽略真实标签,仅用于演示
X, _ = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)# 使用KMeans进行聚类
kmeans = KMeans(n_clusters=4) # 设置聚类数量为4
kmeans.fit(X)# 预测每个样本的簇标签
labels = kmeans.predict(X)# 可视化聚类结果
plt.figure(figsize=(8, 6))
colors = ['r', 'g', 'b', 'y']
for i in range(4):plt.scatter(X[labels == i, 0], X[labels == i, 1], c=colors[i], label=f'Cluster {i+1}')# 绘制聚类中心
centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='black', marker='x', s=200, label='Centroids')plt.title('K-Means Clustering')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.legend()
plt.show()# 输出每个聚类中心的位置
print("Cluster Centers:")
print(kmeans.cluster_centers_)

这段代码首先生成了一个包含四个明显簇的数据集,然后使用KMeans类对其进行聚类,并通过颜色区分不同的簇。最后,它还绘制了每个簇的中心点。通过调整参数,您可以应用于自己的数据集上进行聚类分析。

3. 参数选择与优化

  • K的选择:肘部法则、轮廓系数、Calinski-Harabasz指数等方法可以帮助确定最优的K值。
  • 初始化方法:除了随机选择,还可以采用K-Means++策略,以提高算法的稳定性和收敛速度。
  • 避免局部最优:多次运行算法并选择最佳聚类结果,或采用Mini-Batch K-Means等变体来探索更多解空间。

4. 优缺点分析

优点

  • 简单直观:易于理解和实现。
  • 效率高:对于大规模数据集尤其有效,时间复杂度为O(nKI),其中n是数据点数量,I是迭代次数。
  • 可解释性强:输出直观,便于分析。

缺点

  • 对初始质心敏感:不同的初始质心可能导致完全不同的聚类结果。
  • 需要预先设定K值:实际应用中K的选择往往依赖经验或试错。
  • 假设各簇为凸形状且大小相近:对于非球形簇或大小差异大的数据集表现不佳。
  • 对异常值敏感:异常值可能会严重影响聚类中心的计算。

5. 实际应用案例

5.1 客户细分

电商平台通过分析用户的购买行为、浏览记录等数据,利用K-Means算法对用户进行分群,为不同群体提供个性化推荐和服务,提升用户体验和销售转化率。

5.2 文档分类

在文本挖掘领域,K-Means可以用来对文档集合进行主题分类。通过将文档转换为TF-IDF向量表示,然后应用K-Means算法,可以自动将相似主题的文档归为一类。
在这里插入图片描述

5.3 图像分割

在图像处理中,K-Means可用于图像分割,通过对像素颜色值进行聚类,可以识别出图像中的不同区域,适用于背景去除、图像简化等场景。
在这里插入图片描述

6. 结语

K-Means算法以其简单高效的特点,在众多领域展现了强大的实用价值。然而,针对其存在的局限性,研究人员不断提出改进方法,如二分K-Means、谱聚类等,以适应更复杂的数据结构和应用场景。掌握K-Means不仅是数据科学基础的重要组成部分,也是进一步探索高级聚类技术的基石。希望本文能为读者理解并应用K-Means算法提供有益的指导。

End

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/34767.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JLPT历年真题刷题小程序:Navi日语社全新升级,更新至2024年真题!

Navi日语社小程序专为日语能力考试设计,提供全网最全的JLPT备考真题资源,包括日语N1-N5等级考试的历年真题,2024年真题将在7月底更新。无论你是日语新手准备参加N3考试练练手,还是准备冲刺N1最高等级,都能在这个小程序…

基于Java微信小程序火锅店点餐系统设计和实现(源码+LW+调试文档+讲解等)

💗博主介绍:✌全网粉丝10W,CSDN作者、博客专家、全栈领域优质创作者,博客之星、平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌💗 🌟文末获取源码数据库🌟感兴趣的可以先收藏起来,还…

动态规划数字三角形模型——AcWing 275. 传纸条

动态规划数字三角形模型 定义 动态规划数字三角形模型是在一个三角形的数阵中,通过一定规则找到从顶部到底部的最优路径或最优值。 运用情况 通常用于解决具有递推关系、需要在不同路径中做出选择以达到最优结果的问题。比如计算最短路径、最大和等。 计算其他…

惯性级惯导的定位漂移估算

一般来说,惯性级陀螺仪指的是0.01度/小时的零偏稳定性(是否可以作为等效常值漂移呢?),其定位误差大约为1海里每小时,其具体估算方法可见秦永元老师的《惯性导航》一书中静基座下系统误差传播特性分析一节内…

【龙晰 离线安装openssl-devel】openssl-devel rpm 离线安装 需要下载哪些安rpm 包

进入龙晰镜像源地址下载 http://mirrors.openanolis.cn/anolis/8/BaseOS/x86_64/os/Packages/(base) [rootAI lib64]# yum install openssl-devel Last metadata expiration check: 14:03:32 ago on Fri 21 Jun 2024 07:26:56 AM CST. Dependencies resolved. Package …

公交车安全监控的智能化革新:4G车载视频监控与GPS卫星定位技术的融合

随着科技的快速发展,智能化监控技术在交通管理领域的应用日益广泛。特别是对于公交车这类公共交通工具,其安全监控的智能化、实时化、全面化显得尤为重要。综合运用最新的4G车载视频监控技术及GPS卫星定位技术,对公交车进行全方位、立体化、智…

正则表达式以及文本三剑客grep、sed、awk

正则表达式匹配的是文本内容,文本三剑客都是针对文本内容。 grep:过滤文本内容 sed:针对文本内容进行增删改查 awk:按行取列 一、grep grep的作用使用正则表达式来匹配文本内容 1、grep选项 -m:匹配几次之后停止…

【论文解读】通过多标记预测建立更好更快的大型语言模型

Meta 的这篇多标记预测论文显示,与当前的下一标记预测器相比,多头预测器内存效率高、性能更好、训练速度更快。 https://arxiv.org/pdf/2404.19737 主要收获: 多标记预测是对 LLM 训练的一种简单而强大的修改,可提高样本效率和各种任务的性能。这种方法在大规模应用中尤为…

从 Hadoop 迁移,无需淘汰和替换

我们仍然惊讶于有如此多的客户来找我们,希望从HDFS迁移到现代对象存储,如MinIO。我们现在以为每个人都已经完成了过渡,但每周,我们都会与一个决定进行过渡的主要、高技术性组织交谈。 很多时候,在这些讨论中&#xff…

Mac环境 aab包转apks,并安装apks

一、下载下载bundletool工具 Releases google/bundletool GitHub 二、将下载bundletool.jar包、aab、keystore文件全部放到同一个目录下 例如我全部放到download目录下 转换命令行: java -jar bundletool-all-1.16.0.jar build-apks --modeuniversal --bundle…

java运维交接项目逆向工程

​ 背景 有承接过Java项目运维的团队估计都处理过的一件事情,就是同步生产代码跟本地代码,条件再差些甚至要直接基于生产部署包逆向本地源码工程。而哪怕是原运维团队交接了源码,往往也会历史久远的原因,给了一份不太可靠的源码…

MySQL连接

MySQL工具包 MySQL实现简单链接 一 引入工具包 JBDCUtils,无需更改,直接使用即可。 import java.io.IOException; import java.io.InputStream; import java.sql.*; import java.util.Properties;public class JDBCUtil {private static String URL;p…

基于PHP+MySQL组合开发的在线客服小程序源码系统 带完整的安装代码包以及搭建教程

系统概述 源码系统是专门为满足企业在线客服需求而设计的,它集成了多种功能,能够帮助企业实现与用户的实时沟通、问题解答、信息反馈等。通过该系统,企业可以更好地了解用户需求,提升用户体验,增强用户对企业的信任感…

Linux[高级管理]——Squid代理服务器的部署和应用(传统模式详解)

🏡作者主页:点击! 👨‍💻Linux高级管理专栏:点击! ⏰️创作时间:2024年6月24日11点11分 🀄️文章质量:95分 目录 ————前言———— Squid功能 Squ…

【JavaEE精炼宝库】多线程进阶(1)常见锁策略 | CAS | ABA问题

目录 一、常见的锁策略: 1.1 悲观锁 | 乐观锁: 1.2 重量级锁 | 轻量级锁: 1.3 自旋锁 | 挂起等待锁: 1.4 公平锁 | 非公平锁: 1.5 可重入锁 | 不可重入锁: 1.6 互斥锁 | 读写锁: 1.7 面…

Spring Boot 集成 MinIO 实现文件上传

Spring Boot 集成 MinIO 实现文件上传 一、 Minio 服务准备 MinIO的搭建过程参考 Docker 搭建 MinIO 对象存储。 登录MinIO控制台&#xff0c;新建一个 Bucket&#xff0c;修改 Bucket 权限为公开。 二、MinIO 集成 添加 MinIO 依赖 <!-- https://mvnrepository.com/ar…

【工具测评】ONLYOFFICE——你的下一款桌面编辑器

文章目录 前言一、安装1.1 跳转官网下载安装包1.2 安装步骤 二、功能介绍2.1 功能全面的 PDF 编辑器2.2 PDF 表单2.3 文本文档编辑器的更新2.4 电子表格编辑器的更新2.5 演示文稿编辑器有哪些更新2.6 所有编辑器中的改进内容2.7 从右至左显示 & 新的本地化选项2.8 可用性提…

重生奇迹MU整理装备技巧

除了注意一些基本的事项外&#xff0c;还有一些技巧可以帮助我们更快更好地整理装备&#xff0c;提升自己在游戏中的表现。 1. 理性地管理装备是取得胜利的关键。在整理装备时&#xff0c;根据不同的属性和需求&#xff0c;可以将装备分类&#xff0c;比如攻击型、防御型、辅助…

CRMEB 多门店后台登录入口地址修改(默认admin)

一、>2.4版本 1、修改后端 config/admin.php 配置文件,为自定义的后缀 2、修改 平台后台前端源码中 view/admin/src/settings.js 文件,修改为和上面一样的配置 3、修改后重新打包前端代码,并且覆盖到后端的 public 目录下&#xff1a;打包方法 4、重启swoole 二、<2.4版…

云函数-uniapp + uniCloud 订阅消息实战教程(二)

一、创建uniCloud项目 在 HBuilderX 新建项目界面&#xff0c;选择 uni-app项目&#xff0c;输入项目名称&#xff0c;选择默认模板即可&#xff0c;根据个人需要选择 vue版本&#xff0c;并勾选 启用uniCloud&#xff0c;在右侧选择服务供应商&#xff08;支付宝云、阿里云、…