K-means聚类模型教程(个人总结版)

K-means聚类是一种广泛应用于数据挖掘和数据分析的无监督学习算法。它通过将数据点分成K个簇(cluster),使得同一簇内的数据点之间的相似度最大,不同簇之间的相似度最小。本文将详细介绍K-means聚类算法的背景、基本原理、具体实现步骤、算法优化方法、优劣势以及应用实例。

一、算法背景

1.1 聚类分析的历史

聚类分析是一种重要的数据分析技术,可以追溯到20世纪50年代。其目的是将数据集分成若干个簇,使得同一个簇内的数据点尽可能相似,不同簇的数据点尽可能不同。聚类分析在许多领域有广泛应用,如模式识别、图像分析、市场研究、生物信息学等。

1.2 K-means算法的提出

K-means算法最早由Hugo Steinhaus在1956年提出,并由Stuart Lloyd在1957年进一步发展。其核心思想是通过迭代优化,使得每个数据点所属的簇中心与其距离最小,从而实现数据的聚类。

二、K-means聚类的基本原理

K-means聚类算法的目标是通过最小化簇内数据点到簇中心(centroid)的平方距离,使得每个簇内的数据点尽可能接近簇中心。具体步骤如下:

  1. 选择K个初始簇中心
  2. 分配数据点到最近的簇中心
  3. 重新计算簇中心:对于每个簇,计算其所有数据点的平均值,作为新的簇中心。
  4. 重复步骤2和步骤3,直到簇中心不再变化或达到预定的迭代次数

三、K-means聚类的具体实现步骤

3.1 数据准备

在开始聚类之前,需要准备数据集。假设我们有一个二维数据集,每个数据点有两个特征。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs# 生成示例数据
X, y = make_blobs(n_samples=300, centers=4, random_state=42, cluster_std=0.60)# 可视化数据
plt.scatter(X[:, 0], X[:, 1], s=50)
plt.show()

3.2 选择初始簇中心

初始化K个簇中心可以随机选择数据点或使用其他初始化方法(如K-means++)。

def initialize_centroids(X, k):indices = np.random.choice(X.shape[0], k, replace=False)return X[indices]# 初始化簇中心
k = 4
centroids = initialize_centroids(X, k)
print("Initial centroids:\n", centroids)

3.3 分配数据点到最近的簇中心

计算每个数据点到所有簇中心的距离,并将其分配到最近的簇中心。

def assign_clusters(X, centroids):distances = np.sqrt(((X - centroids[:, np.newaxis])**2).sum(axis=2))return np.argmin(distances, axis=0)# 分配数据点到最近的簇中心
labels = assign_clusters(X, centroids)
print("Initial cluster assignments:\n", labels)

3.4 重新计算簇中心

根据分配结果,计算每个簇的新中心。

def compute_centroids(X, labels, k):return np.array([X[labels == i].mean(axis=0) for i in range(k)])# 重新计算簇中心
new_centroids = compute_centroids(X, labels, k)
print("New centroids:\n", new_centroids)

3.5 迭代步骤

重复分配数据点和重新计算簇中心,直到簇中心不再变化或达到最大迭代次数。

def kmeans(X, k, max_iters=100):centroids = initialize_centroids(X, k)for _ in range(max_iters):labels = assign_clusters(X, centroids)new_centroids = compute_centroids(X, labels, k)if np.all(centroids == new_centroids):breakcentroids = new_centroidsreturn centroids, labels# 运行K-means聚类
centroids, labels = kmeans(X, k)
print("Final centroids:\n", centroids)# 可视化聚类结果
plt.scatter(X[:, 0], X[:, 1], c=labels, s=50, cmap='viridis')
plt.scatter(centroids[:, 0], centroids[:, 1], s=200, c='red', marker='X')
plt.show()

四、K-means聚类的优化方法

4.1 K-means++初始化

K-means++是一种改进的初始化方法,通过更好地选择初始簇中心,减少了K-means的收敛时间,提高了结果的稳定性。

from sklearn.cluster import KMeans# 使用K-means++初始化
kmeans = KMeans(n_clusters=k, init='k-means++', max_iter=300, n_init=10, random_state=42)
y_kmeans = kmeans.fit_predict(X)# 可视化结果
plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, s=50, cmap='viridis')
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s=200, c='red', marker='X')
plt.show()

4.2 确定最佳簇数

使用肘部法或轮廓系数等方法,可以帮助确定数据的最佳簇数。

4.2.1 肘部法

肘部法通过计算不同簇数下的总误差平方和(SSE),选择SSE下降速度减缓的点作为最佳簇数。

sse = []
for k in range(1, 11):kmeans = KMeans(n_clusters=k, init='k-means++', max_iter=300, n_init=10, random_state=42)kmeans.fit(X)sse.append(kmeans.inertia_)# 可视化肘部法
plt.plot(range(1, 11), sse, marker='o')
plt.xlabel('Number of clusters')
plt.ylabel('SSE')
plt.show()
4.2.2 轮廓系数

轮廓系数通过计算簇内和簇间的距离,评估不同簇数下的聚类效果。

from sklearn.metrics import silhouette_scoresilhouette_scores = []
for k in range(2, 11):kmeans = KMeans(n_clusters=k, init='k-means++', max_iter=300, n_init=10, random_state=42)y_kmeans = kmeans.fit_predict(X)silhouette_scores.append(silhouette_score(X, y_kmeans))# 可视化轮廓系数
plt.plot(range(2, 11), silhouette_scores, marker='o')
plt.xlabel('Number of clusters')
plt.ylabel('Silhouette Score')
plt.show()

五、K-means聚类的优劣势

5.1 优势

  1. 简单易懂:K-means算法的基本思想简单直观,易于理解和实现。
  2. 计算效率高:对于大规模数据集,K-means算法的计算效率较高,适合快速聚类。
  3. 结果解释性强:聚类结果易于解释,可以直接通过簇中心和簇内数据点之间的关系进行分析。

5.2 劣势

  1. 对初始值敏感:K-means算法对初始簇中心的选择非常敏感,不同的初始值可能导致不同的聚类结果。
  2. 需要预先确定K值:K-means算法需要预先指定簇的数量K,这在实际应用中可能不容易确定。
  3. 对噪声和异常值敏感:K-means算法对数据中的噪声和异常值较为敏感,可能影响聚类结果的准确性。
  4. 适用数据类型有限:K-means算法主要适用于数值型数据,对于类别型数据或高维稀疏数据的效果不佳。

六、K-means聚类的应用实例

6.1 图像压缩

K-means聚类可以用于图像压缩,将图像像素分配到K个簇,从而减少颜色数量,实现图像压缩。

from skimage import io
from sklearn.utils import shuffle# 加载图像
image = io.imread('path/to/your/image.jpg')
image = np.array(image, dtype=np.float64) / 255# 将图像像素展开为二维数组
w, h, d = image.shape
image_array = np.reshape(image, (w * h, d))# 使用K-means进行图像压缩
k = 16
image_array_sample = shuffle(image_array, random_state=42)[:1000]
kmeans = KMeans(n_clusters=k, random_state=42).fit(image_array_sample)
labels = kmeans.predict(image_array)
compressed_image = kmeans.cluster_centers_[labels].reshape(w, h, d)# 显示压缩后的图像
plt.imshow(compressed_image)
plt.show()

6.2 客户细分

K-means聚类可以用于客户细分,根据客户的购买行为、人口统计数据等,将客户分成不同的簇,帮助企业进行精准营销。

import pandas as pd# 加载客户数据
data = pd.read_csv('path/to/your/customer_data.csv')# 选择特征进行聚类
X = data[['Annual Income (k$)', 'Spending Score (1-100)']]# 使用K-means进行客户细分
kmeans = KMeans(n_clusters=5, random_state=42)
y_kmeans = kmeans.fit_predict(X)# 可视化客户细分结果
plt.scatter(X.iloc[:, 0], X.iloc[:, 1], c=y_kmeans, s=50, cmap='viridis')
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s=200, c='red', marker='X')
plt.xlabel('Annual Income (k$)')
plt.ylabel('Spending Score (1-100)')
plt.show()

七、总结

K-means聚类是一种简单高效的无监督学习算法,广泛应用于图像处理、市场营销、客户细分等领域。通过详细介绍K-means聚类的基本原理、具体实现步骤、算法优化方法和应用实例,希望能帮助读者更好地理解和应用这一重要的机器学习技术。在实际应用中,选择合适的簇数和初始化方法,并结合具体问题的需求进行调整和优化,将有助于获得更好的聚类效果。

参考文献

为了深入理解和应用K-means聚类算法,建议参考以下资料:

  1. 《机器学习》 - 周志华
  2. 《模式分类》 - Duda, Hart, Stork
  3. 《数据挖掘:概念与技术》 - Han, Kamber, Pei
  4. K-means++: The Advantages of Careful Seeding - Arthur, Vassilvitskii (2007)
  5. A Comparison of the K-means and K-medoids Algorithms - Park, Jun (2009)

这些资料将提供更深入的理论背景和实践指南,帮助读者进一步掌握K-means聚类算法及其应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/13667.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

巨某量引擎后台登录实战笔记 | Playwright自动化框架

前言 本文章中所有内容仅供学习交流,抓包内容、敏感网址、数据接口均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关,若有侵权,请联系我立即删除! 入正题看看滑块是怎么个事…

Linux进程与服务管理

1)进程介绍 程序:存在于磁盘里的代码文件或软件(程序集合)。 [程序在磁盘里,躺平睡觉] 进程:运行着的程序或软件,就叫进程. [存在于内存中,正在干活工作]。 把磁盘中的程序拿出来放入内存中运行,运行的这…

网络的基础理解

文章目录 网络的基础认识 网络协议协议分层OSI七层模型TCP/IP 五层/四层 模型 网络的基础认识 先来看下面几个问题 什么是网络? 网络就是有许多台设备包括计算机单不仅限于计算机,这些设备通过相互通信所组成起来系统,我们称之为网络所以如…

Gartner发布中国数据安全安全与风险管理领导者指南:将孤立的数据安全产品集成到数据安全平台中,实施一致的数据安全策略

在中国开展业务或与中国相关的组织面临着越来越多的数据安全风险和法规。安全和风险管理领导者必须采用风险优先的数据安全计划和投资,以响应监管要求,以增强数据驱动的数字创新能力。 主要发现 跨组织职能的分散的数据安全举措和不协调的利益相关者责任…

服务器c盘爆满了,这几种方法可以帮助C盘“瘦身”

我们在使用服务器的时候基本不会在C盘安装软件,那么用久了发现C盘满了,提示空间不足?那么这是怎么回事,为什么空间会占用这么快呢? 原因一: C盘满了,很可能是因为电脑里的垃圾文件过多。操作系…

薪资不公、晋升无望?动笔写一份申诉材料吧!

薪资不公、晋升无望?动笔写一份申诉材料吧! 引言:每个努力工作的人都值得公平对待 在职场上,我们付出了汗水和智慧,期待着相应的回报——合理的工资和公正的晋升机会。然而,现实并不总是如此美好。当你感觉…

Python实现二维数组使用连接符 “ @ “ 和 “ | “ 拼接成字符串,然后再拆分成数组功能

要将二维数组使用连接符 " " 和 " | " 拼接成字符串,然后再拆分成数组,你可以使用以下代码: def join_str(array):joined_step_str " ".join([" | ".join(sub_array) for sub_array in array[1]…

OBS 源码解读——编码器

编码器 obs-encoder.h 主要包含 3个结构体定义:输入编码器数据;编码后数据;编码器定义 1个对外输出的注册编码器函数 输入编码器数据 /** Encoder input frame */ struct encoder_frame {/** Data for the frame/audio */uint8_t *data[M…

芯片设计公司外协ERP数字化运营:科技与管理的融合

随着信息技术的快速发展,ERP(企业资源计划)系统已经成为现代企业管理不可或缺的一部分。在芯片设计行业,由于产品的复杂性、技术的高要求以及市场的快速变化,外协ERP数字化运营显得尤为重要。 芯片设计公司的外协ERP数字化运营,主…

xxe漏洞--xml外部实体注入漏洞

1.xxe漏洞介绍 XXE(XML External Entity Injection)是一种攻击技术,它允许攻击者注入恶意的外部实体到XML文档中。如果应用程序处理XML输入时未正确配置,攻击者可以利用这个漏洞访问受影响系统上的敏感文件、执行远程代码、探测内…

AI大模型知识库与向量数据库:解锁智能问答新时代

随着AI技术的飞速发展,我们的世界正在经历一场前所未有的智能化变革。在这个变革中,AI大模型知识库与向量数据库的完美结合,为知识查询和用户问答领域带来了全新的体验。它们不仅提高了效率,更让问答变得智能、个性化,…

晶体振荡器

一、晶振与晶体区别 晶振是有源晶振的简称,又叫振荡器,英文名称是oscillator,内部有时钟电路,只需供电便可产生振荡信号;晶体是无源晶振的简称,也叫谐振器,英文名称是crystal,是无极…

机械臂与Realsense D435 相机的手眼标定ROS包

本教程主要介绍机械臂与 Realsense D435 相机手眼标定的配置及方法。 系统:Ubuntu 20.0.4 ◼ ROS:Noetic ◼ OpenCV 库:OpenCV 4.2.0 ◼ Realsense D435:librealsense sdk(2.50.0)、realsense-ros 功能包&…

Kafka-文件存储机制

Kafka概述 Kafka-文件存储机制 1. 分区: Kafka中的每个主题(topic)都可以分成一个或多个分区。 Topic是逻辑上的概念,而Partition是物理上的概念。 分区是消息的基本单元,每个分区都是一个有序的log日志文件。 Pr…

Linux网络配置全攻略:解读/etc/network/interfaces文件的精髓

欢迎来到我的博客,代码的世界里,每一行都是一个故事 Linux网络配置全攻略:解读/etc/network/interfaces文件的精髓 前言文件结构与基本概念配置网络接口的常用参数高级网络配置技巧实用工具与调试技巧实战案例与最佳实践 前言 在我们的日常生…

【数据库基础】基本认识数据库--入门引导

文章目录 什么是数据库?主流数据库基本使用安装MySQL连接服务器服务器、数据库、表关系使用案例数据逻辑存储 MySQL架构SQL语句分类什么叫存储引擎 什么是数据库? 数据库是指在磁盘和内存中存储特定结构组织的数据。数据库通常用于存储于某个系统、组织或…

整理好了!2024年最常见 20 道 Redis面试题(三)

上一篇地址:整理好了!2024年最常见 20 道 Redis面试题(二)-CSDN博客 五、Redis 的持久化机制有哪些? Redis 是一个内存中的数据结构存储系统,它支持多种类型的数据结构,如字符串、哈希、列表、…

Kylin系列

Kylin是一个开源的分布式分析引擎,主要用于在Hadoop/Spark等大数据平台上提供高性能的SQL查询接口和OLAP(联机分析处理)能力,以支持超大规模数据的查询和分析。以下是关于Kylin系列的详细解释: 基本概念与原理&#x…

基于springboot实现的校园博客系统

开发语言:Java 框架:springboot JDK版本:JDK1.8 服务器:tomcat7 数据库:mysql 5.7(一定要5.7版本) 数据库工具:Navicat11 开发软件:eclipse/myeclipse/idea Maven…

Mac SourceTree配置ssh git仓库

一、准备条件 1、Mac系统电脑 2、安装好SourceTree 3、获取ssh git仓库地址 二、配置步骤 1、打开终端命令行 ssh -t rsa -C "xxx""xxx"代表注册git仓库时,使用的用户名,可以是字符串也可以是邮箱地址。 如果遇到输入密码&#xf…