使用Python实现K均值聚类算法

K均值(K-Means)算法是一种常用的聚类算法,它将数据集分成K个簇,每个簇的中心点代表该簇的质心,使得每个样本点到所属簇的质心的距离最小化。在本文中,我们将使用Python来实现一个基本的K均值聚类算法,并介绍其原理和实现过程。

什么是K均值算法?

K均值算法是一种迭代的聚类算法,其基本思想是通过不断迭代优化簇的中心点位置,使得每个样本点到其所属簇的质心的距离最小化。算法首先随机初始化K个质心,然后将每个样本点分配给距离最近的质心所属的簇,然后更新每个簇的质心,重复这个过程直到簇不再发生变化或达到最大迭代次数。

使用Python实现K均值算法

1. 导入必要的库

首先,我们需要导入必要的Python库:

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
2. 准备数据

接下来,我们准备一个示例数据集:

X, _ = make_blobs(n_samples=300, centers=4, cluster_std=0.6, random_state=0)
3. 实现K均值算法

接下来,我们实现K均值算法:

def k_means(X, n_clusters, max_iters=100):centroids = X[np.random.choice(len(X), n_clusters, replace=False)]for _ in range(max_iters):clusters = [[] for _ in range(n_clusters)]for x in X:distances = [np.linalg.norm(x - c) for c in centroids]cluster = np.argmin(distances)clusters[cluster].append(x)new_centroids = [np.mean(c, axis=0) for c in clusters]if np.allclose(new_centroids, centroids):breakcentroids = new_centroidsreturn np.array(centroids), clustersn_clusters = 4
centroids, clusters = k_means(X, n_clusters)
4. 可视化结果

最后,我们可以绘制数据点和聚类中心的可视化图:

plt.figure(figsize=(8, 6))
for i, cluster in enumerate(clusters):cluster = np.array(cluster)plt.scatter(cluster[:, 0], cluster[:, 1], label=f'Cluster {i+1}')
plt.scatter(centroids[:, 0], centroids[:, 1], marker='x', color='black', label='Centroids')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.title('K-Means Clustering')
plt.legend()
plt.show()

结论

通过本文的介绍,我们了解了K均值聚类算法的基本原理和Python实现方法。K均值算法是一种简单而有效的聚类算法,适用于各种类型的数据集,并且具有较快的运行速度。通过使用Python的NumPy库,我们可以实现K均值算法,并对数据进行聚类分析。

希望本文能够帮助读者理解K均值聚类算法的基本概念,并能够在实际应用中使用Python实现K均值算法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/806739.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

关于ABP 新增表,dbfirst模式

下面的代码是基于abp生成的项目,项目名:Store 1.在Domain结尾的项目中通过EF工具生成数据实体: Scaffold-DbContext Data Source服务器IP;Initial Catalog数据库;User Idsa;Password密码;EncryptFalse; Microsoft.EntityFrameworkCore.SqlS…

JVM常量池

JVM中的常量池主要有以下几个类别,它们各自在JVM中的位置随着JDK版本的演进而有所变化: Class文件常量池: 位置:存在于每个独立的.class文件中。这是编译期间生成的二进制文件的一部分,它包含了该类或接口的所有编译期…

Java基础_15集合及其方法

今天的内容 1.集合 1.集合【重点】 1.1为什么使用集合 集合和数组是一样的都是用来存储数据的!!! 真实的开发的时候,使用的是集合不是数组,为啥? 数组存数据: ​ 1.数组的容量是固定的 ​ 2.数组封装的方法…

慢品人间烟火色,闲观万事岁月长

小女孩的衣柜里,怎能缺少一套别致的新中式穿搭?让我们的小公主在时尚与传统中寻找平衡 演绎属于自己的中国风魅力精致的小立领,淡淡的文艺复古气息 上衣系带设计,外加一层高透轻纱穿上身如亭亭玉立的大小姐整个人仿佛笼罩了一层…

CVP(ChatGPT、Vector Database和Prompt)

CVP实际上指的是ChatGPT、Vector Database和Prompt的结合,这是一种新型的技术栈,用于构建智能应用。 首先,我们来看这三个组成部分: ChatGPT:这是一个强大的语言模型,它能够理解并生成自然语言文本。Chat…

【docker】之linux写shell脚本备份线上数据库(备份为dump文件)

目录 1. SH文件1.1 SH文件示例1.2 文件解释1.3 .sh文件执行 2. 备份线上数据库的.sh文件2.1 文件命令解析 3. 命令执行4. 线下dump文件的恢复与备份 环境:linux容器:docker 1. SH文件 SH文件通常指的是 Shell 脚本文件,文件后缀名为.sh&…

IP查询在追踪网络攻击源头中的应用

随着网络攻击事件的不断增加,追踪攻击源头成为网络安全领域的重要任务之一。IP查询技术通过分析网络流量中的IP地址,可以帮助确定攻击的来源。本文将探讨IP查询在追踪网络攻击源头中的应用,包括其原理、方法以及实际案例分析。 IP地址查询&a…

比特币减半后 牛市爆发

作者:Arthur Hayes of Co-Founder of 100x 编译:Qin jin of ccvalue (以下内容仅代表作者个人观点,不应作为投资决策依据,也不应被视为参与投资交易的建议或意见)。 Ping PingPing,我的手机发出的声音&…

Linux CentOS 安装 MySQL 服务教程

Linux CentOS 安装 MySQL 服务教程 1. 查看系统和GNU C库(glibc)版本信息 1.1 查询机器 glibc 版本信息 glibc,全名GNU C Library,是大多数Linux发行版中使用的C库,为系统和应用程序提供核心的API接口。在Linux系统中,特别是在…

js 数组 按列循环二维数组

期待效果&#xff1a; 核心代码&#xff1a; //js function handle(array) {var result [];for (let i 0; i < array[0].length; i) {var item []; for (let j 0; j < array.length; j) {item.push(array[j][i])} result.push(item);} return result; } 运行代码&a…

酷开科技 | 酷开系统打破客厅局限让大家享受更智能便捷的服务

曾经电视是家庭场景中的重要屏幕&#xff0c;是家庭发现世界和获取资讯的中心。但经历了近一百年的发展&#xff0c;传统电视行业进入瓶颈期&#xff0c;电视在家庭中的地位被逐渐替代。特别是智能手机的诞生&#xff0c;让手机成为个人生活的中心和全社会关注焦点&#xff0c;…

STM32F7 MPU Cache的原理和一致性问题

目录 概述 1 Cache 及其原理 2 结构及策略 2.1 Cache类型 2.2 Cache实例 3 Cache 及 MPU 属性 4 Cache 一致性问题 4.1 未Clean写Cache情况 4.2 DMA 更新物理内存情况 4.3 一个实例 4.3.1 功能描述 4.3.2 代码实现 4.3.3 结论 概述 本文主要从结构原理以及应用方…

接口自动化测试(python+pytest+requests)

一、选取自动化测试用例 优先级高:先实现业务流程用例、后实现单接口用例功能较稳定的接口优先开展测试用例脚本的实现二、搭建自动化测试环境 核心技术:编程语言:python;测试框架:pytest;接口请求:requests安装/验证requests:命令行终端分别输入 pip install requests / p…

gitlab 转移项目

git clone 旧项目url git remote rm origin git remote add origin 新的url git push origin master:master --force 报错 error: src refspec master does not match any error: failed to push some refs to xxx 查看当前分支 是否为master,如果为main,创建master分支 …

蓝桥杯day21刷题日记--接龙序列 动态规划

刚开始以为最长子序列的做法&#xff0c;然后发现数据太大了&#xff0c;只能得四十分&#xff0c;遂看题解&#xff0c;寻找AC做法 四十分做法 #include <iostream> #include <string> #include <algorithm> using namespace std; int dp[100010]; int n;…

记录一个没测出来,有点严重的Bug

前提&#xff1a; 人物&#xff1a;若干个 部门&#xff1a;若干个 部门有一个人物选择框&#xff0c;可以选择所有的人物&#xff0c;且为非必填字段 bug现象: 部门中 的人物选择框每次都少一个人物 代码分析&#xff1a; F12接口后端没问题&#xff0c;定位为前端的问题。 前…

助力低碳出行 | 基于ACM32 MCU的电动滑板车方案

随着智能科技的快速发展&#xff0c;电动滑板车的驱动系统也得到了长足的发展。国内外的电动滑板车用电机驱动系统分为传统刷式电机和无刷电机两种类型。其中&#xff0c;传统的刷式电机已经逐渐被无刷电机所取代&#xff0c;无刷电机的性能和寿命都更出色&#xff0c;已成为电…

蓝桥杯-单片机基础16——利用定时计数中断进行动态数码管的多窗口显示

综合查阅了网络上目前能找到的所有关于此技能的代码&#xff0c;最终找到了下述方式比较可靠&#xff0c;且可以自定义任意显示的数值。 传统采用延时函数的方式实现动态数码管扫描&#xff0c;在题目变复杂时效果总是会不佳&#xff0c;因此在省赛中有必要尝试采用定时计数器中…

HCIP课后习题之一

1、路由协议用工作机制上分为那几种&#xff1f;分别是&#xff1f; A&#xff1a;两种。分别是静态路由和动态路由&#xff08;可分为IGP和EGP&#xff09; 2、IGP和EGP协议有哪些&#xff1f; A&#xff1a;IGP: RIP、OSPF、ISIS、EIGRP EGP: BGP 3、路由优先级的用途&…

嵌入式学习52-ARM1

知识零散&#xff1a; 1.flash&#xff1a; nor flash 可被寻地址 …