[机器学习]K-means——聚类算法

一.K-means算法概念

二.代码实现

# 0. 引入依赖
import numpy as np
import matplotlib.pyplot as plt # 画图依赖
from sklearn.datasets import make_blobs # 从sklearn中直接生成聚类数据# 1. 数据加载
# 生成(n_samples:样本点,centers:中心点,random_state:随机种子,cluster_std:聚类标准差)
x, y = make_blobs( n_samples=100, centers=6, random_state=1234, cluster_std=0.6 )
"""
print(x)
# 画原始图
plt.figure(figsize=(6,6))
plt.scatter(x[:,0], x[:,1], c=y)
plt.show()
"""# 2. 算法实现
# 引入scipy中的距离函数,默认欧式距离
from scipy.spatial.distance import cdistclass K_Means(object):# 初始化,每一类均值参数:n_clusters(K),迭代次数:max_iter,初始质心:centroidsdef __init__(self, n_clusters=6, max_iter=300, centroids=[]):self.n_clusters = n_clustersself.max_iter = max_iterself.centroids = np.array(centroids, dtype=np.float64)# 训练模型方法,k-means聚类过程,传入原始数据(x本身就有两个坐标)def fit(self, data):# 假如没有指定初始质心,就随机选取data中的点作为初始质心if (len(self.centroids) == 0):# 从data中随机生成0到data行数的6个整数,作为索引值# 从0到len(data)中随机选取n_clusters个self.centroids = data[np.random.randint(0, len(data), self.n_clusters), :]# 开始迭代for i in range(self.max_iter):# 1. 计算距离矩阵,得到的是一个100*6的矩阵,每一行为该样本点到6个质心的距离distances = cdist(data, self.centroids)# 2. 对距离按有近到远排序,选取最近的质心点的类别,作为当前点的分类c_ind = np.argmin(distances, axis=1)# 3. 对每一类数据进行均值计算,更新质心点坐标for i in range(self.n_clusters):# 排除掉没有出现在c_ind里的类别if i in c_ind:# 选出所有类别是i的点,取data里面坐标的均值,更新第i个质心self.centroids[i] = np.mean(data[c_ind == i], axis=0)# 实现预测方法def predict(self, samples):# 跟上面一样,先计算距离矩阵,然后选取距离最近的那个质心的类别distances = cdist(samples, self.centroids)c_ind = np.argmin(distances, axis=1)return c_ind"""
dist = np.array([[121, 221, 32, 43],[121, 1, 12, 23],[65, 21, 2, 43],[1, 221, 32, 43],[21, 11, 22, 3], ])
c_ind = np.argmin(dist, axis=1)
print(c_ind)
x_new = x[0:5]
print(x_new)
print(c_ind == 2)
print(x_new[c_ind == 2])
np.mean(x_new[c_ind == 2], axis=0)
"""# 3. 测试
# 定义一个绘制子图函数
def plotKMeans(x, y, centroids, subplot, title):# 分配子图,121表示1行2列的子图中的第一个plt.subplot(subplot)plt.scatter(x[:,0], x[:,1], c='red')# 画出质心点plt.scatter(centroids[:,0], centroids[:,1], c=np.array(range(6)), s=100)plt.title(title)# centroids指定质心初始点
kmeans = K_Means(max_iter=300, centroids=np.array([[2,1],[2,2],[2,3],[2,4],[2,5],[2,6]]))plt.figure(figsize=(16, 6))
plotKMeans( x, y, kmeans.centroids, 121, 'Initial State' )# 开始聚类
kmeans.fit(x)plotKMeans( x, y, kmeans.centroids, 122, 'Final State' )# 预测新数据点的类别
x_new = np.array([[0,0],[10,7]])
y_pred = kmeans.predict(x_new)print("经过训练的质心为:",kmeans.centroids)
print("这些点的预测为:",y_pred)plt.scatter(x_new[:,0], x_new[:,1], s=100, c='black')plt.show()

经过训练的质心为: [[ 5.76444812 -4.67941789]
 [-2.89174024 -0.22808556]
 [-5.89115978  2.33887408]
 [-4.53406813  6.11523454]
 [-1.15698106  5.63230377]
 [ 9.20551979  7.56124841]]
这些点的预测为: [1 5]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/672646.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PostgreSQL不停机迁移数据

通常涉及到数据迁移,常规操作都是停服务更新。不停机迁移数据是相对比较高级的操作。 不停机数据迁移在本质上,可以视作由三个操作组成: 复制:将目标表从源库逻辑复制到宿库。改读:将应用读取路径由源库迁移到宿库上…

从零开始手写mmo游戏从框架到爆炸(零)—— 导航

从今天开始我们尝试从零开始写一个mmo的游戏。主要技术还是netty。参考了网上很多的大神的框架,本来希望基于ioGame或者vert.x等来直接写功能的,觉得从零开始更有意义,而且咱们也不需要太NB的底层功能,够用就行。 下面是导航&…

HarmonyOS开发工具DevEco Studio安装以及汉化

HUAWEI DevEco Studio 面向HarmonyOS应用及元服务开发者提供的集成开发环境(IDE), 助力高效开发。 应用内共享HSP开发 支持在Stage模型和模块化编译方式下开发HSP,以及共享HSP给应用内其他模块使用;支持运行态共享HSP。Code Linter代码检查 支持ArkTS/T…

幻兽帕鲁转移/迁移游戏存档之后,无法迁移角色存档,进入游戏需要重新建角色问题(已解决),服务器到服务器之间的存档转移

很多朋友在迁移幻兽帕鲁游戏存档到服务器的时候,可能会遇到一个问题,就是迁移完成后,进入到游戏会发现又需要从头开始,重新新建角色。 其实这个问题也很好解决,因为Palworld服务端有两种,一种是有APPID&…

SpringFramework实战指南(六)

SpringFramework实战指南(六) 4.4 基于 配置类 方式管理 Bean4.4.1 完全注解开发理解4.4.2 实验一:配置类和扫描注解4.4.3 实验二:@Bean定义组件4.4.4 实验三:高级特性:@Bean注解细节4.4.5 实验四:高级特性:@Import扩展4.4.6 实验五:基于注解+配置类方式整合三层架构组…

vue项目集成booststrap

1.首先安装bootstrap npm install bootstrap 我安装的是4.3的版本 2.在main.js中引用bootstrap import bootstrap/dist/css/bootstrap.css import bootstrap/dist/css/bootstrap.min.css import bootstrap/dist/js/bootstrap.js import bootstrap/dist/js/bootstrap.min.…

(Python)字典列表数据本地存储工具

前言 一个简单的实现简便 "列表字典" 数据存储本地。 适合不会SQL但又想实现数据存储本地的同学。 操作使用都非常简单。 文件只做了简单的加密处理,如果需要复杂加密的同学可以修改加密函数。 温馨提示: 1.使用前,在项目目录…

CentOS7如何安装宝塔面板并实现固定公网地址远程访问

文章目录 一、使用官网一键安装命令安装宝塔二、简单配置宝塔,内网穿透三、使用固定公网地址访问宝塔 宝塔面板作为建站运维工具,适合新手,简单好用。当我们在家里/公司搭建了宝塔,没有公网IP,但是想要在外也可以访问内…

使用Spring AOP实现对外接口的日志自动打印

文章目录 一、引言二、使用AOP实现日志打印三、logback单独打印api调用信息 一、引言 相信我们都有过这样的经历,在提供第三方对外接口时,为了防止推诿扯皮,我们会在自己接口被调用时日志打印一下第三方的调用参数,再在业务逻辑结…

数据结构第十一天(栈)

目录 前言 概述 源码: 主函数: 运行结果: ​编辑 前言 今天简单的实现了栈,主要还是指针操作,soeasy! 友友们如果想存储其他内容,只需修改结构体中的内容即可。 哈哈,要是感觉不错&…

[React] ref属性

简介 ref 即 reference ,是 React 提供给我们的安全访问 DOM 元素或者某个组件实例的句柄。 组件被调用时会新建一个该组件的实例,而 ref 就会指向这个实例。它可以是一个回调函数,这个回调函数会在组件被挂载后立即执行。 为了防止内存泄漏…

数论 之 欧拉函数篇

欧拉函数 定义:1 ∼ N 中与 N 互质的数的个数被称为欧拉函数,记为 ϕ(N) 公式:若 N p1^a1 * p2^a2 * … * pk^ak 所有的pi都是N的质因数 那么 ϕ(N) N * (p1-1)/p1 * (p2-1)/p2 * … *(pk-1)/pk; 性质 : 性质1:如果n是质数&…

【C生万物】C语言分支和循环语句

📚博客主页:爱敲代码的小杨. ✨专栏:《Java SE语法》 | 《数据结构与算法》 | 《C生万物》 ❤️感谢大家点赞👍🏻收藏⭐评论✍🏻,您的三连就是我持续更新的动力❤️ 🙏小杨水平有…

京东云StarDB for openGauss实现混合多云场景元数据安全可控

推进产业数字化,构筑数智供应链技术底座,绕不开全球信息技术基础三大件之一的数据库。以技术创新为手段,以满足未来业务需求为目标,京东云自主研发的分布式数据库StarDB在长期的业务实践过程中不断进化,在海量且复杂的…

深入理解网络编程之BIO和NIO

目录 原生JDK网络编程BIO BIO通信模型服务端代码 BIO通信模型客户端代码 伪异步模型服务端代码(客户端跟之前一致) 原生JDK网络编程NIO 什么是NIO? NIO和BIO的主要区别 阻塞与非阻塞IO NIO之Reactor模式 NIO中Reactor模式的基本组成…

零基础学Python之网络编程

1.什么是socket 官方定义: 套接字(socket)是一个抽象层,应用程序可以通过它发送或接收数据,可对其进行像对文件一样的打开、读写和关闭等操作。套接字允许应用程序将I/O插入到网络中,并与网络中的其他应用…

ChatGPT论文指南|ChatGPT论文写作过程中6个润色与查重提示词

论文完成初稿之后,一般情况下,宝子们还需要找专家给我们提出评审意见。找专家评审其实并不容易,即使对老师来说,找人评审论文也是一件苦活。我们这个时候可以通过文字提示让 ChatGPT充当我们的评审专家,为论文提出问题…

Json hijacking/Json 劫持注入漏洞原理以及修复方法

漏洞名称:Json hijacking 、Json劫持漏洞、Json注入攻击 漏洞描述: JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式。易于人阅读和编写。同时也易于机器解析和生成,这种纯文本的数据交互方式由于可以天然的在浏览器中使用&a…

开源软件的未来发展趋势与应对新挑战和机遇

引言 开源软件,以其透明性、可协作性和成本效益,不仅仅是一种编写和分发软件的模式,更是一场日益扩展的技术革命。随着越来越多企业和个人用户认识到其潜在价值,我们有理由相信开源将继续推动软件行业的未来变革。本篇博文旨在预…

【操作系统·考研】I/O管理概述

1.I/O设备 1.1 块设备 信息交换以数据块为单位,它属于有结构设备。 块设备传输速率较高,可寻址,且可对该设备随机地的读写。 栗子🌰:磁盘。 1.2 字符设备 信息交换以字符为单位,属于无结构类型。 字符…