kmeans算法中的sse_聚类算法入门:k-means

一、聚类定义

  • 聚类分析(cluster analysis)就是给你一堆杂七杂八的样本数据把它们分成几个组,组内成员有一定的相似,不同组之间成员有一定的差别。
  • 区别与分类分析(classification analysis) 你事先并不知道有哪几类、划分每个类别的标准。
  • 比如垃圾分类就是分类算法,你知道猪能吃的是湿垃圾,不能吃的是干垃圾……;打扫房间时你把杂物都分分类,这是聚类,你事先不知道每个类别的标准。

二、划分聚类方法: K-means:

对于给定的样本集,按照样本之间的距离(也就是相似程度)大小,将样本集划分为K个簇(即类别)。让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大。

  • 步骤1:随机取k个初始中心点
  • 步骤2:对于每个样本点计算到这k个中心点的距离,将样本点归到与之距离最小的那个中心点的簇。这样每个样本都有自己的簇了
  • 步骤3:对于每个簇,根据里面的所有样本点重新计算得到一个新的中心点,如果中心点发生变化回到步骤2,未发生变化转到步骤4
  • 步骤4:得出结果
    就像这样
e76bd11e7a5d7fd06a810d7c07ab12c7.gif

缺点:
初始值敏感、采用迭代方法,得到的结果只是局部最优、K值的选取不好把握、对于不是凸的数据集比较难收敛
如何衡量Kmeans 算法的精确度?
SSE(Sum of Square Error) 误差平方和, SSE越小,精确度越高。

三、改进算法-二分Kmeans

  • 首先将所有点作为一个簇,然后将其一分为二。
  • 每次选择一个簇一分为二,选取簇的依据取决于其是否能最大程度降低SSE即选取聚类后SSE最小的一个簇进行划分。
  • 直至有k个簇

四、Kmeans Code

import numpy as npimport matplotlib.pyplot as pltimport scipy.io as scio# %matplotlib inlinedef K_Means(X, sp, K): # 计算临近点 def near(p): dis = [np.sum(np.square(x-p)) for x in sp] return dis.index(min(dis))  # 打印结果 def print_result(sp_list): #打印中心点迭代轨迹 sp_list = [np.array([x[k] for x in sp_list]) for k in range(K)] for k in range(K): plt.plot(sp_list[k][:,0], sp_list[k][:,1], 'k->', label='type{}'.format(k)) #分类打印其他点 p_list = [[] for k in range(K)] for p in X: i = near(p)  p_list[i].append(p) p_list = [np.array(x) for x in p_list] color = ['r','g','b']  for i in range(K): plt.plot(p_list[i][:,0], p_list[i][:,1],color[i]+'o') plt.title('K-Means Result') plt.xlabel('X') plt.ylabel('Y') plt.legend('123') plt.show() # 迭代中心点 sp_list = [] sp_list.append(sp) while True: count = np.zeros(K) sp_t = np.zeros((K,2)) for p in X: i = near(p)  count[i] += 1 sp_t[i] += p sp_t = np.array([sp_t[i]/count[i] for i in range(K)]) SSE = np.sum(np.square(sp-sp_t)) if SSE < 0.001: break sp = sp_t sp_list.append(sp) print_result(sp_list) print('聚类中心:') for p in sp: print(p, end=',')if __name__ == '__main__': data = scio.loadmat('ex7data2.mat') X = data['X'] K = 3 sp = np.array([[3, 3], [6, 2], [8, 5]]) # starting point K_Means(X, sp, K)
45910202baf9800c193cdc0f21a9d41f.png

kmeans聚类结果

K为3聚类中心: [1.95399466 5.02557006],[3.04367119 1.01541041],[6.03366736 3.00052511]
如需要测试数据请留言

本文由作者授权转载并稍加修改:https://tawn0000.github.io

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/505609.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

win7局域网计算机 慢,Win7系统开机宽带连接很慢怎么办?

Win7系统用户在使用电脑系统上网时&#xff0c;都需要对宽度进行连接&#xff0c;但有用户反映在开机时机宽带连接非常缓慢&#xff0c;甚至要等上十来分钟&#xff0c;这使用户非常苦恼&#xff0c;那么Win7系统开机宽带连接很慢应该怎么办呢&#xff1f;接下来下面就来教大家…

小天才被限定使用时长的应用_家庭腕上社交新场景,OPPO Watch、小天才开启暖心联动...

说到小天才手表&#xff0c;相信家长朋友们都或多或少的听说过&#xff0c;或者正在给孩子使用。可爱的造型和实用的功能还有亲民的价格&#xff0c;让小天才手表成为青少年智能穿戴领域的热门产品。特别是对于正在上幼儿园和小学阶段的小朋友来说&#xff0c;支持通话和定位功…

ef 多个左联接查询_.NET 云原生架构师训练营(模块二 基础巩固 EF Core 查询)--学习笔记...

2.4.5 EF Core -- 查询关联数据加载客户端与服务端运算跟踪与不跟踪复杂查询运算原生 SQL 查询全局查询筛选器关联数据加载学员和助教都在项目分组中&#xff0c;调整模型&#xff0c;删除 AssistantProjectGroup 添加 Member 列表public List<Member> Members { get; se…

用友 无法正确解析服务器,用友T3软件登陆软件时提示:“可能无法正确解析服务器名称或者相应的端口被禁用,请尝试输入服务器的IP地址”?...

你好&#xff01;现在想要建立2015年的年度账&#xff0c;但新建年度账 是2016年 怎么解决&#xff1f; 你好&#xff01;现在想要建立2015年的年度账&#xff0c;但新建年度账 是2016年 怎么解决&#xff1f;[]您账才 做到2014年&#xff0c;要建立2015年度账&#xff1f;服务…

来自网页的消息服务器繁处理忙,EventSource 对象用于接收服务器发送事件通知,是网页自动获取来自服务器的更新...

//--------------------------------客户端代码-----------------------------if(typeof(EventSource) ! "undefined") {var source new EventSource("../api/v1/event.source");source.onmessage function(event) {$("#content_event").html(…

linux定向查日志_linux日志查找技巧

基础命令# 查询日志尾部最后10行的日志;tail -n 10 test.log#查询10行之后的所有日志;tail -n 10 test.log# 查询日志文件中的头10行日志;head -n 10 test.log# 查询日志文件除了最后10行的其他所有日志;head -n -10 test.log# 查看日志的尾部&#xff0c;并刷新显示日志变动。…

三国杀服务器改名 插图修改,《三国杀》大幅修改的武将——新旧两版,你更喜欢哪一位...

三国杀中&#xff0c;某些武将因为太强或者太弱&#xff0c;不能适应游戏环境&#xff0c;都会进行修改&#xff0c;例如&#xff1a;李丰、马良、伏皇后、曹冲等等&#xff0c;但这些武将修改之后&#xff0c;原有武将就淘汰了。其实&#xff0c;还有一类武将&#xff0c;技能…

php开源mvccms_轻松理解MYSQL MVCC 实现机制

1. MVCC简介1.1 什么是MVCCMVCC是一种多版本并发控制机制。1.2 MVCC是为了解决什么问题?大多数的MYSQL事务型存储引擎,如,InnoDB&#xff0c;Falcon以及PBXT都不使用一种简单的行锁机制.事实上,他们都和MVCC–多版本并发控制来一起使用.大家都应该知道,锁机制可以控制并发操作…

苹果电脑mac_清理Mac苹果电脑DNS缓存

说到清理苹果电脑想必不少网友会说苹果电脑不需要清理&#xff0c;但事实情况是现在对于“苹果电脑清理”的这个话题一直在不断地热议中&#xff0c;虽说Mac OS X系统它的优化比较好&#xff0c;很多小的无效数据文件会自动归类清除&#xff0c;但很多时候一些稍大的数据文件仍…

学python需要记笔记吗_开始学python,一些笔记

想想其实应该还是像在linux下一样在命令行下测试的&#xff0c;但是先跟着一个教程在IDE上试试手吧。1. 中文编码&#xff0c;我用的是python2.6.9 加两行注释&#xff1a;#!/usr/bin/python2.6# -*- coding: utf-8 -*-我原以为第一行是Python的安装目录&#xff0c;所以找了很…

鼠标追踪没用_【擺评】赛睿里最好用的小手鼠标---Rival 3

拿到这鼠标真的是有段时间了&#xff0c;深度体验了一个多月。先说&#xff0c;这是我用过所有赛睿鼠标里最喜欢的鼠标&#xff0c;虽然它不贵&#xff0c;虽然它是有线的&#xff0c;但真的舒服&#xff01;可能我也没用过几个赛睿的鼠标&#xff0c;仅有以下几款&#xff0c;…

java代码ftp重命名未生效_java使用apache commons连接ftp修改ftp文件名失败原因

今天被ftp上中文名修改坑了好久项目用的是 apache commons 里的 FtpClient 实现的对ftp文件的上传下载操作&#xff0c;今天增加了业务要修改ftp上的文件名&#xff0c;然后就一直的报错&#xff0c;问题是它修改名字的方法只返回一个boolean&#xff0c;没有异常&#xff0c;这…

zynq中mgtx应用_Zynq7000系列之芯片引脚功能综述

很多人做了很久的FPGA&#xff0c;知道怎么去给信号分配引脚&#xff0c;却对这些引脚的功能及其资源限制知之甚少&#xff1b;在第一章里对Zynq7000系列的系统框架进行了分析和论述&#xff0c;对Zynq7000系列的基本资源和概念有了大致的认识&#xff0c;然而要很好地进行硬件…

mysql存储过程触发器_MySQL存储过程及触发器

一、存储过程存储过程的基本格式如下&#xff1a;-- 声明结束符-- 创建存储过程DELIMITER $ -- 声明存储过程的结束符CREATE PROCEDURE pro_test() --存储过程名称(参数列表)BEGIN-- 可以写多个sql语句; -- sql语句流程控制SELECT * FROM employee;END $ -- 结束 结束符-- 执行…

mysql 扩展存储过程_MySQL4:存储过程和函数

什么是存储过程简单说&#xff0c;存储过程就是一条或多条SQL语句的集合&#xff0c;可视为批文件&#xff0c;但是起作用不仅限于批处理。本文主要讲解如何创建存储过程和存储函数以及变量的使用&#xff0c;如何调用、查看、修改、删除存储过程和存储函数等。使用的数据库和表…

netcore quartz job用不了services_.NetCore开源集成框架

GitHub地址&#xff1a;https://github.com/zwl568633995/AspNetCoreScaffolding&#xff08;感兴趣的Fork给个小星星吧~&#xff09;AspNetCoreScaffolding本框架在.netCore和.netStandard的基础上&#xff0c;集成了多种中间件.NetCore集成框架&#xff0c;即开即用如果对您有…

mysql基准性能测试标准_mysql性能测试与优化——(一),基准测试套件

笔者英语不好&#xff0c;又没人翻译&#xff0c;只好自己动手&#xff0c;希望大家多提意见&#xff0c;我好及时修改&#xff0c;以免误导他人。本文仅供参考&#xff0c;笔者对使用者产生的任何后果&#xff0c;概不负责。 转载请注明出处&#xff01;正文&#xff1a;The…

python合并数组输出重复项_python进行数组合并的方法

python的数组合并在算法题中用到特别多&#xff0c;这里简单总结一下&#xff1a;假设有a1和a2两个数组&#xff1a;a1[1,2,3]a2[4,5,6]合并方式1. 直接相加#合并后赋值给新数组a3a3 a1 a22. extend#调用此方法&#xff0c;a1会扩展成a1和a2的内容a1.extend(a2)3. 列表表达式…

mysql更新代码_mysql update语句的用法

1. 单表的UPDATE语句&#xff1a;UPDATE [LOW_PRIORITY] [IGNORE] tbl_nameSET col_name1expr1 [, col_name2expr2 ...][WHERE where_definition][ORDER BY ...][LIMIT row_count]2. 多表的UPDATE语句UPDATE [LOW_PRIORITY] [IGNORE] table_referencesSET col_name1expr1…

安装版mysql错误2_【gem安装】mysql2错误

错误信息Gem::Ext::BuildError: ERROR: Failed to build gem native extension./home/jaylin/.rvm/rubies/ruby-2.2.1/bin/ruby -r ./siteconf20150423-6190-1ocfncu.rb extconf.rbchecking for ruby/thread.h... yeschecking for rb_thread_call_without_gvl() in ruby/thread…