聚类分析 - K-means - Python代码实现

算法简介

K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。

算法过程如下:

1)从N个文档随机选取K个文档作为中心点;

2)对剩余的每个文档测量其到每个中心点的距离,并把它归到最近的质心的类;

3)重新计算已经得到的各个类的中心点;

4)迭代2~3步直至新的质心与原质心相等或小于指定阈值,算法结束。

 

算法优缺点:

优点:

  1. 对处理大数据集,该算法保持可伸缩性和高效性
  2. 算法快速、简单,易于理解;

缺点:

  1. 在 K-means 算法中 K 是事先给定的,这个 K 值的选定是非常难以估计的,具体应用中只能靠经验选取;
  2. 对噪声和孤立点数据敏感,导致均值偏离严重;
  3. 当数据量非常大时,算法的时间开销是非常大的;
  4. 初始聚类中心的选择对聚类结果有较大的影响,一旦初始值选择的不好,可能无法得到有效的聚类结果。

代码实现

第一步:读取文件,简单查看数据

import pandas as pd
import numpy as np
from pandas import DataFrame,Series
from sklearn.cluster import KMeans
from sklearn.cluster import Birch#读取文件
datafile = u'E:\\pythondata\\julei.xlsx'#文件所在位置,u为防止路径中有中文名称,此处没有,可以省略
outfile = u'E:\\pythondata\\julei_out.xlsx'#设置输出文件的位置
data = pd.read_excel(datafile)#datafile是excel文件,所以用read_excel,如果是csv文件则用read_csv
d = DataFrame(data)
d.head()
 assistsheighttimeagepoints
00.088820136.02280.5885
10.139919839.32300.8291
20.074719838.80260.4974
30.098319140.71300.5772
40.127619638.40280.5703

 列名:助攻,身高,比赛时间,年龄,得分,根据这几项进行聚类。

 

第二步:聚类

#聚类
mod = KMeans(n_clusters=3, n_jobs = 4, max_iter = 500)#聚成3类数据,并发数为4,最大循环次数为500
mod.fit_predict(d)#y_pred表示聚类的结果#聚成3类数据,统计每个聚类下的数据量,并且求出他们的中心
r1 = pd.Series(mod.labels_).value_counts()
r2 = pd.DataFrame(mod.cluster_centers_)
r = pd.concat([r2, r1], axis = 1)
r.columns = list(d.columns) + [u'类别数目']
print(r)#给每一条数据标注上被分为哪一类
r = pd.concat([d, pd.Series(mod.labels_, index = d.index)], axis = 1)
r.columns = list(d.columns) + [u'聚类类别']
print(r.head())
r.to_excel(outfile)#如果需要保存到本地,就写上这一列

 

第三步:可视化,简单的标注上分为哪一类怎么能满足?当然要看看可视化效果,毕竟注意一目了然的判断聚类的效果

#可视化过程
from sklearn.manifold import TSNEts = TSNE()
ts.fit_transform(r)
ts = pd.DataFrame(ts.embedding_, index = r.index)import matplotlib.pyplot as plta = ts[r[u'聚类类别'] == 0]
plt.plot(a[0], a[1], 'r.')
a = ts[r[u'聚类类别'] == 1]
plt.plot(a[0], a[1], 'go')
a = ts[r[u'聚类类别'] == 2]
plt.plot(a[0], a[1], 'b*')
plt.show()

因为K-means 算法过于大众化,而且代码其实比较简单的,所以备注比较少,如果需要备注或者有任何疑问,欢迎留言。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/475576.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

安装“消息队列 (MSMQ)”

在 Windows Server 2008 or Windows Server 2008 R2 上安装消息队列 4 在服务器管理器中,单击“功能”。 在“功能摘要”下的右窗格中,单击“添加功能”。 在生成的窗口中,展开“消息队列”。 展开“消息队列服务”。 单击“目录服务集成…

数据归一化 - MinMaxScaler()/MaxAbsScaler() - Python代码

目录 归一化 数据归一化的背景介绍 MinMaxScaler:归一到 [ 0,1 ] MaxAbsScaler:归一到 [ -1,1 ] 标准化 去均值,方差规模化 归一化 数据归一化的背景介绍 在之前做聚类分析的时候我们发现,聚类的…

LeetCode 673. 最长递增子序列的个数(DP)

1. 题目 给定一个未排序的整数数组,找到最长递增子序列的个数。 示例 1: 输入: [1,3,5,4,7] 输出: 2 解释: 有两个最长递增子序列,分别是 [1, 3, 4, 7] 和[1, 3, 5, 7]。示例 2: 输入: [2,2,2,2,2] 输出: 5 解释: 最长递增子序列的长度是1,…

loadrunner 配置远程监控windows服务器系统资源

今天决定监控远程windows xp上的系统资源,本来以为应该很好连接,在同一个局域网内,结果出了一堆问题,可能是第一次就让我遇到了一个棘手的操作系统,郁闷! (1)保证装有loadrunner的测…

Python数据清洗 - 洗什么?怎么洗?看完就明白了

目录 缺失值处理 删除缺失值 插补缺失值 不处理缺失值 重复值处理 异常值处理 遍历查找异常值,并根据规则调整大小 删除异常值 视为缺失值后进行插补 数据挖掘过程中,采集的原始数据里存在着各种不利于分析与建模工作的因素,比如数…

LeetCode 1090. 受标签影响的最大值(优先队列)

1. 题目 我们有一个项的集合&#xff0c;其中第 i 项的值为 values[i]&#xff0c;标签为 labels[i]。 我们从这些项中选出一个子集 S&#xff0c;这样一来&#xff1a; |S| < num_wanted对于任意的标签 L&#xff0c;子集 S 中标签为 L 的项的数目总满足 < use_limit…

PHP中的get_defined_funciton和get_defined_vars

1 <?php 2 $zongzi "adfasdf"; 3 //将$zongzi作为数组的key,adfasdf作为数组的值返回 4 $val (get_defined_vars()); 5 echo $val[zongzi]; 6 7 8 function zongzi(){ 9 echo "adfads";10 }11 1…

合并数据 - 合并多个Excel文件并转成CSV - Python代码

在工作中&#xff0c;有时候因为部门间的数据权限问题&#xff0c;推送数据的时候往往是通过邮件完成&#xff0c;对于量大的数据&#xff0c;往往会拆成很多个excel发送&#xff0c;到下一个部门导入数据库之前&#xff0c;总是需要先将所有excel合成一个excel&#xff0c;再导…

LeetCode 524. 通过删除字母匹配到字典里最长单词(双指针)

1. 题目 给定一个字符串和一个字符串字典&#xff0c;找到字典里面最长的字符串&#xff0c;该字符串可以通过删除给定字符串的某些字符来得到。 如果答案不止一个&#xff0c;返回长度最长且字典顺序最小的字符串。如果答案不存在&#xff0c;则返回空字符串。 示例 1: 输入…

poj 3748 位操作

#include<iostream> //位运算using namespace std;int main(){int r,x,y; scanf("%x,%d,%d",&r,&x,&y); rr&(~(1<<x)); rr|(1<<y); rr|(1<<(y-1)); rr&(~(1<<(y-2))); printf("%x\…

Python - Excel文件与CSV文件相互转化

Excel文件转化成CSV - pandas #excel文件转化成csv import pandas as pdfileE:\\pythondata\\union\\test_3.xlsx outfileE:\\pythondata\\union\\test_3.csvdef xlsx_to_csv_pd():data_xls pd.read_excel(file, index_col0)data_xls.to_csv(outfile, encodingutf-8)if __nam…

LeetCode 743. 网络延迟时间(最短路径)

文章目录1. 题目2. 解题2.1 弗洛伊德1. 题目 有 N 个网络节点&#xff0c;标记为 1 到 N。 给定一个列表 times&#xff0c;表示信号经过有向边的传递时间。 times[i] (u, v, w)&#xff0c;其中 u 是源节点&#xff0c;v 是目标节点&#xff0c; w 是一个信号从源节点传递到…

SQL Server T-SQL高级查询

SQL Server T-SQL高级查询&#xff08;转&#xff09; 高级查询在数据库中用得是最频繁的&#xff0c;也是应用最广泛的。 基本常用查询 --select select * from student; --all 查询所有 select all sex from student; --distinct 过滤重复 select distinct sex from student…

逻辑回归 - sklearn (LR、LRCV、MLP、RLR)- Python代码实现

目录 LR&#xff08;LogisticRegression&#xff09; - 线性回归 LRCV&#xff08;LogisticRegressionCV &#xff09;- 逻辑回归 MLP&#xff08;MLPRegressor&#xff09; - 人工神经网络 RLR&#xff08;RandomizedLogisticRegression&#xff09;-随机逻辑回归 logisti…

LeetCode 810. 黑板异或游戏(博弈推理)

1. 题目 一个黑板上写着一个非负整数数组 nums[i] 。 小红和小明轮流从黑板上擦掉一个数字&#xff0c;小红先手。 如果擦除一个数字后&#xff0c;剩余的所有数字按位异或运算得出的结果等于 0 的话&#xff0c;当前玩家游戏失败。 (另外&#xff0c;如果只剩一个数字&#x…

[Socket]BSD socket简易入门

介绍 当你进入 UNIX 的神秘世界后&#xff0c;立刻会发现越来越多的东西难以理解。对于大多数人来说&#xff0c;BSD socket 的概念就是其中一个。这是一个很短的教程来解释他们是什么、他们如何工作并给出一些简单的代码来解释如何使用他们。 类比 (什么是 socket &#xff1f…

轻松看懂机器学习十大常用算法 - 基础知识

通过本篇文章可以对机器学习ML的常用算法有个常识性的认识&#xff0c;没有代码&#xff0c;没有复杂的理论推导&#xff0c;就是图解一下&#xff0c;知道这些算法是什么&#xff0c;它们是怎么应用的&#xff0c;例子主要是分类问题。 算法如下&#xff1a; 决策树随机森林算…

LeetCode 68. 文本左右对齐(字符串逻辑题)

1. 题目 给定一个单词数组和一个长度 maxWidth&#xff0c;重新排版单词&#xff0c;使其成为每行恰好有 maxWidth 个字符&#xff0c;且左右两端对齐的文本。 你应该使用“贪心算法”来放置给定的单词&#xff1b;也就是说&#xff0c;尽可能多地往每行中放置单词。必要时可…

VBA之六--EXCEL VBA两则

函数作用:自动获取指定月的工作日 ################################################################Sub 自动填充工作日(month1 As Integer)获取指定月份天数Dim days As IntegerDim xdate As Datexdate CDate("2008-" CStr(month1))初始化公共变量Col2的值col2…

数据离散化 - 等宽等频聚类离散 - Python代码

目录 等宽离散 等频离散 聚类离散 附录&#xff1a; rolling_mean函数解释 cut函数解释 其他数据预处理方法 一些数据挖掘算法中&#xff0c;特别是某些分类算法&#xff08;eg:ID3算法、Aprioroi算法等&#xff09;&#xff0c;要求数据是分类属性形式。因此常常需要将…