聚类(Clustering): K-means算法

聚类(Clustering): K-means算法

1.归类:
聚类(clustering)属于非监督学习(unsupervised learning)
无类别标记( class label)
在这里插入图片描述
3. K-means 算法:
3.1 Clustering 中的经典算法,数据挖掘十大经典算法之一
3.2 算法接受参数 k ;然后将事先输入的n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。(k表示数据要分的类别的数量,比如上图分为三种类型,则k=3)

 3.3 算法思想:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果3.4 算法描述:(1)适当选择c个类的初始中心;(2)在第k次迭代中,对任意一个样本,求其到c各中心的距离,将该样本归到距离最短的中心所在的类;(3)利用均值等方法更新该类的中心值;(4)对于所有的c个聚类中心,如果利用(2)(3)的迭代法更新后,值保持不变(停止时机)/或达到预定的次数/分类变化小于预定值,则迭代结束,否则继续迭代。

3.5 算法流程:

      输入:k, data[n];( k:分的类别数,data[n]:样本数据)(1) 选择k个初始中心点,例如c[0]=data[0],…c[k-1]=data[k-1];(通常用random随机挑选初始中心点)(2) 对于data[0]….data[n], 分别与c[0]…c[k-1]比较,假定与c[i]差值最少,就标记为i;(3) 对于所有标记为i点,重新计算c[i]={ 所有标记为i的data[j]之和}/标记为i的个数;(4) 重复(2)(3),直到所有c[i]值的变化小于给定阈值。

Euclidean Distance欧几里得距离即求向量之间的距离
概括:1.(随机)定义三个中心点.2.找最近的点3.用均值定义新的中心点.4.继续23步直到中心点保持不变/达到预定的次数/分类变化小于预定值

4.流程图:
在这里插入图片描述
示例:
在这里插入图片描述
在这里插入图片描述
用矩阵计算距离:(不用Euclidean Distance方式计算)
在这里插入图片描述
上标0表示第0次迭代,上面一行4个值分别表示与(1,1)的距离值
在这里插入图片描述
上下两排中,1表示对应位置的该点归为当前相同类,0则表示归为不同类
Group1的中心点不变(因为只有A一个点)
Group2的中心点为:(求均值)
在这里插入图片描述

重新划分类别:
在这里插入图片描述
此时B点被分类为group1:
在这里插入图片描述
再分类:
在这里插入图片描述
此时,分类相比上次已经没有变化了:
在这里插入图片描述
所以迭代停止
在这里插入图片描述
聚类算法优缺点:
优点:速度快,简单
缺点:最终结果跟初始点选择相关度很大,容易陷入局部最优,需直到k值

聚类(Clustering): K-means算法应用

Python中code实例应用:

import numpy as np# Function: K Means
# -------------
# K-Means is an algorithm that takes in a dataset and a constant
# k and returns k centroids (which define clusters of data in the
# dataset which are similar to one another).def kmeans(X,k,maxIt): '''X:数据集;k:分类个数;maxIt:设置的循环次数'''numPoints,numDim = X.shape #X(类型为numpy array),行数(也可以叫做点数)和列数(维度)dataSet = np.zeros((numPoints,numDim+1)) #注意这里有两组括号dataSet[:, :-1] = X #dataset中除了最后一列的值都用X的值替代'''array中直接使用等号这种赋值方法(“=”),必须两者维度相同,所以这里把最后一列除开在外,使两者维度相同'''# Initialize centroids randomly#随机生成初始中心点centroids = dataSet[np.random.randint(numPoints,size=k),:] #需要从所有行中选取k组作为中心点# centroids =dataSet[0:2,:]  ##表示自行选取前两个axis中两组点作为中心点,用来核算算法是否准确#Randomly assign labels to initial centoridcentroids[:,-1] = range(1,k+1) #将中心点分类为1,2,k~等若干类# Initialize book keeping vars. 记账:迭代次数iterations = 0oldCentroids = None #每一次迭代完新的中心点就要变成旧的中心点,后面用
# Run the main k-means algorithm
# 停止函数中的参数:
# oldCentroids: 旧的中心点 
# centroids:新的中心点,可以设置新旧相等时停止
# iterations: 记录循环多少次,可以用来设置到指定循环次数停止
# maxIt:循序循环的最大次数while not shouldStop(oldCentroids,centroids,iterations,maxIt):print('iterations:\n',iterations)print('dataSet:\n',dataSet)print('centroids:\n',centroids)# Save old centroids for convergence test. Book keepingoldCentroids = np.copy(centroids) #将新中心点变为就中心点,并且保留旧中心点的值,**使用np.copy**iterations += 1# Assign labels to each datapoint based on centroidsupdateLabels(dataSet,centroids) #调用更新label的函数centroids = getCentroids(dataSet,k) #获取中心点用于判断是否结束# We can also get the labels  by calling getLabels(dataSet, centroids)return dataSet# Function: Should Stop
# -------------
# Returns True or False if k-means is done. K-means terminates either
# because it has run a maximum number of iterations OR the centroids stop changing.
# 终止条件:迭代次数到达指定次数;或中心点不再变化
def shouldStop(oldCentroids,centroids,iterations,maxIt):if iterations>maxIt:return Truereturn np.array_equal(oldCentroids,centroids) #**使用np.array_equal判断两数组值是否相等**判断类型相同则用?def updateLabels(dataSet,centroids): #距离中心点最短则与中心点归为一类,归类的具体方法后面单独封包了函数numPoints,numDim = dataSet.shapefor i in range(numPoints):dataSet[i,-1] = getLabelFromClosestCentroids(dataSet[i,:-1],centroids)#需要参数:中心点和每一行的特征值#归类方法比较复杂,单独封包一个函数def getLabelFromClosestCentroids(dataRow,centroids): # dataSetRow:一行一个实例。中心点(K行,列数相同的矩阵) label = centroids[0,-1] #第0[]中的的倒数第一个值赋值给labelminDist = np.linalg.norm(dataRow - centroids[0,:-1])  #第一个距离就是最小值,dataRow?'''np.linalg.norm(X-Y):sqrt((x1-y1)^2+(x2-y2)^2),X=np.array([x1,x2]),Y=np.array([y1,y2]);可以理解为欧几里得distance求向量的距离'''#linalg=linear(线性)+algebra(代数),norm则表示范数for i in range(1,centroids.shape[0]+1): #+1?dist = np.linalg.norm(dataRow-centroids[i,:-1])if dist < minDist:minDist = distlabel = centroids[i,-1]print('minDist:',minDist)return label
# Function: Get Centroids
# -------------
# Returns k random centroids, each of dimension n.
def getCentroids(dataSet,k):result = np.zeros((k,dataSet.shape[1])) #两对括号 不然会报错 TypeError: data type not understoodfor i in range(1,k+1):oneCluster = dataSet[dataSet[:,-1]==i,:-1] #对于dataset每一行如果dataset最后一个值(即label)=i,则把它的特征值X赋值给oneCluster组成一个数组array'''相当于嵌套了一个if dataSet[:-1]==i语句'''# np.meamn,axis=0对array的行求均值,axis=1对array的列求均值result[i-1,:-1] = np.mean(oneCluster,axis=0) #求均值找中心点,result即新的中心点result[i-1,-1] = i #Label分类为ireturn resultx1 = np.array([1,1])
x2 = np.array([2,1])
x3 = np.array([4,3])
x4 = np.array([5,4])testX = np.vstack((x1,x2,x3,x4)) #按垂直方向堆叠构成一个新的数组,注意两对括号result = kmeans(testX,2,10)
print('final result:\n',result)#sklearn 中也可以调用kmeans算法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/469692.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

智慧交通day02-车流量检测实现12:基于yoloV3的目标检测

在本章节代码编写中&#xff0c;发现之前的代码所处的环境是python3&#xff0c;因此导致了cv2.dnn.readNetFromDarknet()在代码运行中导致了i[0]的获值失败&#xff0c;故总结如下&#xff1a; cv2.dnn.readNetFromDarknet()在python3上遇到的问题_李大狗的读研日记-CSDN博客…

cv2.dnn.readNetFromDarknet()在python3上遇到的问题

问题描述&#xff1a; 代码如下 net cv2.dnn.readNetFromDarknet(configPath,weightsPath) #获取YOLO每一层的名称 #getLayerNames&#xff08;&#xff09;&#xff1a;获取网络所有层的名称。 ln net.getLayerNames() # 获取输出层的名称: [yolo-82,yolo-94,yolo-106] # …

智慧交通day02-车流量检测实现13:基于虚拟线圈法的车辆统计+视频中的车流量统计原理解析

1.基于虚拟线圈法的车辆统计 基于虚拟线圈的车流量统计算法原理与交通道路上的常见的传统的物理线圈类似&#xff0c;由于物理线圈需要埋设在路面之下&#xff0c;因此会有安装、维护费用高&#xff0c;造成路面破坏等问题&#xff0c;而采用基于视频的虚拟线圈的车辆计数方法…

ubuntu 12.04 eclipse 安装

方法二&#xff1a;(优点是安装内容清爽&#xff0c;缺点是配置麻烦) 1、安装JDK&#xff0c;参考 Ubuntu 12.04 下安装 JDK 7 2、下载 Eclipse 从 http://www.eclipse.org/downloads/index-developer.php下载合适版本&#xff0c;如&#xff1a;Eclipse IDE for C/C Develope…

智慧交通day02-车流量检测实现14:代码汇总+问题修正

代码权重文件资源https://download.csdn.net/download/qq_39237205/43072746https://download.csdn.net/download/qq_39237205/43072746 环境要求&#xff1a;python2.7 环境配置&#xff1a;见文末requirements.txt 1.YOLO.py # encoding:utf-8 import imutils import tim…

从资源池和管理的角度理解物理内存

早就想搞一下内存问题了&#xff01;这次正趁着搞bigmemory内核&#xff0c;可以写一篇文章了。本文旨在记录&#xff0c;不包含细节&#xff0c;细节的话&#xff0c;google&#xff0c;百度均可&#xff0c;很多人已经写了不少了。我只是按照自己的理解记录一下内存的点点滴滴…

从头开始学一个android activity

一、类层次结构&#xff1a; 二、什么是Activity&#xff0c;如何理解Activity 1、 用户与应用程序的交互的接口 2、 控件的容器&#xff0c;我们要把控件摆放在这个容器中 三、如何创建一个Activity 新建一个类&#xff1a; 1、 继承Activity类 [java] view plaincopyprint…

python3 numpy中矩阵np.dot(a,b)乘法运算

python np.dot(a,b)乘法运算 首先我们知道矩阵运算是不满足交换律的&#xff0c;np.dot(a, b)与np.dot(b, a)是不一样的 另外np.dot(a,b)和a.dot(b)果是一样的 1.numpy中数组&#xff08;矩阵&#xff09;相乘np.dot(a,b)运算&#xff1a; 对于两数组a和b &#xff1a; 示例…

ML Backpropagation算法的计算过程举例

Backpropagation计算过程举例 初始权重(initialize weights)是随机产生的(如-1~1之间) 初始化可以选择均值为0&#xff0c;方差为1/n_in的正态分布&#xff0c;n_in为输入的实例个数&#xff0c;Python中可使用np.random.normal函数来初始化权重&#xff1a; np.random.normal…

Python基础知识__字符串

字符串介绍 一. 认识字符串 字符串是 Python 中最常用的数据类型。我们一般使用引号来创建字符串。创建字符串很简单&#xff0c;只要为变量分配一个值即可。 a hello world b "abcdefg" print(type(a)) print(type(b)) 注意&#xff1a;控制台显示结果为<cl…

智慧交通day03-车道线检测实现01:车道线检测概述

项目简介 汽车的日益普及在给人们带来极大便利的同时&#xff0c;也导致了拥堵的交通路况&#xff0c;以及更为频发的交通事故。而自动驾驶技术的出现可以有效的缓解了此类问题&#xff0c;减少交通事故&#xff0c;提升出行效率。 国内外检测车道线的方法主要有两类&#xf…

vsphere平台windows虚拟机克隆的小插曲(无法登陆系统)

问题&#xff1a; 1、克隆完windows虚拟化后输入法乱码。 2、开启远程的情况下远程登录输入正确的密码也无法登录。 解决&#xff1a; 1、更改管理员用户密码&#xff08;不输入原win7密码更改win7密码&#xff09;。 2、重新启用管理员。 3、重启系统 不输入当前密码改win密码…

智慧交通day03-车道线检测实现02-1:相机校正

1. 相机标定的意义 我们所处的世界是三维的&#xff0c;而照片是二维的&#xff0c;我们可以把相机认为是一个函数&#xff0c;输入量是一个场景&#xff0c;输出量是一幅灰度图。这个从三维到二维的过程的函数是不可逆的。 相机标定的一个目的是要找一个合适的数学模型&#…

把输入字符的小写转换成大写并输出

#include <stdio.h> #include <stdlib.h> #include <string.h> /******************************* *把小写字母转成大写字母 ********************************/ int main(void) { char *srcNULL;unsigned char i0;char *new_1NULL;char *new_2NULL;char *dN…

nginx服务无法启动,启动时报错1067以外终止

解决方法&#xff1a; 首先cmd命令打开&#xff0c;输入nginx -t测试配置文件是否能运行OK&#xff0c;如果报错bind() to 0.0.0.0:80 failed (10013: An attempt was made to access a …) 则说明配置文件中的端口0.0.0.0:80被占用 可使用下面两种方法解决&#xff1a; cmd输…

智慧交通day03-车道线检测实现02-2:张氏标定法+双目标定

6.张氏标定法 张氏标定法是张正友博士在1999年发表在国际顶级会议ICCV上的论文《Flexible Camera Calibration By Viewing a Plane From Unknown Orientations》中&#xff0c;提出的一种利用平面棋盘格进行相机标定的实用方法。 该方法介于传统标定法和自标定法之间&#xff…

指针的基本操作(10.1 Basic Pointer Operations)

[This section corresponds to K&R Sec. 5.1] The first things to do with pointers are to declare a pointer variable, set it to point somewhere, and finally manipulate the value that it points to. A simple pointer declaration looks like this: 对指针的第…

HTML animate()动画更改多个元素背景颜色但不同时生效问题

问题&#xff1a; 我想点击按钮时把页面中的body颜色和button中颜色【同时】改变 这个时候出现了body颜色先变化&#xff0c;而button颜色后变化&#xff0c;似乎是因为我的代码是这样有先后顺序的&#xff1a; $("html,body").animate({backgroundColor:BGC[rando…

plt.axis()用法详解

plt.axis(‘square’) 作图为正方形&#xff0c;并且x,y轴范围相同&#xff0c;即y m a x − y m i n x m a x − x m i n y_{max}-y_{min} x_{max}-x_{min}y plt.axis(‘equal’) x,y轴刻度等长 plt.axis(‘off’) 关闭坐标轴 官网上也贴出了其他的一些选项 plt.axis([a,…

struts2学习笔记之十一:struts2的类型转换器

Struts2的类型转换器如何实现Struts2的类型转换器&#xff1f;* 继承StrutsTypeConverter* 覆盖convertFromString和convertToString注册类型转换器* 局部类型转换器&#xff0c;局部类型转换器只对当前Action起作用&#xff0c;需要提供如下配置文件&#xff1a;MyActionName-…