K-Means算法Demo

简介:本Demo是参照这个网站上的Demo自己用Java实现的。将Java打包为Jar,再将Jar转为exe,源代码及程序Demo下载请点我。

K-Means算法简介

  我尽量用通俗易懂但不规范的语言来描述K-Means算法。

  K-Means算法是数据挖掘十大算法之一,是一种聚类算法,也是最简单的无监督学习(unsupervised learning算法之一。

  假设有一个元素集合,我们的目标是将该集合中的元素划分成K个簇(就是K个部分),每个簇内的元素相似度较高,不同簇的元素相似度较低(正所谓物以类聚,人以群分)。

  而K-Means算法就是实现这样一个目标的算法。

  先看Demo,会有直观的了解。

K-Means算法步骤

  因为要做可视化界面,所以我们现在只讨论二维的情况,即每个元素用2个数表示。

  假如我们的元素集合是平面上的N个点,计算相似度用的是两点之间的欧氏距离(当然也可以使用其他距离公式,相关距离公式见下部分),两点距离越短则表示相似度越高。那么算法步骤大概是这个样子:

  Step 1. 随机产生K个点,作为K个簇的中心(注意K<=N

  Step 2. N个点中的每一个点,计算该点离哪个中心最近,离哪个中心最近就属于哪个簇。  

  Step 3. 更新每个簇的中心(取簇中的元素的坐标的均值)

  Step 4. 重复Step2Step3直到所有簇的中心不再改变。

Java实现代码(带图形界面)

import java.awt.*;
import java.awt.event.*;
import javax.swing.*;
import javax.swing.JFrame;
import javax.swing.JPanel;
import java.util.Random;
import java.applet.*;class PaintovalPane extends JPanel
{/*K-Means*/int K = 5;        //K个中心int N = 50;        //N个点int D = 2;        //二维元素
Random rand = new Random();class Point{            Point(){initial();}void initial(){/*初始化为[0,600)的随机点,簇编号为-1,无意义*/for (int i = 0; i < D; ++i)x[i] = rand.nextDouble()*600;clusterNum = -1;}double x[] = new double[D];    //坐标int clusterNum;                //簇编号
    };Point p[];                //数据点Point centroid[];        //中心点Point oldCentroid[];    //上一次的中心点,用于确定中心点是否不再改变Color colors[];            //表示不同簇的颜色值/*欧式距离*/double Euclidean(Point p1, Point p2){double dis = 0;for (int i = 0; i < D; ++i)dis += (p1.x[i]-p2.x[i])*(p1.x[i]-p2.x[i]);return Math.sqrt(dis);}/*更新中心点*/void updateCentroid(int clusterNum){    for (int i = 0; i < D; ++i)centroid[clusterNum].x[i] = 0;int clusterSize = 0;for (int i = 0; i < N; ++i)if (p[i].clusterNum == clusterNum){clusterSize++;for (int j = 0; j < D; ++j)centroid[clusterNum].x[j] += p[i].x[j];}if (clusterSize == 0)return;for (int i = 0; i < D; ++i)centroid[clusterNum].x[i] /= (double)clusterSize;}/*更新中心点的接口函数*/void updateCentroids(){for (int i = 0; i < K; ++i)updateCentroid(i);}/*分配数据点到哪个簇*/void assignPoint(int x){double minDis = 99999999;int minIndex = 1;for (int i = 0; i < K; ++i){double curDis = Euclidean(p[x], centroid[i]);if (curDis < minDis){minDis = curDis;minIndex = i;}}p[x].clusterNum = minIndex;}/*分配数据点到哪个簇的接口函数*/void assign(){for (int i = 0; i < N; ++i)assignPoint(i);}/*判断2点是否同一个点*/Boolean samePoint(Point p1, Point p2){if (p1.clusterNum != p2.clusterNum)return false;for (int i = 0; i < D; ++i)if (p1.x[i] != p2.x[i])return false;return true;}/*判断算法是否终止*/Boolean stop(){/*如果每一个中心点都与上一次的中心点相同,则算法终止,否则更新oldCentroid*/for (int i = 0; i < K; ++i)if (!samePoint(oldCentroid[i], centroid[i]))    {for (int j = 0; j < K; ++j)copy(oldCentroid[j],centroid[j]);return false;}return true;}/*令p1 = p2*/void copy(Point p1, Point p2){p1.clusterNum = p2.clusterNum;for (int i = 0; i < D; ++i)p1.x[i] = p2.x[i];}/*初始化*/void init(){/*分配内存*/p = new Point[N];    centroid = new Point[K];oldCentroid = new Point[K];colors = new Color[K];for (int i = 0; i < N; ++i){p[i] = new Point();p[i].initial();}for (int i = 0; i < K; ++i){centroid[i] = new Point();oldCentroid[i] = new Point();centroid[i].initial();oldCentroid[i].initial();copy(oldCentroid[i],centroid[i]);colors[i] = new Color(rand.nextInt(255), rand.nextInt(255), rand.nextInt(255));}}/*默认构造函数,调用初始化函数*/PaintovalPane(){init();}/*重载绘图函数*/public void paintComponent(Graphics g){super.paintComponent(g);setBackground(Color.white);/*画数据点(圆形),根据簇编号来确定颜色*/for (int i = 0; i < N; ++i){int x = (int)p[i].x[0], y = (int)p[i].x[1];if (p[i].clusterNum == -1)g.setColor(Color.black);elseg.setColor(colors[p[i].clusterNum]);g.fillOval(x, y, 15, 15);}/*画中心点(矩形),根据簇编号来确定颜色*/for (int i = 0; i < K; ++i) {int x = (int)centroid[i].x[0], y = (int)centroid[i].x[1];g.setColor(colors[i]);g.fillRect(x, y, 15, 15);}}
}class Drawing extends JFrame
{/*声明一系列组件*/JButton jButton1 = new JButton("Start");JButton jButton2 = new JButton("Step");JButton jButton3 = new JButton("Run");JLabel label1 = new JLabel("Points");JLabel label2 = new JLabel("Clusters");JTextField textField1 = new JTextField("This is buffer for text", 15);JTextField textField2 = new JTextField("This is buffer for text", 15);JPanel jPanel = new JPanel();PaintovalPane paint = new PaintovalPane();Drawing(){setTitle("K-Means");setVisible(true);setDefaultCloseOperation(EXIT_ON_CLOSE);setSize (660,710);textField1.setText(String.valueOf(paint.N));textField2.setText(String.valueOf(paint.K));/*Start按钮的监听器*/jButton1.addActionListener(new ActionListener(){public void actionPerformed(ActionEvent ae) {int input1 = Integer.parseInt(textField1.getText());int input2 = Integer.parseInt(textField2.getText());/*判断输入是否合法*/if (input1 > 500 || input1 <= 0){JOptionPane.showMessageDialog(null, "Please input the number between 1-500");}else if (input2 > input1 || input2 <= 0){JOptionPane.showMessageDialog(null, "Please input the number between 1-Points");}else{paint.N = input1;paint.K = input2;paint.init();paint.repaint();jButton2.setText("Step");jButton2.setEnabled(true);jButton3.setText("Run");jButton3.setEnabled(true);}}});/*Step按钮的监听器*/jButton2.addActionListener(new ActionListener(){public void actionPerformed(ActionEvent ae) {paint.assign();paint.updateCentroids();/*算法终止的话让按钮变灰并提示算法结束*/if (paint.stop()){jButton2.setText("End");jButton2.setEnabled(false);jButton3.setText("End");jButton3.setEnabled(false);}paint.repaint();}});/*Run按钮的监听器*/jButton3.addActionListener(new ActionListener(){public void actionPerformed(ActionEvent ae) {do{paint.assign();paint.updateCentroids();paint.repaint();}while(!paint.stop());/*算法终止的话让按钮变灰并提示算法结束*/jButton2.setText("End");jButton2.setEnabled(false);jButton3.setText("End");jButton3.setEnabled(false);}});jPanel.add(label1);jPanel.add(textField1);jPanel.add(label2);jPanel.add(textField2);jPanel.add(jButton1);jPanel.add(jButton2);jPanel.add(jButton3);jPanel.setBackground(new Color(1,255,1));add(BorderLayout.NORTH,jPanel);add(BorderLayout.CENTER, paint);}
}public class Hello extends Applet
{public static void main(String args[]){Drawing d = new Drawing();}
}
View Code

C++实现代码

#include <iostream>
#include <cmath>
#include <ctime>
#include <cstdlib>
using namespace std;#define K 10    //簇数 
#define N 200    //点数
#define D 2        //维数/*产生0-100的随机数*/
double random()
{    return 100*(double)rand()/(double)RAND_MAX;
} class Point
{public:Point(){for (int i = 0; i < D; ++i)x[i] = random();clusterNum = -1;}double x[D];    //坐标int clusterNum;    //所属簇的编号 
};Point p[N];
Point centroid[K];
Point oldCentroid[K];/*欧式距离*/
double Euclidean(Point p1, Point p2)
{double dis = 0;for (int i = 0; i < D; ++i)dis += (p1.x[i]-p2.x[i])*(p1.x[i]-p2.x[i]);return sqrt(dis);
}/*重新计算编号为clusterNum的簇的重心*/
void updateCentroid(int clusterNum)
{    for (int i = 0; i < D; ++i)centroid[clusterNum].x[i] = 0;int clusterSize = 0;for (int i = 0; i < N; ++i)if (p[i].clusterNum == clusterNum){clusterSize++;for (int j = 0; j < D; ++j)centroid[clusterNum].x[j] += p[i].x[j];}if (clusterSize == 0)return;for (int i = 0; i < D; ++i)centroid[clusterNum].x[i] /= (double)clusterSize;
}void updateCentroids()
{for (int i = 0; i < K; ++i)updateCentroid(i);
}
/*计算某点属于哪一簇*/
void assignPoint(Point &point)
{double minDis = INT_MAX;int minIndex = 1;for (int i = 0; i < K; ++i){double curDis = Euclidean(point, centroid[i]);if (curDis < minDis)minDis = curDis, minIndex = i;}point.clusterNum = minIndex;
}void assign()
{for (int i = 0; i < N; ++i)assignPoint(p[i]);
}
/*比较是否相同的两个点,注意double的比较有时候可能出现问题*/
bool samePoint(Point p1, Point p2)
{if (p1.clusterNum != p2.clusterNum)return false;for (int i = 0; i < D; ++i)if (p1.x[i] != p2.x[i])return false;return true;
}/*判断重心是否不变,若重心不再变化,算法终止*/ 
bool stop()
{for (int i = 0; i < K; ++i)if (!samePoint(oldCentroid[i], centroid[i]))    //若算法未停止,则更新oldCentroid 
        {for (int j = 0; j < K; ++j)oldCentroid[j] = centroid[j];return false;}return true;
}void init()
{srand(time(0));/*如果类内成员是基本类型,则默认的operator=可以完成简单的赋值功能*/for (int i = 0; i < K; ++i)oldCentroid[i] = centroid[i];
}int main()
{init();do{assign();updateCentroids();}while(!stop());    
}
View Code

ps.一点收获,C++中,自定义类提供的默认operator=是可以完成基本数据类型的赋值的,但是Java的operator=并不是简单赋值,而是=左边的类变成=右边的类引用。

程序效果

  按下Start

  按下Step

  按下Run

Java程序转为exe

  为了能够让Java程序到处跑(不是每个电脑都装有Java虚拟机的),决定将Java程序转为exe

  步骤如下:

  1、将.java编译为.class

进入cmd,cd切换到.java文件目录下,执行javac Hello.java,产生Hello.class

  2、将相关的.class打包为一个.jar文件

  继续在当前目录下,执行jar cvf Hello.jar *.class,产生Hello.jar

  注意,此时Hello.jar是不能直接执行的,因为缺少入口函数。我们用360压缩打开Hello.jar,可以看到有一个META-INF文件夹,里面有一个MANIFEST.MF文件,用笔记本打开,在最后面添加Main-Class: Hello。(注意1,Hello是我自己的入口函数所在的类;注意2,Main-Class:后面有空格)。这个时候.jar文件应该可以用java虚拟机执行了。

  3、利用软件j2ewiz.exe or click me .jar文件转为.exe

距离公式

  1Minkowski Distance(闵可夫斯基距离)——λ可取任意值,可以是负数,也可以是正数,或是无穷大。

  2Euclidean Distance(欧氏距离)——也就是第一个公式λ=2的情况,高中学过的最基本的平面上两点的距离公式。

 

  3CityBlock Distance(曼哈顿距离)——也就是第一个公式λ=1的情况。

 

  如下图,绿色代表欧氏距离,也就是直线距离;而红色、蓝色和黄色代表等价的曼哈顿距离。

参考资料

算法杂货铺——k均值聚类(K-means)

K-Means算法Demo

曼哈顿距离

斯坦福公开课

java如何打JAR包

转载于:https://www.cnblogs.com/chenyg32/p/3793207.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/359795.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

php 时间周期,php 的生命周期

1、PHP的运行模式&#xff1a;PHP两种运行模式是WEB模式、CLI模式。无论哪种模式&#xff0c;PHP工作原理都是一样的&#xff0c;作为一种SAPI运行。1、当我们在终端敲入php这个命令的时候&#xff0c;它使用的是CLI。它就像一个web服务器一样来支持php完成这个请求&#xff0c…

struts2与struts1整合,java.lang.NoClassDefFoundError: org/apache/commons/logging/LogFactory

原因&#xff1a;我往项目的WEB-INF/lib中导入了struts2基本的包&#xff0c;还有struts1的core包&#xff0c;以及struts2-strut1-plugin的包&#xff0c;但是没有导入commons-loggin-1.3.1这个包&#xff0c;如下图 我打开commons-loggin-1.3.1这个包看了一下&#xff0c;果然…

debian 查看php版本,Debian 下轻松实现 PHP 多版本共存

PHP7 的发布废弃了部分特性&#xff0c;一些程序或者插件当前不能很好的运行在 PHP7 上&#xff0c;因此如果服务器上能同时运行多个 PHP 的版本&#xff0c;就可以很好的解决过渡期的兼容性问题。在前面两篇文章中&#xff0c;我们介绍了如何在 Debian Stretch 中安装使用 PHP…

apache lucene_全文搜索Apache Lucene简介

apache lucene在本教程中&#xff0c;我想谈谈Apache Lucene 。 Lucene是一个开源项目&#xff0c;提供基于Java的索引和搜索技术。 使用其API&#xff0c;很容易实现全文搜索 。 我将处理Lucene Java版本 &#xff0c;但请记住&#xff0c;还有一个名为Lucene.NET的.NET端口&a…

经典ICP算法的问题

最近可能要用三维点云实现一个三维场景重建的功能&#xff0c;从经典的ICP算法开始&#xff0c;啃了一些文档&#xff0c;对其原理也是一知半解。 迭代最近点算法综述 大致参考了这份文档之后&#xff0c;照流程用MATLAB实现了一个简单的ICP算法&#xff0c;首先是发现这份文档…

iOS执行时工具-cycript

cycript是大神saurik开发的一个很强大的工具&#xff0c;能够让开发人员在命令行下和应用交互&#xff0c;在执行时查看和改动应用。它确实能够帮助你破解一些应用&#xff0c;但我认为这个工具主要还是用来学习其它应用的设计&#xff08;主要是UI的设计及实现&#xff09;。 …

java是如何实现原语的_Java中的低GC:使用原语而不是包装器

java是如何实现原语的总览 有两个很好的理由在可能的地方使用原语而不是包装器。 明晰。 通过使用原语&#xff0c;您可以清楚地知道null值是不合适的。 性能。 使用原语通常更快。 清晰度通常比性能更重要&#xff0c;并且是使用它们的最佳理由。 但是&#xff0c;本文讨论…

BrnShop开源网上商城第二讲:ASP.NET MVC框架

BrnShop开源网上商城第二讲&#xff1a;ASP.NET MVC框架 原文:BrnShop开源网上商城第二讲&#xff1a;ASP.NET MVC框架在团队设计BrnShop的web项目之初&#xff0c;我们碰到了两个问题&#xff0c;第一个是数据的复用和传递&#xff0c;第二个是大mvc框架和小mvc框架的选择。下…

tomcat不停机部署_Tomcat中的零停机部署(和回滚); 演练和清单

tomcat不停机部署亲爱的大家&#xff0c; 如果您认为Tomcat不能再进步&#xff0c;那您就错了。 Tomcat 7引入了所谓的并行部署 。 这是由SpringSource / VMWare贡献的。 简而言之&#xff0c;并行部署是指能够并行部署一个以上版本的Web应用程序&#xff0c;从而使所有版本都…

matlab三维选取二维,基于Matlab绘制二维和三维图形以及其他图形控制函数的使用方法...

Matlab绘图强大的绘图功能是Matlab的特点之一&#xff0c;Matlab提供了一系列的绘图函数&#xff0c;用户不需要过多的考虑绘图的细节&#xff0c;只需要给出一些基本参数就能得到所需图形&#xff0c;这类函数称为高层绘图函数。此外&#xff0c;Matlab还提供了直接对图形句柄…

Console命令详解,让调试js代码变得更简单

刚刚在浏览关于js方面的博客时发现这个方法挺好玩的&#xff0c;自己爽了一把。 1 <script> 2 console.time(/X(.)X/ test); 3 "XX".match(/X(.)X/); 4 console.timeEnd(/X(.)X/ test); 5 </script> 然后恶补了一下关于Firebug控制台的知识。熟练地使用…

PHP求体重成绩函数,PHP数组

数组提出一个问题&#xff1a;一个养鸡场有6只鸡&#xff0c;他们的体重分别为3kg&#xff0c;5kg&#xff0c;1k个&#xff0c;3.4kg&#xff0c;2kg&#xff0c;6.kg请问这六只鸡的总体重是多少平均体重是多少请你用现在掌握的技术编一个程序现在我们使用现有的技术来解决问题…

k8s secret使用_Java Secret:使用枚举构建状态机

k8s secret使用总览 Java中的枚举比许多其他语言更强大&#xff0c;可以导致令人惊讶的用途。 在本文中&#xff0c;我概述了Java 枚举的一些单独功能&#xff0c;并将它们放在一起形成一个状态机。 单例和实用程序类的枚举 您可以非常简单地将枚举用作Singleton或Utility。…

mydumper备份原理和使用方法

mydumper介绍 MySQL自身的mysqldump工具支持单线程工作&#xff0c;依次一个个导出多个表&#xff0c;没有一个并行的机&#xff0c;这就使得它无法迅速的备份数据。 mydumper作为一个实用工具&#xff0c;能够良好支持多线程工作&#xff0c;可以并行的多线程的从表中读入数据…

matlab pca可视化,利用Matlab实现PCA demo展示

input_data rand(1000,3);%随机生成1000个样本&#xff0c;每个样本有x,y,z三个属性 figure(1);%控制画图的窗口为1hold off;%使当前轴和图形不再具备被刷新的性质&#xff0c;关闭在此基础上再画图plot3(input_data(:,1), input_data(:,2), input_data(:,3), ‘ro‘);%% Func…

matlab短均线滞后项,均线理论的滞后性问题

对移动平均线有一定了解的人都会发现移动平均线理论存在一个缺点&#xff0c;那就是移动平均线的信号具有一定的滞后性&#xff0c;这是制约移动平均线运用的最大因素。介绍了均线的计算方法.从它的计算方法中也能看出目前均线的数值要受到前一阶段股价的影响&#xff0c;而且均…

python捕获摄像头帧_Xuggler教程:帧捕获和视频创建

python捕获摄像头帧注意&#xff1a;这是我们的“ Xuggler开发教程 ”系列的一部分。 到目前为止&#xff0c;在我们的Xuggler教程系列中&#xff0c;我们已经对视频处理的Xuggler进行了介绍&#xff0c;并讨论了转码和媒体修改 。 在本教程中&#xff0c;我们将看到如何解码视…

MyEclipse 编写 ExtJS 卡死问题解决方法

MyEclipse 8.6 在 jsp 中编写 ExtJS时&#xff0c;会出现卡死现象&#xff0c;让人甚是头疼。网上找了很多方法&#xff0c;折腾半天&#xff0c;还是不管用。 什么MyEclipse 优化&#xff0c;Validation 取消&#xff0c;MyEclipse 在 JSP 中打 "点" 时&#xff0…

java的aqs是什么,AQS在Java中的应用

上篇文章我们详细分析了AQS的底层实现原理,这节就来探索jdk中使用AQS实现的工具类ReentrantLock一, 是什么?怎么用?是什么?是一个独占锁,也就是在并发环境下同一时刻只能有一个线程获得资源,也是一个可重入锁.可重入锁: 一个线程已经获取到了该资源,下次再次获取资源时不会出…

php怎么把字符转成大写,php怎么把字符串转换为大写

php把字符串转换为大写的方法&#xff1a;可以利用内置函数strtoupper()来进行转换。strtoupper()函数可以把指定的字符串转换为大写&#xff0c;并返回被转换为大写的字符串。使用函数&#xff1a;(学习视频推荐&#xff1a;php视频教程)strtoupper() 函数把字符串转换为大写&…