dbscan java_DBSCAN算法的Java,C++,Python实现

最近由于要实现‘基于网格的DBSCAN算法’,网上有没有找到现成的代码[如果您有代码,麻烦联系我],只好参考已有的DBSCAN算法的实现。先从网上随便找了几篇放这儿,之后对比研究。

DBSCAN简介:

1.简介

DBSCAN 算法是一种基于密度的空间聚类算法。该算法利用基于密度的聚类的概念,即要求聚类空间中的一定区域内所包含对象(点或其它空间对象)的数目不小于某一给定阀   值。DBSCAN 算法的显著优点是聚类速度快且能够有效处理噪声点和发现任意形状的空间聚类。但是由于它直接对整个数据库进行操作且进行聚类时使用了一个全局性的表征  密度的参数,因此也具有两个比较明显的弱点:

1. 当数据量增大时,要求较大的内存支持 I/0 消耗也很大;

2. 当空间聚类的密度不均匀、聚类间距离相差很大时,聚类质量较差。

2.DBSCAN算法的聚类过程

DBSCAN算法基于一个事实:一个聚类可以由其中的任何核心对象唯一确定。等价可以表述为: 任一满足核心对象条件的数据对象p,数据库D中所有从p密度可达的数据对象o  所组成的集合构成了一个完整的聚类C,且p属于C。

3.DBSCAN中的几个定义

密度可达是直接密度可达的传递闭包,非对称性关系;密度相连是对称性关系。DBSCA目的是找到密度相连对象的最大集合。

E领域:给定对象p半径为E内的区域称为该对象的E领域;

核心对象:p的E领域内样本数大于MinPts(算法输入值),则该对象p为核心对象;

直接密度可达:对于样本集合D,如果样本点q在p的E领域内,且p为核心对象,则p直接密度可达q;

密度可达:对于样本集合D,存在一串样本点p1,p2,p3,...pn,其中连续两个点直接密度可达,则 p=p1,q=qn,则p密度可达q;

密度相连:对于样本集合D中任意一点o,存在p到o密度可达,并且q到o密度可达,那么q从p密度相连;

算法伪代码

8f900a89c6347c561fdf2122f13be562.png

961ddebeb323a10fe0623af514929fc1.png

1 DBSCAN(SetOfPoints, Eps, MinPts){2 ClusterId=nextId(NOISE)3 for(i=0;i

13 ExpandCluster(SetOfPoints,Point, ClId, Eps, MinPts){14 seeds=SetOfPoints.regionQuery(Point, Eps)15 if(seeds.size()0){22 currentP=seeds.first()23 result=SetOfPoints.regionQuery(currentP, Eps)24 if(result.size()>=MinPts){25 for(i=0;i

View Code

JAVA实现:

8f900a89c6347c561fdf2122f13be562.png

961ddebeb323a10fe0623af514929fc1.png

1 packageorisun;2

3 importjava.io.File;4 importjava.util.ArrayList;5 importjava.util.Vector;6 importjava.util.Iterator;7

8 public classDBScan {9

10 double Eps=3; //区域半径

11 int MinPts=4; //密度12

13 //由于自己到自己的距离是0,所以自己也是自己的neighbor

14 public Vector getNeighbors(DataObject p,ArrayListobjects){15 Vector neighbors=new Vector();16 Iterator iter=objects.iterator();17 while(iter.hasNext()){18 DataObject q=iter.next();19 double[] arr1=p.getVector();20 double[] arr2=q.getVector();21 int len=arr1.length;22

23 if(Global.calEditDist(arr1,arr2,len)<=Eps){ //使用编辑距离24 //if(Global.calEuraDist(arr1, arr2, len)<=Eps){//使用欧氏距离25 //if(Global.calCityBlockDist(arr1, arr2, len)<=Eps){//使用街区距离26 //if(Global.calSinDist(arr1, arr2, len)<=Eps){//使用向量夹角的正弦

27 neighbors.add(q);28 }29 }30 returnneighbors;31 }32

33 public int dbscan(ArrayListobjects){34 int clusterID=0;35 boolean AllVisited=false;36 while(!AllVisited){37 Iterator iter=objects.iterator();38 while(iter.hasNext()){39 DataObject p=iter.next();40 if(p.isVisited())41 continue;42 AllVisited=false;43 p.setVisited(true); //设为visited后就已经确定了它是核心点还是边界点

44 Vector neighbors=getNeighbors(p,objects);45 if(neighbors.size()

48 }else{49 if(p.getCid()<=0){50 clusterID++;51 expandCluster(p,neighbors,clusterID,objects);52 }else{53 int iid=p.getCid();54 expandCluster(p,neighbors,iid,objects);55 }56 }57 AllVisited=true;58 }59 }60 returnclusterID;61 }62

63 private void expandCluster(DataObject p, Vectorneighbors,64 int clusterID,ArrayListobjects) {65 p.setCid(clusterID);66 Iterator iter=neighbors.iterator();67 while(iter.hasNext()){68 DataObject q=iter.next();69 if(!q.isVisited()){70 q.setVisited(true);71 Vector qneighbors=getNeighbors(q,objects);72 if(qneighbors.size()>=MinPts){73 Iterator it=qneighbors.iterator();74 while(it.hasNext()){75 DataObject no=it.next();76 if(no.getCid()<=0)77 no.setCid(clusterID);78 }79 }80 }81 if(q.getCid()<=0){ //q不是任何簇的成员

82 q.setCid(clusterID);83 }84 }85 }86

87 public static voidmain(String[] args){88 DataSource datasource=newDataSource();89 //Eps=3,MinPts=4

90 datasource.readMatrix(new File("/home/orisun/test/dot.mat"));91 datasource.readRLabel(new File("/home/orisun/test/dot.rlabel"));92 //Eps=2.5,MinPts=493 //datasource.readMatrix(new File("/home/orisun/text.normalized.mat"));94 //datasource.readRLabel(new File("/home/orisun/text.rlabel"));

95 DBScan ds=newDBScan();96 int clunum=ds.dbscan(datasource.objects);97 datasource.printResult(datasource.objects,clunum);98 }99 }

View Code

C++实现:

数据结构

8f900a89c6347c561fdf2122f13be562.png

961ddebeb323a10fe0623af514929fc1.png

1 #include

2

3 using namespacestd;4

5 const int DIME_NUM=2; //数据维度为2,全局常量6

7 //数据点类型

8 classDataPoint9 {10 private:11 unsigned long dpID; //数据点ID

12 double dimension[DIME_NUM]; //维度数据

13 long clusterId; //所属聚类ID

14 bool isKey; //是否核心对象

15 bool visited; //是否已访问

16 vector arrivalPoints; //领域数据点id列表

17 public:18 DataPoint(); //默认构造函数

19 DataPoint(unsigned long dpID,double* dimension , bool isKey); //构造函数

20

21 unsigned long GetDpId(); //GetDpId方法

22 void SetDpId(unsigned long dpID); //SetDpId方法

23 double* GetDimension(); //GetDimension方法

24 void SetDimension(double* dimension); //SetDimension方法

25 bool IsKey(); //GetIsKey方法

26 void SetKey(bool isKey); //SetKey方法

27 bool isVisited(); //GetIsVisited方法

28 void SetVisited(bool visited); //SetIsVisited方法

29 long GetClusterId(); //GetClusterId方法

30 void SetClusterId(long classId); //SetClusterId方法

31 vector& GetArrivalPoints(); //GetArrivalPoints方法

32 };

View Code

实现

8f900a89c6347c561fdf2122f13be562.png

961ddebeb323a10fe0623af514929fc1.png

1 #include "DataPoint.h"

2

3 //默认构造函数

4 DataPoint::DataPoint()5 {6 }7

8 //构造函数

9 DataPoint::DataPoint(unsigned long dpID,double* dimension , boolisKey):isKey(isKey),dpID(dpID)10 {11 //传递每维的维度数据

12 for(int i=0; idimension[i]=dimension[i];15 }16 }17

18 //设置维度数据

19 void DataPoint::SetDimension(double*dimension)20 {21 for(int i=0; idimension[i]=dimension[i];24 }25 }26

27 //获取维度数据

28 double*DataPoint::GetDimension()29 {30 return this->dimension;31 }32

33 //获取是否为核心对象

34 boolDataPoint::IsKey()35 {36 return this->isKey;37 }38

39 //设置核心对象标志

40 void DataPoint::SetKey(boolisKey)41 {42 this->isKey =isKey;43 }44

45 //获取DpId方法

46 unsigned longDataPoint::GetDpId()47 {48 return this->dpID;49 }50

51 //设置DpId方法

52 void DataPoint::SetDpId(unsigned longdpID)53 {54 this->dpID =dpID;55 }56

57 //GetIsVisited方法

58 boolDataPoint::isVisited()59 {60 return this->visited;61 }62

63

64 //SetIsVisited方法

65 void DataPoint::SetVisited( boolvisited )66 {67 this->visited =visited;68 }69

70 //GetClusterId方法

71 longDataPoint::GetClusterId()72 {73 return this->clusterId;74 }75

76 //GetClusterId方法

77 void DataPoint::SetClusterId( longclusterId )78 {79 this->clusterId =clusterId;80 }81

82 //GetArrivalPoints方法

83 vector&DataPoint::GetArrivalPoints()84 {85 returnarrivalPoints;86 }

View Code

PYTHON实现:

8f900a89c6347c561fdf2122f13be562.png

961ddebeb323a10fe0623af514929fc1.png

1 from matplotlib.pyplot import *

2 fromcollections import defaultdict3 import random4

5 #function to calculate distance6 def dist(p1, p2):7 return ((p1[0]-p2[0])**2+ (p1[1]-p2[1])**2)**(0.5)8

9 #randomly generate around 100cartesian coordinates10 all_points=[]11

12 for i in range(100):13 randCoord = [random.randint(1,50), random.randint(1,50)]14 if not randCoord inall_points:15 all_points.append(randCoord)16

17

18 #take radius = 8 and min. points = 8

19 E = 8

20 minPts = 8

21

22 #find outthe core points23 other_points =[]24 core_points=[]25 plotted_points=[]26 for point inall_points:27 point.append(0) # assign initial level 0

28 total = 0

29 for otherPoint inall_points:30 distance =dist(otherPoint,point)31 if distance<=E:32 total+=1

33

34 if total >minPts:35 core_points.append(point)36 plotted_points.append(point)37 else:38 other_points.append(point)39

40 #find border points41 border_points=[]42 for core incore_points:43 for other inother_points:44 if dist(core,other)<=E:45 border_points.append(other)46 plotted_points.append(other)47

48

49 #implement the algorithm50 cluster_label=0

51

52 for point incore_points:53 if point[2]==0:54 cluster_label+=1

55 point[2]=cluster_label56

57 for point2 inplotted_points:58 distance =dist(point2,point)59 if point2[2] ==0 and distance<=E:60 print point, point261 point2[2] =point[2]62

63

64 #after the points are asssigned correnponding labels, we group them65 cluster_list =defaultdict(lambda: [[],[]])66 for point inplotted_points:67 cluster_list[point[2]][0].append(point[0])68 cluster_list[point[2]][1].append(point[1])69

70 markers = ['+','*','.','d','^','v','>','

72 #plotting the clusters73 i=0

74 print cluster_list75 for value incluster_list:76 cluster=cluster_list[value]77 plot(cluster[0], cluster[1],markers[i])78 i = i%10+1

79

80 #plot the noise points aswell81 noise_points=[]82 for point inall_points:83 if not point in core_points and not point inborder_points:84 noise_points.append(point)85 noisex=[]86 noisey=[]87 for point innoise_points:88 noisex.append(point[0])89 noisey.append(point[1])90 plot(noisex, noisey, "x")91

92 title(str(len(cluster_list))+"clusters created with E ="+str(E)+"Min Points="+str(minPts)+"total points="+str(len(all_points))+"noise Points ="+str(len(noise_points)))93 axis((0,60,0,60))94 show()

View Code

参考:http://www.cnblogs.com/zhangchaoyang/articles/2182748.html

http://www.cnblogs.com/lovell-liu/archive/2011/11/08/2241542.html

http://blog.sudipk.com.np/2013/02/implementation-of-dbscan-algorithm-for.html

http://caoyaqiang.diandian.com/post/2012-09-26/40039517485

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/559399.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python云计算主要是干嘛的_国内python 云计算是干什么的

{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":6,"count":6}]},"card":[{"des":"云服务器 ECS(Elastic Compute Service)是一…

python画pr曲线代码_Yolov3测试图及绘制PR曲线,yoloV3,map,和,画

训练指令&#xff1a;./darknet.exe detector train data/obj.data yolo-obj.cfg darknet53.conv.74 | tee train_yolov3.logps&#xff1a;For training with mAP (mean average precisions) calculation for each 4 Epochs (set validvalid.txt or train.txt in obj.data fil…

xampp 支持pdo mysql_在Windows上安装PHP PDO(xampp)

我正在尝试开发一个可以在PHP上连接到尽可能多的不同数据库的Web应用程序. PDO(http://www.php.net/manual/en/book.pdo.php)似乎是正确的界面,但我无法安装所需要的所有不同PDO数据库驱动程序所需的扩展.请注意,我在Windows 7机器上使用xampp. PHP版本5.3.8. PDO驱动启用了Mys…

python常用的库有哪些餐厅_这十个Python常用库,学习Python的你必须要知道!

想知道Python取得如此巨大成功的原因吗&#xff1f;只要看看Python提供的大量库就知道了包括原生库和第三方库。不过&#xff0c;有这么多Python库&#xff0c;有些库得不到应有的关注也就不足为奇了。此外&#xff0c;只在一个领域里的工作的人并不知道另一个领域里有什么好东…

java将图片转byte存入数据库_Java将byte[]转图片存储到本地的案例

Java中&#xff0c;将字节数组转成图片的有很多种方式&#xff0c;今天在这里记录其中一种&#xff0c;方便以后查询&#xff0c;也可以提供给没有接触的童鞋做一个参考。首先是将图片转成字节数组import sun.misc.BASE64Encoder;import java.io.*;// 传入图片路径&#xff0c;…

python高阶函数看不懂_Python进阶:高阶函数的详细说明

这篇文章讲述了Python进阶&#xff1a;高阶函数的详细说明有需要的朋友可以参考函数式编程函数是Python内建支持的一种封装&#xff0c;我们通过把大段代码拆成函数&#xff0c;通过一层一层的函数调用&#xff0c;就可以把复杂任务分解成简单的任务&#xff0c;这种分解可以称…

java callable接口_Java多线程之Callable接口的实现有返回值的线程

import java.util.concurrent.Callable;import java.util.concurrent.ExecutorService;import java.util.concurrent.Executors;import java.util.concurrent.Future;//在主线程获取callable线程返回值时&#xff0c;如果callable线程还存在线程没有执行完&#xff0c;则主线程…

python聊天软件实现_python实现点对点聊天程序

用Python实现点对点的聊天&#xff0c;2个程序&#xff0c;一个是client.py&#xff0c;一个是server.py&#xff0c;通过本机地址127.0.0.1连接进行通信&#xff0c;利用多线程把发送消息和接收消息分开独立进行。client代码&#xff1a;import socketimport sysimport thread…

java编译器代码检查_Java编译器可以优化此代码吗?

我拥有的Java 8编译器似乎并没有对其进行优化.编译后使用“ javap -c”检查字节码&#xff1a;public static void main(java.lang.String[]);Code:0: new #2 // class java/util/Random3: dup4: invokespecial #3 // Method java/util/Random."":()V7: invokevirtua…

python中rgb_python - 图像的RGB矩阵

Taking an image as input, how can I get the rgb matrix corresponding to it?I checked out the numpy.asarray function. Does that give me the rgb matrix or some other matrix?解决方案The simplest answer is to use the NumPy and SciPy wrappers around PIL. Ther…

java volatile lock_Java并发学习笔记 -- Java中的Lock、volatile、同步关键字

Java并发一、锁1. 偏向锁1. 思想背景来源&#xff1a;HotSpot的作者经过研究发现&#xff0c;大多数情况下&#xff0c;锁不仅不存在多线程竞争&#xff0c;而且总是由同 一线程多次获得&#xff0c;为了让线程获得锁的代价更低而引入了偏向锁。原理&#xff1a;在对象头和栈帧…

python 数组赋值_pythonamp;numpy的赋值

有点编程基础的童鞋看到这个标题可能会有点懵逼&#xff0c;这还是个问题吗&#xff1f;不就是个等号()解决问题嘛&#xff01;我也希望是如此简单&#xff0c;因为上个星期被这个问题折磨到崩溃&#xff01;一般的python程序需要赋值时的确是通过等号()实现的&#xff0c;不管…

java字符串匹配dp_[OI]字符串DP小结

顾名又思义&#xff0c;是在字符串上进行的DP操作。因为字符串本身可以看作是一个序列&#xff0c;所以有些时候字符串DP可以用区间DP来解决。P2246 SAC#1 - Hello World(升级版)题目描述在讲义的某一面&#xff0c;他看见了一篇文章。这篇文章由英文字母(大小写均有)、数字、和…

python打包成exe导入文件_【转载】将python脚本打包成exe文件

标签&#xff1a;exe文件也就是可以直接执行的文件。通常我们编好的带py后缀的脚本文件都是需要在有python的环境下执行&#xff0c;每次通过Win R打开运行窗口再输入powershell打开控制台,再千辛万苦地cd c:\python27 (change directory)转换目录到py文件的目录下。最终还是要…

java线上问题定位_java定位线上问题

3、jstack: Java 提供的命令。可以查看某个进程的当前线程栈运行情况。根据 这个命令的输出可以定位某个进程的所有线程的当前运行状态、运行代码,以及 是否死锁等等......A、//int a,b,c B、/** int a,b ,c */ C、{int a,b,c} */ D、/* int a,b String a */ 30、Java 目前支持…

python排名上升_TIOBE:2019年7月全球编程语言排行 Python热度继续上升

与上个月相比&#xff0c;Python 的指数又增加了不少&#xff0c;由 8.530% 上升到 9.260%。我们还留意到&#xff0c;TIOBE 对这期榜单的标题描述是“Perl is one of the victims of Python’s hype”&#xff0c;大意是说Perl 成为了过度炒作 Python 的受害者之一。TIOBE 认为…

java界面化二叉排序树_105-线索化二叉树代码实现2

2.网上数据结构和算法的课程不少&#xff0c;但存在两个问题&#xff1a;1)授课方式单一&#xff0c;大多是照着代码念一遍&#xff0c;数据结构和算法本身就比较难理解&#xff0c;对基础好的学员来说&#xff0c;还好一点&#xff0c;对基础不好的学生来说&#xff0c;基本上…

python截图识别文字代码_10几行代码,用python打造实时截图识别OCR

你一定用过那种“OCR神器”&#xff0c;可以把图片中的文字提取出来&#xff0c;极大的提高工作效率。今天&#xff0c;我们就来做一款实时截图识别的小工具。顾名思义&#xff0c;运行程序时&#xff0c;可以实时的把你截出来的图片中的文字识别出来。、&#xff01;下次&…

我的世界java 内存_我的世界如何分配内存

如果你在运行Minecraft时出现内存错误等问题&#xff0c;你可能需要给Minecraft分配更多内存来解决运行故障。如果你玩的是新版本的Minecraft&#xff0c;那么你可以从启动器里直接分配内存(RAM)。如果你使用的是旧版本&#xff0c;那么你需要创建一些文件来改变Minecraft内存使…

python数据拟合固定参数_如何将数据拟合到非理想二极管方程(隐式非线性函数)并检索参数 - python...

散乱数据图我需要将(x&#xff0c;y)-数据拟合到具有两个变量(x和y)的方程式中&#xff0c;并检索5个未知参数。我正在编写一个脚本&#xff0c;以处理来自简单.txt文件的IV数据(电流电压)&#xff0c;并将其拟合为称为非理想二极管方程的方程&#xff1b;这是一个隐式非线性函…