【机器学习】DBSCAN聚类算法—优于Kmean—(理论+图解+python代码)

一、前言

二、DBSCAN聚类算法

三、参数选择

四、DBSCAN算法迭代可视化展示

五、常用的评估方法:轮廓系数

六、用Python实现DBSCAN聚类算法

一、前言

去年学聚类算法的R语言的时候,有层次聚类、系统聚类、K-means聚类、K中心聚类,最后呢,被DBSCAN聚类算法迷上了,为什么呢,首先它可以发现任何形状的簇,其次我认为它的理论也是比较简单易懂的。今年在python这门语言上我打算好好弄弄DBSCAN。下面贴上它的官方解释:

DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种基于密度的空间聚类算法。 该算法将具有足够密度的区域划分为簇,并在具有噪声的空间数据库中发现任意形状的簇,它将簇定义为密度相连的点的最大集合。

二、DBSCAN聚类算法

文字看不懂看下面这个图。下面这些点是分布在样本空间的众多样本,现在我们的目标是把这些在样本空间中距离相近的聚成一类。我们发现A点附近的点密度较大,红色的圆圈根据一定的规则在这里滚啊滚,最终收纳了A附近的5个点,标记为红色也就是定为同一个簇。其它没有被收纳的根据一样的规则成簇。(形象来说,我们可以认为这是系统在众多样本点中随机选中一个,围绕这个被选中的样本点画一个圆,规定这个圆的半径以及圆内最少包含的样本点,如果在指定半径内有足够多的样本点在内,那么这个圆圈的圆心就转移到这个内部样本点,继续去圈附近其它的样本点,类似传销一样,继续去发展下线。等到这个滚来滚去的圈发现所圈住的样本点数量少于预先指定的值,就停止了。那么我们称最开始那个点为核心点,如A,停下来的那个点为边界点,如B、C,没得滚的那个点为离群点,如N)。

基于密度这点有什么好处呢,我们知道kmeans聚类算法只能处理球形的簇,也就是一个聚成实心的团(这是因为算法本身计算平均距离的局限)。但往往现实中还会有各种形状,比如下面两张图,环形和不规则形,这个时候,那些传统的聚类算法显然就悲剧了。于是就思考,样本密度大的成一类呗。呐这就是DBSCAN聚类算法。

三、参数选择

上面提到了红色圆圈滚啊滚的过程,这个过程就包括了DBSCAN算法的两个参数,这两个参数比较难指定,公认的指定方法简单说一下:

  • 半径:半径是最难指定的 ,大了,圈住的就多了,簇的个数就少了;反之,簇的个数就多了,这对我们最后的结果是有影响的。我们这个时候K距离可以帮助我们来设定半径r,也就是要找到突变点,比如:

以上虽然是一个可取的方式,但是有时候比较麻烦 ,大部分还是都试一试进行观察,用k距离需要做大量实验来观察,很难一次性把这些值都选准。 

  • MinPts:这个参数就是圈住的点的个数,也相当于是一个密度,一般这个值都是偏小一些,然后进行多次尝试

 

四、DBSCAN算法迭代可视化展示

国外有一个特别有意思的网站:https://www.naftaliharris.com/blog/visualizing-dbscan-clustering/

它可以把我们DBSCAN的迭代过程动态图画出来

设置好参数,点击GO! 就开始聚类了!

直接跳到最后看一下DBSCAN的聚类结果,如下:

如果minPoints参数设置再大一点,那么这个笑脸可能会更好看。没有颜色标注的就是圈不到的样本点,也就是离群点,DBSCAN聚类算法在检测离群点的任务上也有较好的效果。

如果是传统的Kmeans聚类,我们也来看一下效果:

是不是好丑,这完美的体现出来DBSCAN算法基于密度聚类的优势了啊.

 

五、常用的评估方法:轮廓系数

这里提一下聚类算法中最常用的评估方法——轮廓系数(Silhouette Coefficient):

ji

  1. 计算样本i到同簇其它样本到平均距离ai。ai越小,说明样本i越应该被聚类到该簇(将ai称为样本i到簇内不相似度)。
  2. 计算样本i到其它某簇Cj的所有样本的平均距离bij,称为样本i与簇Cj的不相似度。定义为样本i的簇间不相似度:bi=min(bi1,bi2,...,bik2)
  • si接近1,则说明样本i聚类合理
  • si接近-1,则说明样本i更应该分类到另外的簇
  • 若si近似为0,则说明样本i在两个簇的边界上

 

六、用Python实现DBSCAN聚类算法

 
import pandas as pd# 导入数据beer = pd.read_csv('data.txt', sep=' ')print(beer)

输出结果:

 
from sklearn.cluster import DBSCANX = beer[["calories","sodium","alcohol","cost"]]# 设置半径为10,最小样本量为2,建模db = DBSCAN(eps=10, min_samples=2).fit(X)labels = db.labels_beer['cluster_db'] = labels # 在数据集最后一列加上经过DBSCAN聚类后的结果beer.sort_values('cluster_db')# 注:cluster列是kmeans聚成3类的结果;cluster2列是kmeans聚类成2类的结果;scaled_cluster列是kmeans聚类成3类的结果(经过了数据标准化)

# 查看根据DBSCAN聚类后的分组统计结果(均值)print(beer.groupby('cluster_db').mean())

# 画出在不同两个指标下样本的分布情况print(pd.scatter_matrix(X, c=colors[beer.cluster_db], figsize=(10,10), s=100))

# 我们可以从上面这个图里观察聚类效果的好坏,但是当数据量很大,或者指标很多的时候,观察起来就会非常麻烦。from sklearn import metrics# 就是下面这个函数可以计算轮廓系数(sklearn真是一个强大的包)score = metrics.silhouette_score(X,beer.cluster_db)print(score)

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/456068.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

H264白皮书

理论上我是知道一点点的mpeg4的,但是貌似忘记了,本来要重新看mpeg4,结果有人告诉我h264肯定比mpeg4要好,结果就被派去看h264了,看完了一个什么白皮书以后,只好替h264吹嘘一下了: 1。Intra pred…

python中的内建函数

内建函数 以下是目前我们已经渗透过的内建函数: 类型相关 int() 创建或者将其他数据转化为整型float() 创建或者将其他数据转化为浮点型bool() 创建或者将其他数据转化为布尔型complex() 创建或者将其他数据转化为复数str() 创建或者将其他数据转化为字符串list() 创建或…

卡巴斯基:风险无国界 网络安全从业者要与小网民保持一致

“互联网没有国界,每个国家碰到的问题基本上是类似的。对于网络犯罪这件事,并不针对哪个国家,任何有弱点、有机会的地方,黑客都会去。”卡巴斯基公司CEO尤金卡巴斯基在接受未来网(微信公众号lovek618)记者采…

js/jquery循环提取table单元格值

<table id"tbitem"><tr><td>测试数据1</td></tr><tr><td>测试数据2</td></tr><tr><td>测试数据3</td></tr><tr><td>测试数据4</td></tr><tr><td&g…

windows无法访问指定设备路径或文件_完全免费的文件数据恢复工具:Microsoft Windows File Recovery...

意外删除文件的经历是大多数人都遇到过&#xff0c;但是幸运的是有一种“后悔药”可以吃&#xff0c;因为我们可以使用一些【数据恢复软件】以找回一些已删除的文件。市面上有很多这类型的软件&#xff0c;例如EasyRecovery、DiskGenius、Recuva 等软件。但是&#xff0c;功能强…

【机器学习】XGBoost集成算法——(理论+图解+python代码比较其他算法使用天池蒸汽数据)

一、集成算法思想 二、XGBoost基本思想 三、用python实现XGBoost算法 在竞赛题中经常会用到XGBoost算法&#xff0c;用这个算法通常会使我们模型的准确率有一个较大的提升。既然它效果这么好&#xff0c;那么它从头到尾做了一件什么事呢&#xff1f;以及它是怎么样去做的呢&a…

H.264的技术优势及其在H.323系统中的应用

一、引言 近年来&#xff0c;随着我国通信网络基础设施的快速建设&#xff0c;视讯业务由于可以为处于多点的与会者提供音视频等多种信息&#xff0c;节省大量费用&#xff0c;提高工作效率&#xff0c;因而发展迅速&#xff0c;并有望成为NGN的主要业务。视讯会议系统从产生至…

python中的列表

列表操作 一组有序数据的组合就是列表 创建列表 空列表 方式1&#xff1a;变量 []方式2&#xff1a; 变量 list() 具有一个数据的列表 变量 [值] 备注&#xff1a;列表中保存的每个都称之为元素具有多个数据的列表 变量 [值,值,值....]普通操作 访问列表中的元素 …

高通被欧盟指控垄断 或将面临高达25亿美元罚款

在被韩国指控违反反垄断规定后&#xff0c;高通近期又被欧盟指控以垄断方式排挤竞争对手。在11月10日的听证会上高通将回应有关指控。高通有可能因此遭受25亿美元的巨额罚款。 欧盟之前就曾经指出&#xff0c;高通在2009至2011年以低于成本价售卖部分基带芯片&#xff0c;将英国…

wireshark

wireshark使用&#xff1a; http://wenku.baidu.com/link?urljIT43RWZbHissG70TK_hqVKRO6KWNZ4nK9RfncaFA5p-mrmjxsNd2aIapcKTtDDAjG0mddEKiLtwbqpu3Z12bXStDiDevZUGWTPxop4mKhG wireshark开源代码相关&#xff1a; http://blog.csdn.net/zx824/article/details/7207713 转载于…

1万条数据大概占多大空间_国漫丨2019年上半年漫画数据报告

文 │ 骨朵国漫一、各漫画平台总体趋势1、快看漫画快看漫画平台2019年Q2各月评论数较Q1有较明显的下滑&#xff0c;月评论数都在400万条左右&#xff1b;收藏数方面&#xff0c;2019年2月达到了半年内最高值&#xff0c;为2660.1万条。2、看漫画、知音漫客等平台(小明太极旗下)…

【机器学习】 LightGBM——优于XGBoost提升的集成算法(安装+对比XGBoost改进+参数说明+python代码实例)

中文官方文档&#xff1a;http://lightgbm.apachecn.org/cn/latest/Installation-Guide.html 英文官方文档&#xff1a;https://lightgbm.readthedocs.io/en/latest/ 一、lightGBM安装 在anaconda中输入&#xff1a;pip install lightGBM即可 输入import lightgbm as lgb做测…

H.264简单总结

&#xff08;quan整理&#xff09;一、视频信息和信号的特点 < type"text/javascript">< type"text/javascript" src"http://pagead2.googlesyndication.com/pagead/show_ads.js"> 1&#xff0e;1直观性 利用人的视觉系统&am…

轻量级代码生成器-OnlyCoder 第一篇

程序猿利器&#xff1a;代码生成器&#xff0c;使用代码生成器已经好几年了&#xff0c;增删改查各种生成&#xff0c;从UI到DATA层均生成过。之前有使用过动软的&#xff0c;T4模板等.... T4生成实体还是没有问题的&#xff0c;但是生成MVC视图就有点烦杂了&#xff0c;动软给…

python中的元组操作

元组操作 元组也是一组有序数据的组合&#xff0c;和列表唯一的不同是&#xff0c;元组不可修改 列表 用铅笔写的清单(能擦能改) 元组 用钢笔写的清单(不能擦改) 创建元组 创建空元组 方式1&#xff1a;变量 ()方式2&#xff1a; 变量 tuple() 创建单个元素的元组 方式1…

从Java到Go面向对象--继承思想.md

2019独角兽企业重金招聘Python工程师标准>>> Go语言实现继承 我们都知道Java中通过extends来实现对象的继承&#xff0c;那么Go中怎么实现继承呢&#xff1f;Go语言没有继承&#xff0c;只有组合。我们知道&#xff0c;继承的目的是什么&#xff0c;是类的重用&…

电脑键盘练习_电脑新手最关心的:零基础如何快速掌握电脑打字的技巧?

随着计算机的普及&#xff0c;越来越多的人在工作和生活中需要使用计算机。有的朋友通过参与培训学会了键盘打字&#xff0c;有的朋友自学成才学会了键盘打字。这里笔者给大家分享在0基础的情况下&#xff0c;通过自学快速掌握键盘打字的一种方法。需要说明的是&#xff0c;键盘…

【解决】jupyter在deepin安装上的坑

报错&#xff1a;env: "wine": 没有那个文件或目录 jupyter打开之后无法直接跳转浏览器 解决方法&#xff1a; 1、 生成配置文件jupyter notebook --generate-config 2、打开jupyter_notebook_config.py&#xff0c;在文件最后添加以下代码 选择你的浏览器位置 …

盐城出台推进大数据产业发展实施意见

日前&#xff0c;盐城市政府印发了《关于推进大数据产业发展的实施意见》&#xff08;下称《实施意见》&#xff09;&#xff0c;从指导思想、推进原则、发展目标、发展方向、重点工程和保障措施六个方面明确了盐城市加快培育和发展大数据产业的具体实施意见&#xff0c;这是该…

json字符串转换成json对象

Json字符与Json对象的相互转换方式有很多&#xff0c;接下来将为大家一一介绍下&#xff0c;感兴趣的朋友可以参考下哈&#xff0c;希望可以帮助到你1>jQuery插件支持的转换方式&#xff1a; 代码如下:$.parseJSON( jsonstr ); //jQuery.parseJSON(jsonstr),可以将json字符串…