聚类分析在用户行为中的实例_看完这篇,你还敢说不懂聚类分析?

fe8115cf18d263c4c5792caa7f214695.gif点击上方蓝色字关注我们~

大数据分析中的应用,最常用的经典算法之一就是聚类法,这是数据挖掘采用的起步技术,也是数据挖掘入门的一项关键技术。什么是聚类分析?聚类分析有什么用?聚类算法有哪些?聚类分析的应用……这些问题的探究可为大数据时代数据挖掘找到关键突破口!

1

什么是聚类分析?

聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程,其目的是在相似的基础上收集数据来分类。

聚类类似于分类,但与分类的目的不同,是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大,但不同类别之间数据的相似性很小,跨类的数据关联性很低。聚类与分类的不同还在于,聚类所要求划分的类是未知的。

2

聚类分析的重要性

“物以类聚,人以群分”,这是人类几千年来认识世界和社会的基本能力,是从大数据中发现价值必须面对的一个普遍性、基础性问题,是认知科学作为“学科的学科”要解决的首要问题。

无论是政治、经济、文学、历史、社会、文化、还是数理、化工、医农、交通、地理、各行各业的大数据或宏观或微观的任何价值发现,无不借助于大数据聚类分析的结果,因此,数据分析和挖掘的首要问题是聚类,这种聚类是跨学科、跨领域、跨媒体的。大数据聚类是数据密集型科学的基础性、普遍性问题。

可以毫不夸张的讲,如果聚类算法都搞不明白,或者说没有“落地”的“实例”,那说在搞数据挖掘就纯粹是忽悠了。

人类的认知科学要想有所突破,首先就要在大数据聚类上去的突破,聚类是挖掘大数据资产价值的第一步。

3

聚类算法的种类

作为数据挖掘中很活跃的一个研究领域,聚类分析有多种算法。

1. 基于划分聚类算法

  • k-means:是一种典型的划分聚类算法,它用一个聚类的中心来代表一个簇,即在迭代过程中选择的聚点不一定是聚类中的一个点,该算法只能处理数值型数据

  • k-modes:K-Means算法的扩展,采用简单匹配方法来度量分类型数据的相似度

  • k-prototypes:结合了K-Means和K-Modes两种算法,能够处理混合型数据

  • k-medoids:在迭代过程中选择簇中的某点作为聚点,PAM是典型的k-medoids算法

  • CLARA:CLARA算法在PAM的基础上采用了抽样技术,能够处理大规模数据

  • CLARANS:CLARANS算法融合了PAM和CLARA两者的优点,是第一个用于空间数据库的聚类算法

  • Focused CLARAN:采用了空间索引技术提高了CLARANS算法的效率

  • PCM:模糊集合理论引入聚类分析中并提出了PCM模糊聚类算法

2. 基于层次聚类算法

  • CURE:采用抽样技术先对数据集D随机抽取样本,再采用分区技术对样本进行分区,然后对每个分区局部聚类,最后对局部聚类进行全局聚类

  • ROCK:也采用了随机抽样技术,该算法在计算两个对象的相似度时,同时考虑了周围对象的影响

  • CHEMALOEN(变色龙算法):首先由数据集构造成一个K-最近邻图Gk ,再通过一个图的划分算法将图Gk 划分成大量的子图,每个子图代表一个初始子簇,最后用一个凝聚的层次聚类算法反复合并子簇,找到真正的结果簇  

  • SBAC:SBAC算法则在计算对象间相似度时,考虑了属性特征对于体现对象本质的重要程度,对于更能体现对象本质的属性赋予较高的权值 

  • BIRCH:BIRCH算法利用树结构对数据集进行处理,叶结点存储一个聚类,用中心和半径表示,顺序处理每一个对象,并把它划分到距离最近的结点,该算法也可以作为其他聚类算法的预处理过程

  • BUBBLE:BUBBLE算法则把BIRCH算法的中心和半径概念推广到普通的距离空间

  • BUBBLE-FM:BUBBLE-FM算法通过减少距离计算次数,提高了BUBBLE算法的效率

3. 基于密度聚类算法

  • DBSCAN:DBSCAN算法是一种典型的基于密度的聚类算法,该算法采用空间索引技术来搜索对象的邻域,引入了“核心对象”和“密度可达”等概念,从核心对象出发,把所有密度可达的对象组成一个簇

  • GDBSCAN:算法通过泛化DBSCAN算法中邻域的概念,以适应空间对象的特点 

  • OPTICS:OPTICS算法结合了聚类的自动性和交互性,先生成聚类的次序,可以对不同的聚类设置不同的参数,来得到用户满意的结果

  • FDC:FDC算法通过构造k-d tree把整个数据空间划分成若干个矩形空间,当空间维数较少时可以大大提高DBSCAN的效率

4. 基于网格的聚类算法

  • STING:利用网格单元保存数据统计信息,从而实现多分辨率的聚类

  • WaveCluster:在聚类分析中引入了小波变换的原理,主要应用于信号处理领域。(备注:小波算法在信号处理,图形图像,加密解密等领域有重要应用,是一种比较高深和牛逼的东西)

  • CLIQUE:是一种结合了网格和密度的聚类算法

5. 基于神经网络的聚类算法

自组织神经网络SOM:该方法的基本思想是--由外界输入不同的样本到人工的自组织映射网络中,一开始时,输入样本引起输出兴奋细胞的位置各不相同,但自组织后会形成一些细胞群,它们分别代表了输入样本,反映了输入样本的特征

6. 基于统计学的聚类算法

  • COBWeb:COBWeb是一个通用的概念聚类方法,它用分类树的形式表现层次聚类

  • AutoClass:是以概率混合模型为基础,利用属性的概率分布来描述聚类,该方法能够处理混合型的数据,但要求各属性相互独立

聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。

4

聚类分析的应用

1. 商业

聚类分析被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征。聚类分析是细分市场的有效工具,同时也可用于研究消费者行为,寻找新的潜在市场、选择实验的市场,并作为多元分析的预处理。

2. 电子商务

聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面,通过分组聚类出具有相似浏览行为的客户,并分析客户的共同特征,可以更好的帮助电子商务的用户了解自己的客户,向客户提供更合适的服务。

大数据作为网络时代的一种客观存在,是网络时代人类社会的重要资产,数据数量巨大等给人们的认知造成了很大的困扰,尽管目前对于大数据的认知存在挑战,但聚类将会成为大数据认知的突破口,这是一个发展趋向。

End.

来源:量化研究方法

往期精彩文章

6000+数据全面解读数据分析师岗位!| 转行入职避坑指南

用户飞速增长的4大秘诀【App案例】

1文读懂数据看板!后台数据产品经理必看的方法论

906675260c433c12c536c742dcb2f59a.png

我就知道你“在看”6e9715c3388c2bb0a613c33c9819d425.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/438940.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ABP入门系列(13)——Redis缓存用起来

1. 引言 创建任务时我们需要指定分配给谁,Demo中我们使用一个下拉列表用来显示当前系统的所有用户,以供用户选择。我们每创建一个任务时都要去数据库取一次用户列表,然后绑定到用户下拉列表显示。如果就单单对一个demo来说,这样实…

ABP入门系列(14)——应用BootstrapTable表格插件

1. 引言 之前的文章ABP入门系列(7)——分页实现讲解了如何进行分页展示,但其分页展示仅适用于前台web分页,在后台管理系统中并不适用。后台管理系统中的数据展示一般都是使用一些表格插件来完成的。这一节我们就使用BootstrapTab…

musictools怎么用不了_夏天少不了一只草编包,怎么搭配才不像“买菜用”?

要说有什么包包能跟夏天的气息一拍即合,那绝对非“草编包”莫属!由藤条、柳条等编制而成的田园风“小篮子”,已经成了夏日街头小姐姐们的包包首选。各大品牌都争相推出草编包系列,在原有的浪漫度假风之外,添加了更多时…

ABP入门系列(15)——创建微信公众号模块

1. 引言 现在的互联网已不在仅仅局限于网页应用,IOS、Android、平板、智能家居等平台正如火如荼的迅速发展,移动应用的需求也空前旺盛。所有的互联网公司都不想错过这一次移动浪潮,布局移动市场分一份移动红利。 的确,智能手机作…

spark 算子例子_Spark性能调优方法

公众号后台回复关键词:pyspark,获取本项目github地址。Spark程序可以快如闪电⚡️,也可以慢如蜗牛?。它的性能取决于用户使用它的方式。一般来说,如果有可能,用户应当尽可能多地使用SparkSQL以取得更好的性能。主要原…

ABP入门系列(16)——通过webapi与系统进行交互

1. 引言 上一节我们讲解了如何创建微信公众号模块,这一节我们就继续跟进,来讲一讲公众号模块如何与系统进行交互。 微信公众号模块作为一个独立的web模块部署,要想与现有的【任务清单】进行交互,我们要想明白以下几个问题&#x…

python嵩天第二版第五章_如何避免从入门到放弃——python小组学习复盘

2019年春节python学习行动复盘2019-02-09为了主攻python,没有参加心理学晨读。对心理学也不敢兴趣,怕耽误学习python的时间。那么没学习心理学的情况下,python学的怎么样?是否达到自己的预期?一、预期目标:…

ABP入门系列(17)——使用ABP集成的邮件系统发送邮件

1.Abp集成的邮件模块是如何实现的 ABP中对邮件的封装主要集成在Abp.Net.Mail和Abp.Net.Mail.Smtp命名空间下,相应源码在此。 分析可以看出主要由以下几个核心类组成: EmailSettingNames:静态常量类,主要定义了发送邮件需要的相关…

cdn转发防攻击_高防CDN和高防服务器的区别?

越来越多的网络攻击需要处理,而高防CDN和高防服务器是很好的选择,那么如何选择呢?我们就来分析一下关于这两者之间的选择。首先从价格上看的话,高防御CDN的价格相对高一些,防御上看,高防御CDN的防御效果也更…

ABP入门系列(18)—— 使用领域服务

1.引言 自上次更新有一个多月了,发现越往下写,越不知如何去写。特别是当遇到DDD中一些概念术语的时候,尤其迷惑。如果只是简单的去介绍如何去使用ABP,我只需参照官方文档,实现到任务清单Demo中去就可以了,…

mysql文件类型_MyCat教程:实现MySql主从复制

原文:http://iii75.cn/mwQhBW 作者:波波烤鸭历史相关文章Mycat入门教程单个mysql数据库在处理业务的时候肯定是有限的,这时我们扩展数据库的第一种方式就是对数据库做读写分离(主从复制),本文我们就先来介绍下怎么来实现mysql的主从复制操作。…

截屏当前界面_电脑屏幕怎么截取,常见的几种电脑截屏方法

随着科技的快速发展电脑已经逐渐渗入到我们的工作和生活中,我们需要使用电脑的地方也越来越多,电脑已经成为了一种新式的办公工具。今天小编不是向大家介绍电脑的应用,而是想要和大家分享一下关于电脑截图的几种方法。1、Print Screen SysRqP…

ABP入门系列(19)——使用领域事件

1.引言 最近刚学习了下DDD中领域事件的理论知识,总的来说领域事件主要有两个作用,一是解耦,二是使用领域事件进行事务的拆分,通过引入事件存储,来实现数据的最终一致性。若想了解DDD中领域事件的概念,可参…

扩容是元素还是数组_Java中对数组的操作

数组对于每一门编程语言来说都是重要的数据结构之一,当然不同语言对于数组的实现及处理也不尽相同。Java语言中提供的数组是用来存储固定大小的同类型元素。如:声明一个数组变量,numbers[100]来代替直接声明100个独立变量number0,number1,...…

ABP入门系列(20)——使用后台作业和工作者

1.引言 说到后台作业,你可能条件反射的想到BackgroundWorker,但后台作业并非是后台任务,后台作业用一种队列且持久稳固的方式安排一些待执行后台任务。 为执行长时间运行的任务而用户无需等待,以提高用户体验。为创建可重试且持…

加载中_GIS地图在项目中的加载显示

下面我们就来说说如何在应用程序中加载显示GIS地图,首先我们在SuperMap iDesktop 9D(10i)中编辑好我们需要的地图,如下图所示:如上图所示,这是我编辑好的一幅天河区的地图,下面我就以这幅地图为例来说说如何把这样一幅…

ABP入门系列(21)——切换MySQL数据库

1. 引言 Abp支持MySql已经不是什么新鲜事了,但按照官方文档:Entity Framework - MySql Integration来,你未必能成功切换,本文就记录下切换MySql数据库遇到的一些坑,供后人乘凉! 2. 环境准备 MySql数据库…

ABP开发框架前后端开发系列---(1)框架的总体介绍

ABP是ASP.NET Boilerplate的简称,ABP是一个开源且文档友好的应用程序框架。ABP不仅仅是一个框架,它还提供了一个最徍实践的基于领域驱动设计(DDD)的体系结构模型。学习使用ABP框架也有一段时间了,一直想全面了解下这个框架的整个来龙去脉,并把…

c++ pdflib输出表格_DescrTab2包,输出SCI级别的描述统计表

今天浏览R包,发现一个不错的包——DescrTab2包。看R包介绍,这个包可以绘制出版物质量级别的描述统计表。看起来很不错。下面来学习下。1. R包安装和加载install.packages("DescrTab2") # 安装包library(DescrTab2) # 加载包2. 加载演示数据集l…

服务器怎么控制忽略样式_使用JavaScript来编写你的CSS样式代码——JSS

介绍JSS是CSS的创作工具,它允许你使用JavaScript以声明,无冲突和可重用的方式描述样式。它可以在浏览器,服务器端或在构建时在Node中编译。JSS与框架无关。它由多个包组成:核心部分,插件以及框架集成等。Githubhttps:/…