r语言聚类分析_图说层次聚类分析原理和R语言实现

1、引言

“物以类聚、人以群分”。但我们面对一群人或者一堆物的时候,我们都希望将他们分分类,分类之后,我们才能更加有针对性地采取措施,从而提高工作效率。

如,我们将消费者分成若干类,有的是土豪、有的是工薪阶层,然后我们就采取不同的营销策略。再比如,我们将交通出行者分成若干类,有的是公共交通出行、有的是打车出行、有的是私车出行等,然后采取不同服务措施。

分类的方法很多,这里介绍一种称之为聚类分析的方法。更准确的说,聚类分析也有很多种类,这里仅仅介绍其中最为基础的一种,称之为层次聚类分析。


2、层次聚类分析原理

现在假设,我们有9名同学,参加满分为10分的语文和数学考试。他们的成绩,见表1。

表1 9名同学的语文和数学成绩

1bba9f79cad6f1f64e802f1faf7301e4.png

为了便于观察,我们用散点图描述学生的成绩,如图1所示。

898212da09b840f6736fd0c06fc240b6.png

图1 9名同学成绩在两维空间上的分布

从图1我们可以看出,9名学生大约可以分为三类。

第一类由编号为1、2、3、4的学生组成,它们的特点是语文和数学成绩都不太好。

第二类由编号为5、6、7的同学组成,他们的特点是语文成绩一般,但数学成绩较好。

第三类由编号为8、9的同学组成,他们的特点是语文较好,但数学成绩不太好。

三类学生特点不同,也决定着下一步学习特点不同。因此,有效地分类,可以提高教学的针对性。

然而这个分类是根据肉眼观察得到的,并不严谨。下面,我们介绍如何通过数学的方法分析得到。


首先,我们需要明确,分类的依据是学生成绩之间的距离。距离越小,则他们越可能分到同一个类别中;距离越大,则他们越不可能分到同一个类别中。

描述他们之间距离的公式很多,不同公式应用在不同场合,这也表明了聚类分析内容的丰富性。

其中一个经典的公式是用来计算马氏距离的公式。简单说就是,两点之间的距离等于他们的横坐标之差的平方加纵坐标之差的平方的开方,用数学公式表示为

由此我们可以得到这9名同学学习成绩之间的距离,见表2。

表2 9名学生的学习成绩之间的距离

86856080f1ac2f59ad353a2671211d06.png

从表2中可以看出,在所有32个距离中,最小的距离为1,为学生1与学生2、3的距离、学生5与学生6、7的距离,以及学生8与学生9之间的距离。

据此,我们将学生1、2、3合并作为一类,5、6、7合并作为一类、8、9合并作为一类,学生4单独作为一类。这样,9名同学分为4类,分别命名为{簇1.1,簇1.2,簇1.3,簇1.4 }。


但是,假如我们只有两个老师,必须讲9名同学分成两类。那么就需要在上述4类基础上继续划分。

首先,我们需要找到一个代表值来代表各类。这种代表方法很多,一般教材提供了8种。(这也说明聚类分析内容的丰富性。)

这里选择其中一种,叫做中心点法,简单说就算平均值。如,类1包含{1,2,3},其坐标值为{(1,1),(0,1),(1,0)},其平均值为(0.67,0.67)。我们用坐标为(0.67,0.67),代表一类。

这样,{簇1.1,簇1.2,簇1.3,簇1.4 }的坐标值,见表3。

表3 第一次聚类后的各簇中心点分布

1bb44901c5fb01aec10e932f2934e9cd.png

在空间上的分布,如图2所示。

7301a9062ef25394257d3dec6dbfed64.png

图2 第一次聚类后各簇中心点分布情况

在图2中,黑色点表示原来9名学生的成绩。而蓝色米状点则表示各簇的中心点,以代表各簇。


为进一步聚类,计算它们之间的距离,结果见表4。

表4 第一次聚类后各簇之间的距离

ccce2d3b5bb3c47b123ec825c4f97719.png

根据表4的结果,簇1.1 和簇1.2距离较近,合并,形成簇2.1。簇1.2、簇1.3,未与其他簇合并,保留下来,分别命名为簇2.2、簇2.3。

这样{簇2.1、簇2.2、簇2.3}的坐标,见表5。

83d94144c5582df354495a6bbb1c5dc1.png

表5 第二次聚类后各簇的坐标

需要注意的是,簇2.1 的坐标不是簇1.1和簇1.2 的坐标的平均值,而是簇1.1和簇1.2 中所有学生的成绩的平均值,因此为(1,1.25)。

其在空间上的分布,如图3所示。

71e780cde5e26de518eb6dcb69cde346.png

图3 第二次聚类后各簇的位置

图3中,绿色三角表示第二次聚类后各簇的中心位置。


继续计算簇2.1、簇2.2、簇2.3 的距离,见表6。

表6 {簇2.1、簇2.2、簇2.3}之间的距离

167280412ec20eb2db6bc7d18b375a2c.png

从表6可以看出,簇2.2和2.3 距离更近,它们可以合并。这样就形成了两类{簇3.1、簇3.2}。

绘制出{簇3.1和簇3.2}的位置,如图4所示。途中,红色田字表示簇3.1和簇3.2的位置。

70ad55c2673b7be186b877c7c0c28851.png

图4 第三次聚类后各簇位置

簇3.1和簇3.2都是9名同学经过三次合并(聚类)得到的,其中簇3.1 是由{1、2、3、4}等4名同学合并,包含着簇2.1、簇1.1和簇1.2。簇3.2 是由{5、6、7、8、9}等5名同学合并的,包含着簇2.2、簇2.3、簇1.3和1.4。


3、聚类分析在R语言中实现

前面用冗长的文字介绍了聚类分析的过程,从而揭示聚类分析的原理。在R语言中,我们用4句代码,实现上述过程。

# 输入原始数据

dt1<-as.data.frame(cbind(c(1,0,1,2,3,3,2,7,8),c(1,1,0,3,8,9,8,4,4)))

# 给各列命名

colnames(dt1)<-c("语文","数学")

#因为下面的hclust只能处理矩阵,因此需要计算距离矩阵。

result <- dist(dt1)

#调用hclust函数,生成聚类结果

result_hc <- hclust(d = result, method = "average")

#将聚类结果展示出来

plot(result_hc,main="聚类结果",ylab="距离",xlab="学生")

3982b1a599ded0f4c1bf664921a90f4c.png

图5 聚类分析结果

图5以一个树状图的方式描述各个学生之间距离远近。从下而上可以观察,1和2距离较近,合并为一类;然后1、2与3较近,合并为一类;再然后与4相近,合并为一类;另一个方向上,5、6接近合并为一类,然后与7合并为一类,8与9合并为一类,再与{5、6、7}合并为一类。最后,将这9类合并在一起。

研究者可以根据自己需要对9名学生进行分类。具体来说,研究者可以用一个水平线对树状图进行切割。如,水平线处于距离为3.5的地方,它与树状图有3处相交,则将9名学生分为3类,分别是{1,2,3,4}、{5、6、7}、{8,9};水平线处于距离为2.5的地方,则它与树状图4处相交,从而将9名学生分为4类,分别是{1、2、3}、{4}、{5、6、7}、{8、9}。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/245920.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java web 导出word_JavaWeb Project使用FreeMaker导出Word文件

基本思路1. 导入freemaker2.3.jar2. 需要导出的Word模板3. 在Word内填入值的标签4. Word另存为xml(2003版本)5. Coding6. 导出Word文件具体操作1. Intellij IDEA > FIle > Project Structure > Libraries > ""(左下角) > OK导入Freemaker Jar2. Word模…

sql 除以_使用SQL分析游戏运营情况

数据来源&#xff1a;http://www.dcjingsai.com/common/cmpt/%E6%B8%B8%E6%88%8F%E7%8E%A9%E5%AE%B6%E4%BB%98%E8%B4%B9%E9%87%91%E9%A2%9D%E9%A2%84%E6%B5%8B%E5%A4%A7%E8%B5%9B_%E7%AB%9E%E8%B5%9B%E4%BF%A1%E6%81%AF.html游戏介绍&#xff1a;《野蛮时代》是一款SLG游戏。在…

好看的php验证码,一漂亮的PHP图片验证码实例

一、显示效果二、代码如下代码如下:/** Author fy*/$imgwidth 100; //图片宽度$imgheight 40; //图片高度$codelen 4; //验证码长度$fontsize 20; //字体大小$charset abcdefghkmnprstuvwxyzABCDEFGHKMNPRSTUVWXYZ23456789;$font Fonts/segoesc.ttf;$imimagecreatetruecolor…

检测到目标服务器启用了trace方法_深度学习检测小目标常用方法

引言在深度学习目标检测中&#xff0c;特别是人脸检测中&#xff0c;小目标、小人脸的检测由于分辨率低&#xff0c;图片模糊&#xff0c;信息少&#xff0c;噪音多&#xff0c;所以一直是一个实际且常见的困难问题。不过在这几年的发展中&#xff0c;也涌现了一些提高小目标检…

php自定义能过滤器,过滤器与自定义过滤器的介绍

angularjs中的过滤器为了实现对于表达式结果的筛选、过滤、格式化&#xff0c;达到更好的表现效果。过滤器的语法&#xff1a;支持多重过滤和传参{{expression | 过滤器名称 : ‘参数’ | 过滤器名称2&#xff1a;‘参数’ }}方式&#xff1a;| -》 管道常用的过滤器&#xff1…

大数据项目开发案例_大数据分析技术——项目案例1(猫眼电影数据分析上)...

壹猫眼Top100电影数据分析概述从这一节开始&#xff0c;我们就综合利用已学到的一些分析技术来尝试做一些比较复杂的实际数据分析项目。在这些实际的项目案例中&#xff0c;我们将会看到一个完整的数据分析流程&#xff1a;数据清理——数据分析——数据可视化(即数据解释)。最…

matlab广泛用于什么,目前,Matlab已成为世界上最受欢迎的科学和工程计算软件工具....

目前&#xff0c;Matlab已成为世界上最受欢迎的用于科学和工程计算的软件工具. 它是一种新型的计算机高级编程语言&#xff0c;具有广阔的应用前景. 有人将其称为“第四代”计算机语言. 就影响而言&#xff0c;仍然没有其他计算软件可与Matlab匹敌. Matlab简介Matlab于1984年发…

必须使用列别名命名此表达式_lambda表达式

一般的&#xff0c;如果一个类定义了函数调用运算符&#xff0c;则我们可以像使用函数一样使用这个类&#xff0c;例如&#xff1a;一个类A定义了函数调用运算符&#xff0c;我们就可以使用A()这样的形式调用对象&#xff0c;实际上调用了类的调用运算符函数。如果一个类定义了…

mysql数据库出现幻读,MySQL 幻读怎样处理?_数据库

MySQL 幻读怎样处理&#xff1f;1、MVCC快照&#xff0c;将历史数据存一份快照&#xff0c;在其事件增添与删除数据时&#xff0c;保证当前事件来说是不可见的&#xff1b;多半数据库都完成了多版本并发掌握&#xff0c;而且都是靠保留数据快照来完成的。以 InnoDB 为例&#x…

搜索引擎提交软件_增加SEO超级外链须知的高权重网站目录提交方法

做SEO的朋友对开放式网站目录应该不陌生吧。网站目录就是按一定的分类方法把收录的网站进行分类归档。网站目录本身是不主动抓取网页的&#xff0c;一般只记录网站的名称&#xff0c;网址和有限的说明文字。和网址站、导航站、酷站网址大全等如同一辙。一般高质量的聚合目录网站…

把模糊MATLAB波形的图变清晰,什么修图软件能把模糊图片清晰化?

图片和内容的契合度再高&#xff0c;配色再完美&#xff0c;如果图片不清晰&#xff0c;那才真的是一图毁所有。针对这种情况&#xff0c;我也为大家找来两个非常实用的工具。第一个工具&#xff0c;SmartDeblur。主要针对原图分辨率不高的情况。这个软件目前支持三种模式&…

遗传算法在交通路线matlab,Matlab遗传算法公交车路线优化

Matlab遗传算法公交车路线优化Matlab遗传算法公交车路线优化Matlab遗传算法公交车路线优化1 模型介绍2模型分析2.1整体设计2.2要点分析3结果展示1 模型介绍以乘客出行总时间最小为目标函数&#xff0c;求出其最小值即为最终接驳优化方案。模型约束条件在算法过程中可能会产生不…

mysql 连续签到天数_新版签到活动明天上线,福利活动抢鲜看~

明天游戏中心app旧版福利签到活动马上就要结束啦&#xff0c;虽然很多的魅友反馈说积分签到结束的太早&#xff0c;积分不够换5折券&#xff0c;不过更早的开启新版签到才能更快的享受到更好的福利嘛~今晚0点新版签到活动即将上线&#xff0c;接下来就一起来看看新版的签到活动…

java中nio怎么实现聊天,JAVA-NIO实现聊天室详细代码说明

JAVA-NIO实现聊天室详细代码说明JAVA-NIO实现聊天室详细代码说明github源码&#xff1a;https://github.com/JolyouLu/JAVAIO.gitsrc\main\java\com\JolyouLu\nio\groupchat 文件夹下public class GroupChatServer {//定义属性private Selector selector;private ServerSocketC…

vscode 调试_如何使用VSCode调试JS?

更多精彩&#xff0c;请点击上方蓝字关注我们&#xff01;序言做前端开发的朋友经常需要使用Visual Studio Code编辑代码&#xff0c;很多朋友就想在VSCode调试JS代码&#xff0c;下面我们就介绍下如何配置操作。一、环境准备首先安装好VSCode&#xff0c;准备好一个JS项目&…

基于matlab的信号合成与分解,基于matlab的信号合成与分解

基于matlab的信号合成与分解 - I - 摘 要 为了便于进行周期信号的分析与处理&#xff0c;常要把复杂的周期信号进行分解&#xff0c;即将周期 信号分解为正余弦等此类基本信号的线性组合&#xff0c;通过对这些基本信号单元在时域和频域 特性的分析来达到了解信号特性的目的。本…

基站位置查询系统_木牛导航网络基站服务免费了!——更便捷、更高效、更省心!...

布谷飞飞劝早耕&#xff0c;春锄扑扑趁初晴。千层石树通行路&#xff0c;一带水田放水声。《山行》-- 姚鼐(Photo by Quang Nguyen Vinh)农业生产作为人类最传统的产业自古以来都讲究及时耕种&#xff0c;即抢农时根据气候适宜而进行季节性生产随着科技的发展&#xff0c;农业生…

php cgi进程很多win2008,php cgi.exe 太多 在 windowserver2008 apache 这个怎么样限制下?...

php cgi.exe 太多 在 windowserver2008 apache 这个怎么样限制下&#xff1f;mip版 关注:61 答案:2 悬赏:70解决时间 2021-02-24 01:48已解决2021-02-23 09:13php cgi.exe 太多 在 windowserver2008 apache 这个怎么样限制下&#xff1f;最佳答案2021-02-23 09:57可以设置最…

wince怎么刷carplay_Carplay支持仪表/HUD显示 宝马为全球超750000辆车发布OTA升级

【太平洋汽车网 新车频道】日前&#xff0c;宝马官方宣布&#xff0c;将从10月19日起为全球超过750000辆汽车提供iDrive 7.0最新版本的最重要的一次OTA升级。据悉&#xff0c;这项升级将有多项新功能加入&#xff0c;并重点支持Apple Carplay将导航等信息显示在HUD抬头显示和全…

php 如何调用redis,php如何调用redis

一、windows下php连接redis1、下载phpredishttps://github.com/nicolasff/phpredis/downloads2、根据你php版本&#xff0c;选择安装vc库&#xff0c;可以通过phpinfo();查看3、安装php_redis.dll模块将下载下来的php_redis模块放到php安装目录下的/ext/中&#xff0c;并在php.…