r语言聚类分析_图说层次聚类分析原理和R语言实现

1、引言

“物以类聚、人以群分”。但我们面对一群人或者一堆物的时候,我们都希望将他们分分类,分类之后,我们才能更加有针对性地采取措施,从而提高工作效率。

如,我们将消费者分成若干类,有的是土豪、有的是工薪阶层,然后我们就采取不同的营销策略。再比如,我们将交通出行者分成若干类,有的是公共交通出行、有的是打车出行、有的是私车出行等,然后采取不同服务措施。

分类的方法很多,这里介绍一种称之为聚类分析的方法。更准确的说,聚类分析也有很多种类,这里仅仅介绍其中最为基础的一种,称之为层次聚类分析。


2、层次聚类分析原理

现在假设,我们有9名同学,参加满分为10分的语文和数学考试。他们的成绩,见表1。

表1 9名同学的语文和数学成绩

1bba9f79cad6f1f64e802f1faf7301e4.png

为了便于观察,我们用散点图描述学生的成绩,如图1所示。

898212da09b840f6736fd0c06fc240b6.png

图1 9名同学成绩在两维空间上的分布

从图1我们可以看出,9名学生大约可以分为三类。

第一类由编号为1、2、3、4的学生组成,它们的特点是语文和数学成绩都不太好。

第二类由编号为5、6、7的同学组成,他们的特点是语文成绩一般,但数学成绩较好。

第三类由编号为8、9的同学组成,他们的特点是语文较好,但数学成绩不太好。

三类学生特点不同,也决定着下一步学习特点不同。因此,有效地分类,可以提高教学的针对性。

然而这个分类是根据肉眼观察得到的,并不严谨。下面,我们介绍如何通过数学的方法分析得到。


首先,我们需要明确,分类的依据是学生成绩之间的距离。距离越小,则他们越可能分到同一个类别中;距离越大,则他们越不可能分到同一个类别中。

描述他们之间距离的公式很多,不同公式应用在不同场合,这也表明了聚类分析内容的丰富性。

其中一个经典的公式是用来计算马氏距离的公式。简单说就是,两点之间的距离等于他们的横坐标之差的平方加纵坐标之差的平方的开方,用数学公式表示为

由此我们可以得到这9名同学学习成绩之间的距离,见表2。

表2 9名学生的学习成绩之间的距离

86856080f1ac2f59ad353a2671211d06.png

从表2中可以看出,在所有32个距离中,最小的距离为1,为学生1与学生2、3的距离、学生5与学生6、7的距离,以及学生8与学生9之间的距离。

据此,我们将学生1、2、3合并作为一类,5、6、7合并作为一类、8、9合并作为一类,学生4单独作为一类。这样,9名同学分为4类,分别命名为{簇1.1,簇1.2,簇1.3,簇1.4 }。


但是,假如我们只有两个老师,必须讲9名同学分成两类。那么就需要在上述4类基础上继续划分。

首先,我们需要找到一个代表值来代表各类。这种代表方法很多,一般教材提供了8种。(这也说明聚类分析内容的丰富性。)

这里选择其中一种,叫做中心点法,简单说就算平均值。如,类1包含{1,2,3},其坐标值为{(1,1),(0,1),(1,0)},其平均值为(0.67,0.67)。我们用坐标为(0.67,0.67),代表一类。

这样,{簇1.1,簇1.2,簇1.3,簇1.4 }的坐标值,见表3。

表3 第一次聚类后的各簇中心点分布

1bb44901c5fb01aec10e932f2934e9cd.png

在空间上的分布,如图2所示。

7301a9062ef25394257d3dec6dbfed64.png

图2 第一次聚类后各簇中心点分布情况

在图2中,黑色点表示原来9名学生的成绩。而蓝色米状点则表示各簇的中心点,以代表各簇。


为进一步聚类,计算它们之间的距离,结果见表4。

表4 第一次聚类后各簇之间的距离

ccce2d3b5bb3c47b123ec825c4f97719.png

根据表4的结果,簇1.1 和簇1.2距离较近,合并,形成簇2.1。簇1.2、簇1.3,未与其他簇合并,保留下来,分别命名为簇2.2、簇2.3。

这样{簇2.1、簇2.2、簇2.3}的坐标,见表5。

83d94144c5582df354495a6bbb1c5dc1.png

表5 第二次聚类后各簇的坐标

需要注意的是,簇2.1 的坐标不是簇1.1和簇1.2 的坐标的平均值,而是簇1.1和簇1.2 中所有学生的成绩的平均值,因此为(1,1.25)。

其在空间上的分布,如图3所示。

71e780cde5e26de518eb6dcb69cde346.png

图3 第二次聚类后各簇的位置

图3中,绿色三角表示第二次聚类后各簇的中心位置。


继续计算簇2.1、簇2.2、簇2.3 的距离,见表6。

表6 {簇2.1、簇2.2、簇2.3}之间的距离

167280412ec20eb2db6bc7d18b375a2c.png

从表6可以看出,簇2.2和2.3 距离更近,它们可以合并。这样就形成了两类{簇3.1、簇3.2}。

绘制出{簇3.1和簇3.2}的位置,如图4所示。途中,红色田字表示簇3.1和簇3.2的位置。

70ad55c2673b7be186b877c7c0c28851.png

图4 第三次聚类后各簇位置

簇3.1和簇3.2都是9名同学经过三次合并(聚类)得到的,其中簇3.1 是由{1、2、3、4}等4名同学合并,包含着簇2.1、簇1.1和簇1.2。簇3.2 是由{5、6、7、8、9}等5名同学合并的,包含着簇2.2、簇2.3、簇1.3和1.4。


3、聚类分析在R语言中实现

前面用冗长的文字介绍了聚类分析的过程,从而揭示聚类分析的原理。在R语言中,我们用4句代码,实现上述过程。

# 输入原始数据

dt1<-as.data.frame(cbind(c(1,0,1,2,3,3,2,7,8),c(1,1,0,3,8,9,8,4,4)))

# 给各列命名

colnames(dt1)<-c("语文","数学")

#因为下面的hclust只能处理矩阵,因此需要计算距离矩阵。

result <- dist(dt1)

#调用hclust函数,生成聚类结果

result_hc <- hclust(d = result, method = "average")

#将聚类结果展示出来

plot(result_hc,main="聚类结果",ylab="距离",xlab="学生")

3982b1a599ded0f4c1bf664921a90f4c.png

图5 聚类分析结果

图5以一个树状图的方式描述各个学生之间距离远近。从下而上可以观察,1和2距离较近,合并为一类;然后1、2与3较近,合并为一类;再然后与4相近,合并为一类;另一个方向上,5、6接近合并为一类,然后与7合并为一类,8与9合并为一类,再与{5、6、7}合并为一类。最后,将这9类合并在一起。

研究者可以根据自己需要对9名学生进行分类。具体来说,研究者可以用一个水平线对树状图进行切割。如,水平线处于距离为3.5的地方,它与树状图有3处相交,则将9名学生分为3类,分别是{1,2,3,4}、{5、6、7}、{8,9};水平线处于距离为2.5的地方,则它与树状图4处相交,从而将9名学生分为4类,分别是{1、2、3}、{4}、{5、6、7}、{8、9}。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/245920.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

peewee创建mysql_python – peewee MySQL,如何创建包装SQL构建的ins的自定义字段类型?...

我想在peewee(通过MySQL)创建一个自定义UUID字段.在python中,我使用UUID作为一个六角形字符串,例如&#xff1a;uuid ’110e8400-e29b-11d4-a716-446655440000′但是我想将它存储在数据库中的BINARY(16)类型的列中以节省空间.MySQL内置了HEX()和UNHEX()方法,可以在字符串和二进…

python scrapy教程实例_Python之scrapy实例1

下文参考&#xff1a;http://www.jb51.net/article/57183.htm个人也是稍加整理&#xff0c;修改其中的一些错误&#xff0c;这些错误与scrapy版本选择有关&#xff0c;个环境&#xff1a;Win7x64_SP1 Python2.7 scrapy1.1另外例子中的URL(http://www.dmoz.org/Computers/Prog…

goods.java_javaweb网上书城项目 1.用户管理:注册会员 - 下载 - 搜珍网

压缩包 : java web网上图书商城项目.zip 列表java web网上图书商城项目/java web网上图书商城项目/goods/java web网上图书商城项目/goods/.classpathjava web网上图书商城项目/goods/.myeclipse/java web网上图书商城项目/goods/.mymetadatajava web网上图书商城项目/goods/.p…

python样本不均衡_使用Python中的smote处理正负样本之间的不平衡,python,实现,失衡,问题...

机器学习中难免遇到正负样本不平衡问题&#xff0c;处理办法通常有梁总&#xff0c;一&#xff1a;过采样&#xff0c;增加正样本数据&#xff1b;二&#xff1a;欠采样&#xff0c;减少负样本数据&#xff0c;缺点是会丢失一些重要信息。smote属于过采样。代码# from imblearn…

java 检测硬盘原理_深入Java核心 Java内存分配原理精讲

Java内存分配与管理是Java的核心技术之一&#xff0c;一般Java在内存分配时会涉及到以下区域&#xff1a;◆寄存器&#xff1a;我们在程序中无法控制◆栈&#xff1a;存放基本类型的数据和对象的引用&#xff0c;但对象本身不存放在栈中&#xff0c;而是存放在堆中◆堆&#xf…

python调用sdk的文章_如何使用 python 接入虹软 ArcFace SDK

公司需要在项目中使用人脸识别SDK&#xff0c;并且对信息安全的要求非常高&#xff0c;在详细了解市场上几个主流人脸识别SDK后&#xff0c;综合来看虹软的Arcface SDK比较符合我们的需求&#xff0c;它提供了免费版本&#xff0c;并且可以在离线环境下使用&#xff0c;这一点非…

java web 导出word_JavaWeb Project使用FreeMaker导出Word文件

基本思路1. 导入freemaker2.3.jar2. 需要导出的Word模板3. 在Word内填入值的标签4. Word另存为xml(2003版本)5. Coding6. 导出Word文件具体操作1. Intellij IDEA > FIle > Project Structure > Libraries > ""(左下角) > OK导入Freemaker Jar2. Word模…

机器人编程与python语言的区别_儿童编程和机器人编程有啥区别?

这是最全面的回答&#xff01;一篇文章让你彻底了解少儿编程和机器人编程的区别&#xff01;虽然都带有“编程”二字&#xff0c;但少儿编程和机器人编程还是有本质区别的&#xff0c;有哪些不一样呢&#xff1f;偷懒的家长可以直接看下面这张表格&#xff1a;想要详细了解的话…

php中tables,php显示TABLE数据

php显示TABLE数据2018-11-22//processShowData.php查询数据库表信息学生一览表<?php echo $id ?><?php echo $name ?><?php echo $age ?><?php echo $sex ?><?php echo $address ?>结果&#xff1a;学号姓名年龄性别地址1Jane26female…

云服务器安装python_云服务器 搭建 python

{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":6,"count":6}]},"card":[{"des":"云服务器 ECS(Elastic Compute Service)是一…

php获取当前系统配置文件,thinkphp5.1+配置文件结构及获取

tp5.1和5.0的差别还是不小的&#xff0c;取消了很多东西&#xff0c;例如基本配置项就做了很大的改变。5.1没有config.php配置文件&#xff0c;默认配置都在app.php配置文件&#xff0c;并且配置参数区分大小写&#xff0c;所有的配置文件在config目录下。和5.0最大的区别是&am…

sql 除以_使用SQL分析游戏运营情况

数据来源&#xff1a;http://www.dcjingsai.com/common/cmpt/%E6%B8%B8%E6%88%8F%E7%8E%A9%E5%AE%B6%E4%BB%98%E8%B4%B9%E9%87%91%E9%A2%9D%E9%A2%84%E6%B5%8B%E5%A4%A7%E8%B5%9B_%E7%AB%9E%E8%B5%9B%E4%BF%A1%E6%81%AF.html游戏介绍&#xff1a;《野蛮时代》是一款SLG游戏。在…

好看的php验证码,一漂亮的PHP图片验证码实例

一、显示效果二、代码如下代码如下:/** Author fy*/$imgwidth 100; //图片宽度$imgheight 40; //图片高度$codelen 4; //验证码长度$fontsize 20; //字体大小$charset abcdefghkmnprstuvwxyzABCDEFGHKMNPRSTUVWXYZ23456789;$font Fonts/segoesc.ttf;$imimagecreatetruecolor…

检测到目标服务器启用了trace方法_深度学习检测小目标常用方法

引言在深度学习目标检测中&#xff0c;特别是人脸检测中&#xff0c;小目标、小人脸的检测由于分辨率低&#xff0c;图片模糊&#xff0c;信息少&#xff0c;噪音多&#xff0c;所以一直是一个实际且常见的困难问题。不过在这几年的发展中&#xff0c;也涌现了一些提高小目标检…

php正则大小写字母,php 常见email,url,英文大小写,字母数字组合等正则表达式详解...

操作符 描述\ 转义符(), (?:), (?), [] 圆括号和方括号*, , ?, {n}, {n,}, {n,m} 限定符^, $, \anymetacharacter 位置和顺序| “或”操作全部符号解释字符 描述\ 将下一个字符标记为一个特殊字符、或一个原义字符、或一个 向后引用、或一个八进制转义符。例如&#xff0c;’…

学python五大理由_学习Python的五大理由

Python已经是25岁的大叔级编程语言了&#xff0c;但近年来Python反而变得越来越流行&#xff0c;在TIOBE编程语言指数排行榜中&#xff0c;Python的排名从去年的第八名飙升到了第五名(下图)。无论是编程新手还是保持饥饿的编程老鸟&#xff0c;Python都有着不可阻挡的魅力&…

redis连不上java,java使用jedis连不上linux上redis服务

java用的jedis连接redis。reids是安装在虚拟机里面&#xff0c;ip是192.168.216.128&#xff0c;在本地能ping通虚拟机&#xff0c;并且xshell也能远程登录虚拟机。虚拟机内的redis服务正常&#xff0c;可以启动&#xff0c;并且执行命令没问题。问题&#xff1a;在虚拟机外tel…

python图片隐写_Lsb图片隐写

前言在刚刚过去的网鼎杯第一场比赛中&#xff0c;做到了一道杂项题是关于lsb隐写的。LSB全称为 least significant bit&#xff0c;是最低有效位的意思。Lsb图片隐写是基于lsb算法的一种图片隐写术&#xff0c;以下统称为lsb隐写&#xff0c;这是一种常见的信息隐藏方法。当然关…

php自定义能过滤器,过滤器与自定义过滤器的介绍

angularjs中的过滤器为了实现对于表达式结果的筛选、过滤、格式化&#xff0c;达到更好的表现效果。过滤器的语法&#xff1a;支持多重过滤和传参{{expression | 过滤器名称 : ‘参数’ | 过滤器名称2&#xff1a;‘参数’ }}方式&#xff1a;| -》 管道常用的过滤器&#xff1…

python二维元素向量_详解python Numpy中求向量和矩阵的范数

在python Numpy中求向量和矩阵的范数实例np.linalg.norm(求范数):linalglinear(线性)algebra(代数)&#xff0c;norm则表示范数。函数参数x_normnp.linalg.norm(x, ordNone, axisNone, keepdimsFalse)①x: 表示矩阵(也可以是一维)②ord&#xff1a;范数类型向量的范数&#xff…