【统计分析数学模型】聚类分析

在这里插入图片描述

【统计分析数学模型】聚类分析

  • 一、聚类分析
    • 1. 基本原理
    • 2. 距离的度量
      • (1)变量的测量尺度
      • (2)距离
      • (3)R语言计算距离
  • 三、聚类方法
    • 1. 系统聚类法
    • 2. K均值法
  • 三、示例
    • 1. Q型聚类
      • (1)问题描述
      • (2)R语言求解
        • A. Ward法系统聚类
        • B. K均值法
    • 2. R型聚类
      • (1)问题描述
      • (2)R语言求解
        • A. 转换为距离矩阵
        • B. 最长距离法


一、聚类分析

1. 基本原理

聚类分析(Cluster Analysis) 是研究“物以类聚”的一种方法,有时称为群分析、点群分析、簇类分析等。

聚类分析是根据研究对象的特征对研究对象进行分类的多元分析技术的总称。聚类分析是应用最广泛的分类技术,它把性质相近的个体归为一类,使同一类的个体具有高度的同质性。

聚类分析大部分都属于探测性研究,最终结果是产生研究对象的分类,通过对数据的分类研究还能产生假设。聚类分析也可用于证实性目的,对于通过其他方法确定的数据分类,可以应用聚类分析进行检验。

  • 聚类分析和判别归类有着不同的分类目的,彼此之间既有区别又有联系。
  • 聚类分析分为Q型(分类对象为样品)和R型(分类对象为变量)两种。

2. 距离的度量

相似性度量包括:距离和相似系数.
样品之间的距离和相似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系.

(1)变量的测量尺度

变量的测量尺度:间隔、有序和名义尺度.

  1. 间隔变量: 变量用连续的量来表示,如长度、重量、速度、温度等.
  2. 有序变量: 变量度量时不用明确的数量表示,而是用等级来表示,如某产品分为一等品、二等品、三等品等有次序关系.
  3. 名义变量: 变量用一些类表示,这些类之间既无等级关系也无数量关系,如性别、职业、产品的型号等.

(2)距离

常用的距离包括:

  • 明考夫斯基(Minkowski)距离
  • 兰氏(Lance和Williams)距离
  • 马氏距离
  • 斜交空间距离

(3)R语言计算距离

dist(x, method = "euclidean", diag = FALSE, upper = FALSE, p = 2) 

其中参数含义:

参数含义
X数据矩阵
method距离计算方法包括"euclidean", "maximum“, “manhattan”, “canberra”, “binary” or “minkowski”
diag是否包含对角线元素
upper是否需要矩阵上三角
pMinkowski距离的幂次

示例:

X=c(1,2,6,8,11)
dist(X,diag=1,upper=1)

运行结果如下:

   1  2  3  4  5
1  0  1  5  7 10
2  1  0  4  6  9
3  5  4  0  2  5
4  7  6  2  0  3
5 10  9  5  3  0

三、聚类方法

1. 系统聚类法

hclust(d, method = “complete”,)
plot(x, labels = NULL, hang = 0.1, ...)

参数的含义如下:

参数含义
d由dist函数产生的相似矩阵
method聚类方法“single“(最短距离), ”complete“(最长距离), ”average” (类平均法), “median” (中间距离法), “centroid” (重心法), “ward.D” (ward法)
xhclust得出的聚类结果.
labels树形图标签

2. K均值法

kmeans(x, centers, iter.max = 10, nstart = 1, algorithm = c("Hartigan-Wong", "Lloyd", "Forgy", "MacQueen"), trace=FALSE)

参数的含义如下:

参数含义
x数据阵
centers聚类数或初始聚类点
iter.max最大迭代步数

三、示例

1. Q型聚类

(1)问题描述

数据资料来源:《应用多元统计分析》(第五版,王学民 编著)配书资料 例6.3.3

数据包括1999年全国31个省、直辖市和自治区的城镇居民家庭平均每人全年消费性支出的八个主要变量数据. 这八个变量是:

  • x1:食品
  • x2:衣着
  • x3:家庭设备用品及服务
  • x4:医疗保健
  • x5:交通和通讯
  • x6:娱乐教育文化服务
  • x7:居住
  • x8:杂项商品和服务

分别用最短距离法、重心法和Ward方法对各地区作聚类分析. 为同等地对待每一变量,在作聚类前,先对各变量作标准化变换.。

(2)R语言求解

A. Ward法系统聚类

代码如下:

d6.3.3=read.csv('examp6.3.3.csv',header=1)
d6.3.3s=scale(d6.3.3[,-1]) #标准化数据
rownames(d6.3.3s)=d6.3.3[,1]
hc=hclust(dist(d6.3.3s),'ward.D')  #使用Ward法系统聚类
plot(hc,hang=-1) #做出树形图
rect.hclust(hc,k=3) #作聚类框
cutree(hc, k=3) #将聚成三类的结果分别以1, 2, 3表示

在这里插入图片描述

> cutree(hc, k=3) #将聚成三类的结果分别以1, 2, 3表示北京   天津   河北   山西 内蒙古   辽宁   吉林 黑龙江   上海   江苏   浙江   安徽   福建 1      2      2      3      3      3      3      3      1      2      1      3      3 江西   山东   河南   湖北   湖南   广东   广西   海南   重庆   四川   贵州   云南   西藏 3      2      3      2      2      1      3      3      2      2      3      2      2 陕西   甘肃   青海   宁夏   新疆 3      3      3      3      2 
B. K均值法

运行代码:

kcl=kmeans(d6.3.3s,3)
sort(kcl$cluster) #对聚类结果进行排序
fviz_nbclust(d6.3.3s,kmeans,method='wss')

在这里插入图片描述

> sort(kcl$cluster) #对聚类结果进行排序天津   江苏   福建   山东   湖南   重庆   云南   西藏   北京   上海   浙江   广东   河北 1      1      1      1      1      1      1      1      2      2      2      2      3 山西 内蒙古   辽宁   吉林 黑龙江   安徽   江西   河南   湖北   广西   海南   四川   贵州 3      3      3      3      3      3      3      3      3      3      3      3      3 陕西   甘肃   青海   宁夏   新疆 3      3      3      3      3 

2. R型聚类

(1)问题描述

数据资料来源:《应用多元统计分析》(第五版,王学民 编著)配书资料 例6.3.7

对305名女中学生测量八个体型指标:

  • x1:身高
  • x2:手臂长
  • x3:上肢长
  • x4:下肢长
  • x5:体重
  • x6:颈围
  • x7:胸围
  • x8:胸宽

(2)R语言求解

代码如下:

A. 转换为距离矩阵
d6.3.7 = read.csv('examp6.3.7.csv',header=1)
d = as.dist(1-d6.3.7[,-1], diag=T) #转换为距离矩阵
> d身高 手臂长 上肢长 下肢长  体重  颈围  胸围  胸宽
身高   0.000                                             
手臂长 0.154  0.000                                      
上肢长 0.195  0.119  0.000                               
下肢长 0.141  0.174  0.199  0.000                        
体重   0.527  0.624  0.620  0.564 0.000                  
颈围   0.602  0.674  0.681  0.671 0.238 0.000            
胸围   0.699  0.723  0.763  0.673 0.270 0.417 0.000      
胸宽   0.618  0.585  0.655  0.635 0.371 0.423 0.461 0.000
B. 最长距离法
hc = hclust(d, "complete") #最长距离法
plot(hc, hang=-1) #树形图
rect.hclust(hc, k=2) #将聚成的两类用边框界定
cutree(hc, k=2) #将聚成两类的结果分别以1, 2表示

在这里插入图片描述

> cutree(hc, k=2) #将聚成两类的结果分别以1, 2表示身高 手臂长 上肢长 下肢长   体重   颈围   胸围   胸宽 1      1      1      1      2      2      2      2 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/694536.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【2024软件测试面试必会技能】Appium自动化(4):Appium工作原理及Desired Capabilities配置

Appium工作原理 Appium工作原理图如下: 脚本请求——>4723端口appium server——>解析参数给PC端4724端口——>发送给设备4724端口——>通过设备4724端口发给bootstrap.jar——>Bootstrap.jar把命令发给uiautomator; sonWireProtocol&a…

java常用应用程序编程接口(API)——Objects类和包装类

前言: Object类和Objects类是完全不同的两个类,之前有说过Object类,这次说一下Objects类。打好基础,daydayup! Object类可以看这篇:java常用应用程序编程接口(API)——Object类概述及常用方法 O…

计算机网络基础之计算机网络组成与分类

计算机网络基础 计算机网络是计算机技术与通信技术发展相结合的产物,并在用户需求的促进下得到进一步的发展。通信技术为计算机之间的数据传输和交换提供了必需的手段,而计算机技术又渗透到了通信领域,提高了通信网络的性能。 计算机网络的…

【谈一谈】: 我们工作中的单例模式有哪些写法?

单例模式的多种写法 我们要实现一个单例,首先最重要的是什么? 当然是把构造函数私有化,变成private类型,(为啥? 单例单例,如果谁都能通过构造函数创建对象,还叫单例吗?是不~) 嗯~我们构造函数私有化后,我们应该操作啥呢? 接着我们需要提供一个方法,这个方法要保证初始化有且…

数据脱敏(六)脱敏算法-加密算法

脱敏算法篇使用阿里云数据脱敏算法为模板,使用算子平台快速搭建流程来展示数据 "加密脱敏"是一种数据处理技术,主要用于保护个人隐私和数据安全。它通过将敏感信息(如姓名、身份证号、电话号码等)进行加密处理,使其无法…

阿里同学聊测试开发与测试平台

在一线大厂,没有测试这个岗位,只有测开这个岗位,即使是做业务测试,那么你的title也是测开。 所以想聊一聊测开的看法,但不代表这是正确的看法,仅供参考。 没来阿里之前我对测开的看法 一直以为专职做自动…

DIcom调试Planar configuration

最近和CBCT组同事调dicom图像 这边得图像模块老不兼容对方得dicom文件。 vtk兼容,自己写得原生解析不兼容。 给对方调好了格式,下次生成文件还会有错。 简单记录下,日后备查。 今天对方又加了 个字段:Planar configuration 查…

【常识】大数据设计基础知识

底层存储:hadoop(hdfsmapreduce) Hadoop已经有十几年的历史,它是大数据领域的存储基石,HDFS目前仍然没有成熟替代品;MapR 文件系统在业内已经具有一定知名度了,不仅 MapR 宣布它自己的文件系统比 HDFS 快2-…

【Unity】【VRTK】【VR开发】同时保持高效打包和调试的VRTK项目设置方式

【背景】 开发功能时希望能够快速调试,在Preview和开发编辑器间流畅切换。后期又希望快速打包到目标安卓平台,感受头盔内部的画面和操作效果。麻烦在于,这两者往往不是明确区分的,很可能一会儿只是想快速验证一下某些功能动作&am…

二进制搭建 Kubernetes

实验流程 k8s集群master01:192.168.75.10 kube-apiserver kube-controller-manager kube-scheduler etcd k8s集群master02:192.168.80.20 k8s集群node01:192.168.75.20 kubelet kube-proxy docker k8s集群node02:192.168.…

Out of memory,realloc failed

git config --global http.postBuffer 1048576000

多线程相关(2)

线程池 构造函数处理过程拒绝策略JDK 内置的拒绝策略 Executors类实现线程池线程池大小设置 通过复用已创建的线程,降低资源损耗、线程可以直接处理队列中的任务加快响应速度、同时便于统一监控和管理。 构造函数 /*** 线程池构造函数7大参数*/ public ThreadPoolE…

opencv鼠标操作与响应

//鼠标事件 Point sp(-1, -1); Point ep(-1, -1); Mat temp; static void on_draw(int event, int x, int y, int flags, void *userdata) {Mat image *((Mat*)userdata);if (event EVENT_LBUTTONDOWN) {sp.x x;sp.y y;std::cout << "start point:"<<…

动态住宅IP代理是什么意思,与静态住宅IP代理的区别和比较

动态住宅IP代理是一种不断变化的IP地址解决方案&#xff0c;用于提高在线安全性、绕过地理限制并进行高级数据挖掘。与静态住宅IP代理相比&#xff0c;动态IP提供更高的匿名性和灵活性&#xff0c;但也有其独特的局限性和成本。我们旨在为您提供一个全面的视角&#xff0c;让您…

LocalSend跨设备传输文件传输协议 v2

LocalSend仓库地址&#xff1a;GitHub - localsend/localsend: An open-source cross-platform alternative to AirDrop LocalSend 协议 v2 English | 简体中文 主要为了实现一个不依赖于任何外部服务器的简单 REST 协议。 因为计算机网络比较复杂&#xff0c;因此我们不能假…

Java实现假日旅社管理系统 JAVA+Vue+SpringBoot+MySQL

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 系统介绍2.2 QA 问答 三、系统展示四、核心代码4.1 查询民宿4.2 新增民宿评论4.3 查询民宿新闻4.4 新建民宿预订单4.5 查询我的民宿预订单 五、免责说明 一、摘要 1.1 项目介绍 基于JAVAVueSpringBootMySQL的假日旅社…

第十七届“挑战杯”广东大学生课外学术科技作品比赛感想

博主曾在2023年参加了第十七届“挑战杯”广东大学生课外学术科技作品比赛&#xff0c;也就是人们俗称的大挑&#xff0c;在团队赛里面含金量应该是排在第一档的了&#xff0c;当初我们有幸作为学校唯一一支科技创新B类进入到线下答辩&#xff0c;线下答辩就是区分银奖和金奖和特…

恩智浦MCX A系列:开启工程师的无限创造潜力 | 百能云芯

恩智浦半导体&#xff08;NXP&#xff09;最近宣布推出旗下MCX产品组合中的全新成员——通用A系列的首批产品MCX A14x和MCX A15x&#xff0c;现已正式上市。这一系列的微控制器&#xff08;MCU&#xff09;不仅性价比高、使用便捷、体积小巧&#xff0c;而且还旨在为工程师们打…

分布式版本控制系统 Git

目录 一、Git简介 二、Git历史 三、安装git 1.准备环境 2.Yum安装Git 四、初次运行 Git 前的配置 命令集 实例&#xff1a; 五、Git命令常规操作 六、获取 Git 仓库&#xff08;初始化仓库&#xff09; 创建裸库 实例 &#xff1a; 创建本地库 一、Git简介 官网&…

opencv-python安装失败问题解决

用pip install opencv-python命令终端中出现如下报错&#xff1a; 解决方法&#xff0c;换一个源&#xff0c;输入&#xff1a; pip install opencv-python -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com运行之后即可安装成功&#xff1a;