【统计分析数学模型】聚类分析

在这里插入图片描述

【统计分析数学模型】聚类分析

  • 一、聚类分析
    • 1. 基本原理
    • 2. 距离的度量
      • (1)变量的测量尺度
      • (2)距离
      • (3)R语言计算距离
  • 三、聚类方法
    • 1. 系统聚类法
    • 2. K均值法
  • 三、示例
    • 1. Q型聚类
      • (1)问题描述
      • (2)R语言求解
        • A. Ward法系统聚类
        • B. K均值法
    • 2. R型聚类
      • (1)问题描述
      • (2)R语言求解
        • A. 转换为距离矩阵
        • B. 最长距离法


一、聚类分析

1. 基本原理

聚类分析(Cluster Analysis) 是研究“物以类聚”的一种方法,有时称为群分析、点群分析、簇类分析等。

聚类分析是根据研究对象的特征对研究对象进行分类的多元分析技术的总称。聚类分析是应用最广泛的分类技术,它把性质相近的个体归为一类,使同一类的个体具有高度的同质性。

聚类分析大部分都属于探测性研究,最终结果是产生研究对象的分类,通过对数据的分类研究还能产生假设。聚类分析也可用于证实性目的,对于通过其他方法确定的数据分类,可以应用聚类分析进行检验。

  • 聚类分析和判别归类有着不同的分类目的,彼此之间既有区别又有联系。
  • 聚类分析分为Q型(分类对象为样品)和R型(分类对象为变量)两种。

2. 距离的度量

相似性度量包括:距离和相似系数.
样品之间的距离和相似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系.

(1)变量的测量尺度

变量的测量尺度:间隔、有序和名义尺度.

  1. 间隔变量: 变量用连续的量来表示,如长度、重量、速度、温度等.
  2. 有序变量: 变量度量时不用明确的数量表示,而是用等级来表示,如某产品分为一等品、二等品、三等品等有次序关系.
  3. 名义变量: 变量用一些类表示,这些类之间既无等级关系也无数量关系,如性别、职业、产品的型号等.

(2)距离

常用的距离包括:

  • 明考夫斯基(Minkowski)距离
  • 兰氏(Lance和Williams)距离
  • 马氏距离
  • 斜交空间距离

(3)R语言计算距离

dist(x, method = "euclidean", diag = FALSE, upper = FALSE, p = 2) 

其中参数含义:

参数含义
X数据矩阵
method距离计算方法包括"euclidean", "maximum“, “manhattan”, “canberra”, “binary” or “minkowski”
diag是否包含对角线元素
upper是否需要矩阵上三角
pMinkowski距离的幂次

示例:

X=c(1,2,6,8,11)
dist(X,diag=1,upper=1)

运行结果如下:

   1  2  3  4  5
1  0  1  5  7 10
2  1  0  4  6  9
3  5  4  0  2  5
4  7  6  2  0  3
5 10  9  5  3  0

三、聚类方法

1. 系统聚类法

hclust(d, method = “complete”,)
plot(x, labels = NULL, hang = 0.1, ...)

参数的含义如下:

参数含义
d由dist函数产生的相似矩阵
method聚类方法“single“(最短距离), ”complete“(最长距离), ”average” (类平均法), “median” (中间距离法), “centroid” (重心法), “ward.D” (ward法)
xhclust得出的聚类结果.
labels树形图标签

2. K均值法

kmeans(x, centers, iter.max = 10, nstart = 1, algorithm = c("Hartigan-Wong", "Lloyd", "Forgy", "MacQueen"), trace=FALSE)

参数的含义如下:

参数含义
x数据阵
centers聚类数或初始聚类点
iter.max最大迭代步数

三、示例

1. Q型聚类

(1)问题描述

数据资料来源:《应用多元统计分析》(第五版,王学民 编著)配书资料 例6.3.3

数据包括1999年全国31个省、直辖市和自治区的城镇居民家庭平均每人全年消费性支出的八个主要变量数据. 这八个变量是:

  • x1:食品
  • x2:衣着
  • x3:家庭设备用品及服务
  • x4:医疗保健
  • x5:交通和通讯
  • x6:娱乐教育文化服务
  • x7:居住
  • x8:杂项商品和服务

分别用最短距离法、重心法和Ward方法对各地区作聚类分析. 为同等地对待每一变量,在作聚类前,先对各变量作标准化变换.。

(2)R语言求解

A. Ward法系统聚类

代码如下:

d6.3.3=read.csv('examp6.3.3.csv',header=1)
d6.3.3s=scale(d6.3.3[,-1]) #标准化数据
rownames(d6.3.3s)=d6.3.3[,1]
hc=hclust(dist(d6.3.3s),'ward.D')  #使用Ward法系统聚类
plot(hc,hang=-1) #做出树形图
rect.hclust(hc,k=3) #作聚类框
cutree(hc, k=3) #将聚成三类的结果分别以1, 2, 3表示

在这里插入图片描述

> cutree(hc, k=3) #将聚成三类的结果分别以1, 2, 3表示北京   天津   河北   山西 内蒙古   辽宁   吉林 黑龙江   上海   江苏   浙江   安徽   福建 1      2      2      3      3      3      3      3      1      2      1      3      3 江西   山东   河南   湖北   湖南   广东   广西   海南   重庆   四川   贵州   云南   西藏 3      2      3      2      2      1      3      3      2      2      3      2      2 陕西   甘肃   青海   宁夏   新疆 3      3      3      3      2 
B. K均值法

运行代码:

kcl=kmeans(d6.3.3s,3)
sort(kcl$cluster) #对聚类结果进行排序
fviz_nbclust(d6.3.3s,kmeans,method='wss')

在这里插入图片描述

> sort(kcl$cluster) #对聚类结果进行排序天津   江苏   福建   山东   湖南   重庆   云南   西藏   北京   上海   浙江   广东   河北 1      1      1      1      1      1      1      1      2      2      2      2      3 山西 内蒙古   辽宁   吉林 黑龙江   安徽   江西   河南   湖北   广西   海南   四川   贵州 3      3      3      3      3      3      3      3      3      3      3      3      3 陕西   甘肃   青海   宁夏   新疆 3      3      3      3      3 

2. R型聚类

(1)问题描述

数据资料来源:《应用多元统计分析》(第五版,王学民 编著)配书资料 例6.3.7

对305名女中学生测量八个体型指标:

  • x1:身高
  • x2:手臂长
  • x3:上肢长
  • x4:下肢长
  • x5:体重
  • x6:颈围
  • x7:胸围
  • x8:胸宽

(2)R语言求解

代码如下:

A. 转换为距离矩阵
d6.3.7 = read.csv('examp6.3.7.csv',header=1)
d = as.dist(1-d6.3.7[,-1], diag=T) #转换为距离矩阵
> d身高 手臂长 上肢长 下肢长  体重  颈围  胸围  胸宽
身高   0.000                                             
手臂长 0.154  0.000                                      
上肢长 0.195  0.119  0.000                               
下肢长 0.141  0.174  0.199  0.000                        
体重   0.527  0.624  0.620  0.564 0.000                  
颈围   0.602  0.674  0.681  0.671 0.238 0.000            
胸围   0.699  0.723  0.763  0.673 0.270 0.417 0.000      
胸宽   0.618  0.585  0.655  0.635 0.371 0.423 0.461 0.000
B. 最长距离法
hc = hclust(d, "complete") #最长距离法
plot(hc, hang=-1) #树形图
rect.hclust(hc, k=2) #将聚成的两类用边框界定
cutree(hc, k=2) #将聚成两类的结果分别以1, 2表示

在这里插入图片描述

> cutree(hc, k=2) #将聚成两类的结果分别以1, 2表示身高 手臂长 上肢长 下肢长   体重   颈围   胸围   胸宽 1      1      1      1      2      2      2      2 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/694536.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大白话解析LevelDB: Block Iterator

文章目录 Block IteratorIterator 接口Block Iterator 的实现Block Iterator 的私有成员Block Iterator 的构造函数Block::Iter::Valid()Block::Iter::status()Block::Iter::key()Block::Iter::value()Block::Iter::Next()Block::Iter::Prev()Block::Iter::Seek(const Slice&am…

【2024软件测试面试必会技能】Appium自动化(4):Appium工作原理及Desired Capabilities配置

Appium工作原理 Appium工作原理图如下: 脚本请求——>4723端口appium server——>解析参数给PC端4724端口——>发送给设备4724端口——>通过设备4724端口发给bootstrap.jar——>Bootstrap.jar把命令发给uiautomator; sonWireProtocol&a…

java常用应用程序编程接口(API)——Objects类和包装类

前言: Object类和Objects类是完全不同的两个类,之前有说过Object类,这次说一下Objects类。打好基础,daydayup! Object类可以看这篇:java常用应用程序编程接口(API)——Object类概述及常用方法 O…

计算机网络基础之计算机网络组成与分类

计算机网络基础 计算机网络是计算机技术与通信技术发展相结合的产物,并在用户需求的促进下得到进一步的发展。通信技术为计算机之间的数据传输和交换提供了必需的手段,而计算机技术又渗透到了通信领域,提高了通信网络的性能。 计算机网络的…

Codeforces Round 926 (Div. 2) C. Sasha and the Casino

题目链接 思路: 他想知道自己是否可以赢取尽量多的数量的硬币。即他要采取措施让自己的硬币在任何情况下(不会连输超过x次)都要不断增多。 即我们考虑第一次,第二次,,,第x次,每一次都有赢和输的…

【谈一谈】: 我们工作中的单例模式有哪些写法?

单例模式的多种写法 我们要实现一个单例,首先最重要的是什么? 当然是把构造函数私有化,变成private类型,(为啥? 单例单例,如果谁都能通过构造函数创建对象,还叫单例吗?是不~) 嗯~我们构造函数私有化后,我们应该操作啥呢? 接着我们需要提供一个方法,这个方法要保证初始化有且…

数据脱敏(六)脱敏算法-加密算法

脱敏算法篇使用阿里云数据脱敏算法为模板,使用算子平台快速搭建流程来展示数据 "加密脱敏"是一种数据处理技术,主要用于保护个人隐私和数据安全。它通过将敏感信息(如姓名、身份证号、电话号码等)进行加密处理,使其无法…

力扣题目-178. 分数排名

力扣题目-178. 分数排名 仅作学习,不作他用 题干 表: Scores Column NameTypeidintscoredecimal 在 SQL 中,id 是该表的主键。 该表的每一行都包含了一场比赛的分数。Score 是一个有两位小数点的浮点值。 查询并对分数进行排序。排名按以下规则计算…

阿里同学聊测试开发与测试平台

在一线大厂,没有测试这个岗位,只有测开这个岗位,即使是做业务测试,那么你的title也是测开。 所以想聊一聊测开的看法,但不代表这是正确的看法,仅供参考。 没来阿里之前我对测开的看法 一直以为专职做自动…

DIcom调试Planar configuration

最近和CBCT组同事调dicom图像 这边得图像模块老不兼容对方得dicom文件。 vtk兼容,自己写得原生解析不兼容。 给对方调好了格式,下次生成文件还会有错。 简单记录下,日后备查。 今天对方又加了 个字段:Planar configuration 查…

Gradio学习(二)—————学习block布局

直接上代码 import gradio as gr with gr.Blocks() as demo: with gr.Tab(“Lion”) gr.Button(“new Lion”) with gr.Tab(“Tiger”): gr.Button(“new Tiger”) #因为在虚拟机中启动,而不是pycharm 所以指定主机ip (1.1.1.1)和端口号,如果是在pycharm 中&#…

【常识】大数据设计基础知识

底层存储:hadoop(hdfsmapreduce) Hadoop已经有十几年的历史,它是大数据领域的存储基石,HDFS目前仍然没有成熟替代品;MapR 文件系统在业内已经具有一定知名度了,不仅 MapR 宣布它自己的文件系统比 HDFS 快2-…

浙大版C语言题目集-函数题6

6-3 给定两个均不超过9的正整数a和n&#xff0c;要求编写函数求aaaaaa⋯aa⋯a&#xff08;n个a&#xff09;之和。 其中函数fn须返回的是n个a组成的数字&#xff1b;SumA返回要求的和。 #include <stdio.h>int fn( int a, int n ); int SumA( int a, int n );int main…

算法:两数之和

算法&#xff1a;两数之和 方法一&#xff1a;暴力法 function twoSum(nums, target) {for (let i 0; i < nums.length; i) {for (let j i 1; j < nums.length; j) {if (nums[i] nums[j] target) {return [i, j];}}}return null; }方法二&#xff1a;哈希表 func…

BLHeli_S 代码分析—文件 AIKON_Boltlite_30A.inc 分析

BLHeli_S 代码分析—文件 AIKON_Boltlite_30A.inc 分析 简介 根据源代码分析,改文件是配置的 c8051f390 的 MCU。根据该文件的代码配置可以了解到该型号电调的电路连接。包括引导加载程序端口、控制信号(PPM)获取端口、mos管控制端口、比较器反电势端口、调试端口配置。 引导…

【npm】常见错误

1.安装模块错误 错误内容 npm ERR! code EPERM npm ERR! syscall mkdir npm ERR! path E:\Program Files\nodejs\node_modules\live-server npm ERR! errno -4048 npm ERR! Error: EPERM: operation not permitted, mkdir E:\Program Files\nodejs\node_modules\live-server n…

道可云元宇宙每日资讯|上海市第二批元宇宙重大应用场景张榜

道可云元宇宙每日简报&#xff08;2024年2月18日&#xff09;讯&#xff0c;今日元宇宙新鲜事有&#xff1a; 上海市第二批元宇宙重大应用场景张榜 根据《上海市培育“元宇宙”新赛道行动方案》&#xff0c;市经济信息化委、市文化旅游局、市卫生健康委、市教委联合启动了上海…

【Unity】【VRTK】【VR开发】同时保持高效打包和调试的VRTK项目设置方式

【背景】 开发功能时希望能够快速调试&#xff0c;在Preview和开发编辑器间流畅切换。后期又希望快速打包到目标安卓平台&#xff0c;感受头盔内部的画面和操作效果。麻烦在于&#xff0c;这两者往往不是明确区分的&#xff0c;很可能一会儿只是想快速验证一下某些功能动作&am…

二进制搭建 Kubernetes

实验流程 k8s集群master01&#xff1a;192.168.75.10 kube-apiserver kube-controller-manager kube-scheduler etcd k8s集群master02&#xff1a;192.168.80.20 k8s集群node01&#xff1a;192.168.75.20 kubelet kube-proxy docker k8s集群node02&#xff1a;192.168.…

Out of memory,realloc failed

git config --global http.postBuffer 1048576000