SPSS之聚类分析

SPSS中系统聚类分析功能在【分析】—【分类】—【系统聚类】中完成。系统聚类有两种类型,一种是对样本进行聚类,称为Q型聚类;一种是对变量进行聚类,称为R型聚类。在【系统聚类分析】—【聚类】框下选择【个案】——Q型聚类,或是【变量】——R型聚类。

如果参与聚类分析的变量存在数量级上的差异,应在SPSS中,通过【系统聚类分析】—方法(M)—【系统聚类分析:方法】—【转换值】—【标准化】选项中选择消除数量级差的方法。并指定处理是针对变量还是针对样本的。

SPSS中提供多种系统聚类方法,常用的是组间平均链接和组内平均链接。通过【系统聚类分析】—方法(M)—【系统聚类分析:方法】—【聚类方法】选项中选择。SPSS提供多种个体距离的计算方式,常用的是Euclidean距离,平方Euclidean距离,Pearson相关性。通过【系统聚类分析】—方法(M)—【系统聚类分析:方法】—【测量】—【区间】选项中选择。

分类数的确定。

        (1)系统聚类中每次合并的类与类之间的距离可以作为确定类数的一个辅助工具。首先把离得近的类合并,在并类过程中聚合系数呈增加趋势,聚合系数小,表示合并的两类的相似程度较大,两个差异很大的类合到一起,会使该系数很大。

如果以y轴为聚合系数,x轴表示分类数(n-1,n-2,…,3,2,1),画出聚合系数随分类数的变化曲线,会得到类似于因子分析中的碎石图,可以在曲线开始变得平缓的点选择合适的分类数。SPSS中通过【图形】—【旧对话框】—【散点/点状】实现。

        (2)从实用的角度出发,选择合适的分类数。  

如果确定分类数,可一开始就在SPSS中指定类数。通过【系统聚类分析】—统计量(S)—【系统聚类分析:统计】—【聚类成员】选项中选择【单一方案】—输入方案数目,或选择【方案范围】。在【系统聚类分析】—保存(A)—【系统聚类分析:保存】—【聚类成员】选项下作同样选择。此时聚类分析的结果将以变量名为clun_m(如clu2_1)的新变量存入SPSS数据编辑窗口中。

SPSS中快速聚类法(K-均值聚类法)在【分析】--【分类】--【K-平均值聚类】中完成。首先应指定聚类数目K,在【K-平均值聚类分析】—【聚类数】框中输入聚类数目,该数应小于样本数。然后SPSS确定k个类的初始类中心点。SPSS会根据样本数据的实际情况,选择k个有代表性的样本数据作为初始类中心。初始类中心也可以由用户自行指定,需要指定K组样本数据作为初始类中心点。

最优方案原则。一般我们希望得到的聚类大小大致相等,这样把每个样品都分配到离它最近的聚类中心(即均值点)就是比较正确的分配方案。

聚类的目的是使类间差异尽量大,而类内差异尽量小,K-均值聚类分析中的方差分析提供这种检验功能。SPSS中通过在【K-平均值聚类分析】— 选项(O) —【统计量】选项中勾选【ANOVA表】来完成方差分析。

SPSS中通过在【K-平均值聚类分析】— 保存(S) 菜单下,勾选【聚类成员】,则聚类分析的结果将以变量名为QCL_m(如QCL_1)的新变量存入SPSS数据编辑窗口中。


接下来我们进行SPSS实战训练!

地区三大产业产值.sav,给出了31个省、直辖市、自治区的三大产业的生产产值数据,即样品数n=31,变量数p=3对这31个地区的三大产业发展水平进行系统聚类分析,其中个体距离采用平方欧式距离,类间距离采用平均组间链接距离。

(1)系统聚类分析实现步骤:

未确定类数前:[Analyze]→[Classify]→[Hierarchical Cluster Analysis]对话框。将‘第一产业’、‘第二产业’、‘第三产业’添加进Variables中,将‘Region’添加进Label Cases by中。

  1. 1.在[Statistics]对话框中选择‘Range of solutions’,并将Minimum number of clusters输入‘4’,Maximum number of clusters输入‘5’;
  2. 2.在[Plots]对话框中勾选中‘Dendrogram’;
  3. 3.在[Method]对话框中选择‘Between-groups linkage’的Cluster Method;
  4. 4.在[Save]对话框中的‘Range of solutions’,并将Minimum number of clusters输入‘4’,Maximum number of clusters输入‘5’,将输出结果保存到数据集中。
  5. 系统聚类分析结果分析:

系统聚类分析凝聚状态表:

A.个体距离(指 平方欧式距离

B.个体与小类的距离(指  组内平局链锁距离

C.小类与小类的距离(指 组间平均链锁距离

  • 第1步:   29 样本和 30 样本聚成一小类,它们的个体距离(欧式距离的平方)是  109.714 ,这个小类将在下面第 4 步用到。
  • 第7步: 7样本 和 22样本 聚成一小类,它们的距离是 19828.887,形成的小类将在下面第13步中用到。
  • 第9步:5 样本和 24 样本聚成一小类,它们的个体距离(欧式距离的平方)是  33688.611 ,这个小类将在下面第 20 步用到。

冰柱图:

如果分为五类,分类情况是:

第一类为:北京、天津、山西、内蒙古、吉林、江西、广西、海南、重庆、贵州、云南、西藏、陕西、甘肃、青海、宁夏、新疆

第二类为:河北、辽宁、黑龙江、安徽、福建、河南、湖北、湖南、四川

第三类为:上海

第四类为:江苏、山东、广东

第五类为:浙江

树状图:

结论:如果分为四类,分类情况是:

  1. 第一类为: 北京、天津、山西、内蒙古、吉林、江西、广西、海南、重庆、贵州、云南、西藏、陕西、甘肃、青海、宁夏、新疆;
  2. 第二类为:河北、辽宁、黑龙江、上海、安徽、福建、河南、湖北、湖南、四川;
  3. 第三类为:江苏、山东、广东;
  4. 第四类为:浙江;

聚合系数(y轴)与分类数(x轴)的碎石图:

结论:4 类以后,变化的趋势开始趋于平稳,所以,考虑分为 4 类。

确定类数后:(将聚类结果确定为4类)

[Analyze]→[Classify]→[Hierarchical Cluster Analysis]对话框。将‘第一产业’、‘第二产业’、‘第三产业’添加进Variables中,将‘Region’添加进Label Cases by中。

  1. 1.在[Statistics]对话框中选择‘Single of solutions’,并输入‘4’;
  2. 2.在[Save]对话框中的‘Single of solutions’,并输入‘4’,将输出结果保存到数据集中。

分类结果:

  1. 分为 4 类。
  2. 第一类:{北京、天津、山西、内蒙古、吉林、江西、广西、海南、重庆、贵州、云南、西藏、陕西、甘肃、青海、宁夏、新疆}
  3. 第二类:{河北、辽宁、黑龙江、上海、安徽、福建、河南、湖北、湖南、四川}
  4. 第三类:{江苏、山东、广东}
  5. 第四类:{浙江}

文件:地区三大产业产值.sav,给出了31个省、直辖市、自治区的三大产业的生产产值数据,即样品数n=31,变量数p=3。对这31个地区的三大产业发展水平进行K-均值聚类分析,要求分成3类,初始类中心点由SPSS自行指定。

“K-平均值聚类分析”对话框:[Analyze]→[Classify]→[K-Means Cluster Analysis],将“第一产业”、“第二产业”、“第三产业”添加到【Variables】中,将“Region”添加进【Label Cases by】中,并将Number of Clusters更改为3。

在[Save New Variable]对话框中勾选“Cluster membership”和“Distance from cluster center”,将聚类成员和与聚类中心的距离保存到数据集中。

在[Options]选项对话框中选择“Initial cluster centers”和“ANOVA table”两个结果。

结果分析:

起始聚集中心:每个类的起始类中心的数据(三维坐标)

  • 第一类:(1004.92,3991.97,2922.23);
  • 第二类:(31.31,20.24,39.63);
  • 第三类:(790.60,2084.33,1381.08)。

迭代历程:第1次迭代后,3个类的中心点分别偏移了407.484、647.918、369.044,第1类中心点偏移较大;第2次迭代后,2个类的中心点偏移均小于指定的判定标准(SPSS默认为0.02),聚类分析结束。

最终聚集中心:每个类的最终类中心的数据(坐标)

  • 第一类:(1079.00,3696.37,2651.72);
  • 第二类:(246.94,483.05,438.52);
  • 第三类:(675.80,1753.43,1264.80);
  • 第二类为最优。

 方差分析表:因为各个因子对应的p值=0.000,p值  < α=0.05,所以各因子的均值在类中的差异显著。

 K-均值聚类分析类成员情况:第一类包含3个地区;第二类包含17个地区;第三类包含11个地区。

K-均值聚类分析分类结果:

  • 结论:分为 3 类。
  • 第一类:{江苏、山东、广东}
  • 第二类:{北京、天津、山西、内蒙古、吉林、江西、广西、海南、重庆、贵州、云南、西藏、陕西、甘肃、青海、宁夏、新疆}
  • 第三类:{河北、辽宁、黑龙江、上海、浙江、安徽、福建、河南、湖北、湖南、四川}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/6932.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

微信小程序生成二维码加密(CryptoJS4.0加密PHP8.0解密)AES方式加密

1、小程序创建 crypto-js.js和crypto.js两个文件(点击文件即可) 2、小程序js页面引入 var crypto require(../../utils/crypto.js);//注意路径是否正确3、使用 let data {id: that.data.id,name: dx}console.log(JSON.stringify(data))console.log(&…

iOS - Undefined symbols: 解决方法

Undefined symbols: 是让人苦恼的报错,如何知道是 哪个 symbols 不对呢? 今天探索到下面的方法: 1、点击导航上方 最右侧的按钮,查看历史报错 2、选中报错信息,右键选择 Expand All Transcripts 在出现的详细信息面…

FreeRTOS软件定时器(1-18)

软件定时器简介 定时器:从指定的时刻开始,经过一个指定时间,然后触发一个超时事件,用户可以自定义 定时器周期。 硬件定时器:芯片本身自带的定时器模块,硬件定时器的精度一般很高,每次在定时时…

Java常用命令总结 持续更新中!!!

蓝桥杯JAVA组 推荐输入输出示例 // 基础输入 import java.util.*;public class Main{public static void main(String[] args){} }// 非静态方法调用 new Main.Solution();//static函数里面调用非static函数 类.函数// 更快的输入方式 BufferedReader // 更快的输出方式 Print…

js监听页面的显示和隐藏

下方微信公众号 和微信小程序推荐 js监听页面的显示和隐藏 在JavaScript中,监听页面的显示和隐藏可以通过监听visibilitychange事件来实现。visibilitychange事件会在页面的可见性发生变化时触发。 以下是一个简单的示例,演示如何使用visibilitychan…

《面向对象程序设计及C++》实验报告

《面向对象程序设计及C》实验报告 一、实验目的与实验要求 (1)掌握类的定义、类中成员函数的定义和使用、构造函数和析构函数的定义、功能;掌握对象的使用方法。 (2)掌握静态数据成员、静态成员函数的功能和使用方法…

Linux —— 信号初识

Linux —— 信号初识 什么是信号测试几个信号signal函数函数原型参数说明返回值注意事项示例 后台程序前台转后台检测输入中断向量表 我们今天来继续学习Linux的内容,今天我们要了解的是Linux操作系统中的信号: 什么是信号 信号是操作系统内核与进程之…

判断dll/lib是32/64位、查看lib是导入库/静态库的方法 、查看dll包含的符合、lib包含的函数

一、判断dll/lib是32/64位 原文链接:https://www.cnblogs.com/bandaoyu/p/16752602.html 1. 简便方法: 直接用记事本或者notepad(或txt文本)打开exe文件(dll文件),会有很多乱码,不要头疼,接下…

Vitis HLS 学习笔记--Schedule Viewer 调度查看器

目录 1. 简介 2. Schedule Viewer详解 2.1 视图说明 2.1.1 Operation\Control Step 2.1.2 周期关系图 2.1.3 Schedule Viewer 菜单栏 2.1.4 属性视图 2.2 内容说明 2.2.1 实参(b)解释 2.2.2 实参(a)解释 2.2.3 变量&am…

Windows如何安装hadoop

Hadoop是一个开源的分布式计算平台,旨在处理大规模数据的存储和处理。它提供了分布式文件系统(HDFS)和分布式计算框架(MapReduce),使得用户能够在大规模集群上存储和处理数据。Hadoop最初由Apache软件基金会…

cmake进阶:定义函数的使用方法

一. 简介 前面已经将 cmake 中常用的命令 command、变量 variable 都给大家进行了详细介绍,通过前面的学习,相信大家已经掌握了 cmake 工具的基本使用方法; 接下来我们再进一步学习 cmake,本文开始学习 cmake中定义函数。 二. …

TypeScript学习日志-第十九天(namespace命名空间)

namespace命名空间 一、基本用法 namespace 所有的变量以及方法必须要导出才能访问,如图: 二、 嵌套 namespace 可以进行嵌套使用,如图: 它也必须需要导出才能访问 三、合并 当我们出现两个同名的 namespace 它就会合并这两…

EFDC模型安装及建模方法;在排污口论证、水质模拟、地表水环评、地表水水源地划分、水环境容量计算等领域中的应用

目录 专题一 EFDC软件安装 专题二 EFDC模型讲解 专题三 一维河流模拟实操 专题四 建模前处理 专题五 EFDC网格剖分介绍 专题六 EFDC二维湖库水动力模拟/非保守染色剂模拟 专题七 EFDC水质模型参数及原理介绍 专题八 EFDC一、二、三维湖库水质模拟 专题九 基于EFDC的地…

nodejs的ws+vue3编写聊天室的demo

nodejs编写ws服务是非常简单高效的,nodejs有众多的实现ws的库,如ws,SocketIO等,nodejs的事件线程是单线程的,所以不要在事件线程内做阻塞性的操作,耗时的操作交给工作线程或者子进程操作。 我使用nodejsvue3实现了写了…

408数据结构-二叉树的遍历 自学知识点整理

前置知识:二叉树的概念、性质与存储结构 二叉树的遍历 二叉树的遍历是指按某条搜索路径访问树中每个结点,使得每个结点均被访问一次,而且仅被访问一次。 二叉树的递归特性: ①要么是棵空二叉树; ②要么就是由“根节点左子树右子树…

【NOI】C++程序结构入门之分支结构二

文章目录 前言一、逻辑运算符1.导入2.逻辑与(&&)3.逻辑或(||)4.逻辑非(!) 二、例题讲解问题:1656. 是两位的偶数吗问题:1658. 游乐设施问题:1659. 是否含有数字5…

AI绘画:Stable Diffusion 拒绝一眼塑料味的AI质感,超写实人物图片如何制作?简单几步教会你!

今天给大家介绍一款能够对生成的人像进行皮肤调节的 lora。 上面两幅图片的生成参数一样,尺寸也一样,但右边一幅图片相较于左面图片的画面质感,特别是人像皮肤的质感上有很大的提升,看上去更加细腻有层感。 这就是我们今天要介绍…

linux下的调试工具gdb的详细使用介绍

在之前学习中我们使用的通常是集各种功能于一体的编译器,例如VS stdio,但是一个程序在编辑后还要进行编译,然后才能产生一个二进制的可执行文件,编辑和翻译工作都可以使用不同的软件进行,例如记事本就是一款编辑软件&a…

03.配置监控一台服务器主机

配置监控一台服务器主机 安装zabbix-agent rpm -ivh https://mirror.tuna.tsinghua.edu.cn/zabbix/zabbix/4.0/rhel/7/x86_64/zabbix-agent-4.0.11-1.el7.x86_64.rpm配置zabbix-agent,配置的IP地址是zabbix-server的地址,因为要监控这台主机 vim /etc/zabbix/zab…

免费开源线上线下交友社交圈子系统 小程序+APP+H5 可支持二开!

为什么要玩社交软件:互联网社交软件的独特优势 首先,社交软件为我们提供了一个便捷的沟通方式。在传统的交往方式中,人们需要面对面交流,这种方式在时间和空间上都受到限制。而社交软件打破了这些限制,无论我们身处何地…