统计学中两组数据如何进行差异性(相关性)分析?

变量说明:

在确定分析方法前,我们需要了解手中的数据类型,这是最基础也是有必要的,在所有的数据类型中,我们将数据类型分为分类变量也为定类变量和连续变量也称为定量变量,那么什么是定类变量?什么是定量变量?

定类变量通俗的讲数字大小不具有比较意义,比如性别中1代表男,2代表女,仅仅代表类别,在比如下图中,1代表底妆2代表唇妆等等,仅是类别关系。

定量变量通俗的讲数字大小具有比较意义,比如调查青少年身高,1.4m比1.3m高,数字本身具有比较意义,在比如如下图片沙发的价格,数字越大说明越贵,数字越小说明越便宜,数字之间是可以比较的。通过数据类型的说明,本次探讨我们以数据类型的不同进行分类说明,分别是分类和连续变量、连续和连续变量、分类和分类变量。

一、分类×连续

如果数据的类型是分类变量和连续变量,那么他的相关性分析或者差异性分析有哪些方法呢?接下来进行说明。

1、分析方法

如果数据是分类变量和连续变量,那么进行分析时,分析方法大体可以分为三类,参数检验、非参数检验以及可视化图形,其中参数检验又包括t检验、方差分析,非参数检验包括MannWhitney统计量、Kruskal-Wallis统计量。以及还可以使用可视化图形进行查看。

01、参数检验

  • T检验
    T检验说明
    T检验(独立样本t检验)一般是研究定类变量和定类变量之间的差异性,并且定类变量为二分类变量,比如研究性别和薪资之间是否有显著性差异,性别包括男和女。
    T检验数据格式
    在进行数据分析之前都需要将数据整理成正确的数据格式然后在进行分析,那么t检验(严格讲为独立样本t检验)的数据格式是什么样的呢?如下说明:


T检验的数据一般有两列,第一列是组别(二分类),第二列是对应的分析项,比如说想要研究不同性别的身高是否有显著性差异,其正确的数据格式如下:


T检验操作
整理成正确的数据格式之后,接下来进行准备利用T检验进行分析,分析操作是怎样的呢?以SPSSAU举例进行说明:
【通用方法:t检验】→【拖拽分析项】→点击开始分析;


T检验结果一般形式


一般结果中会提供均值标准差以及t统计量和p值等。

  • 方差分析
    方差分析说明
    方差分析(单因素方差分析)一般是研究定类变量和定类变量之间的差异性,并且定类变量为多分类变量,比如研究学历和薪资之间是否有显著性差异,学历包括本科以下、本科以及本科以上。
    方差分析数据格式
    方差分析(严格来讲是单因素方差分析)的数据格式,如下说明:


方差分析的数据一般有两列,第一列是组别(多分类),第二列是对应的分析项,比如说上表格中1=本科以下、2=本科、3=本科以上。
方差分析操作
【通用方法:方差分析】→【拖拽分析项】→点击开始分析;


方差分析结果一般形式

一般结果中会提供均值标准差以及F统计量和p值等。

02、非参数检验

  • MannWhitney统计量
    MannWhitney说明
    MannWhitney非参数检验一般是研究定类变量和定类变量之间的差异性,并且定类变量为二分类变量,比如研究性别和薪资之间是否有显著性差异,性别包括男和女。其数据格式与独立样本t检验类似,组别为一列,对应的定量变量为一列。
    MannWhitney操作
    【通用方法:非参数检验】→【拖拽分析项】→点击开始分析;


MannWhitney结果一般形式


一般结果中会提供中位数以及统计量和p值等。

  • Kruskal-Wallis统计量
    Kruskal-Wallis说明
    Kruskal-Wallis非参数检验一般是研究定类变量和定类变量之间的差异性,并且定类变量为多分类变量,比如研究学历和薪资之间是否有显著性差异,学历包括本科以下、本科以及本科以上。其数据格式与单因素方差类似。操作与MannWhitney一致(SPSSAU会自动判断分类变量的分类数进而判断使用MannWhitney还是Kruskal-Wallis),其一般形式如下:


一般结果中会提供中位数以及统计量和p值等。
03、可视化图形

  • 可视化图形

除了可以利用假设检验进行分析外,还可以使用图形进行简单判断分析,由于数据是定类和定量,所以可以使用折线图、条形图、柱形图、雷达图、箱形图、小提琴图、核密度图等。其中折线图、条形图、柱形图、雷达图可以统称为簇状图,簇状图和箱形图、小提琴图、核密度图的数据格式定类为一列,定量为一列,可以在SPSSAU的可视化板块进行选择分析。示例类似如下:

2、方法PK

分类变量和连续变量可以进行参数检验、非参数检验以及可视化图形,那么这些方法应该如何去选择呢?接下来进行说明:

01、参数检验PK非参数检验

按假设检验类别进行分类,分为参数检验和非参数检验,如果数据为二分类变量,比如分类变量为性别包括男和女,或者为两组分为第一组,第二组。一般考虑使用t检验(参数检验)或者mannwhitney(非参数检验),如果分类变量是多分类变量,比如分类变量是专业包括理学、农学、医学或者分类变量是学历包括专科、本科、硕士、博士。一般考虑使用方差分析(参数检验)或者Kruskal-Wallis(非参数检验),那么参数检验和非参数检验有什么区别呢?

参数检验和非参数检验的区别:参数检验是假定数据服从某分布(一般为正态分布),通过样本参数的估计量(x±s)对总体参数进行检验,比如t检验、u检验、方差分析等。非参数检验则不需要假定总体分布形式,直接对数据的分布进行检验。但是参数检验的效能比非参数检验效能高,以及对于t检验和方差分析,其在实证研究中具有一定的耐性,如果不是严重不满足正态分布都是可以使用t检验或者方差分析进行分析的。

02、可视化图形PK

对于分类数据和连续数据之间的可视化图形,从应用角度可以分为三类,第一类是主要用于不同数据的对比,可以考虑使用柱形图、条形图、雷达图比如不同性别的薪资水平对比。第二类主要用于查看不同组数据的变化趋势,一般可以考虑使用折线图,比如不同专业的成绩变化。第三类主要用于不同组别数据的分布,可以考虑使用箱线图、小提琴图或者核密度图,比如南方北方的身高分布。一般在分析时建议可以结合检验和可视化图形进行分析然后得到相应结论。

3、举例分析

比如想要分析如下数据:

第一组:44、55、67、45、46、56、69、34、59、78、99;

第二组:49、59、62、56、68、45、77、89、99、102、45;

分析不同组别之间的相关性(差异性)。

分析:由于是分析不同组别之间的相关性(差异性),由于组别是二分类变量,所以考虑使用t检验或者非参数检验,由于数据基本服从正态分布,所以采用t检验和可视化图形进行结合分析。

直方图(正态检验)的结果如下:

从结果中看到直方图呈现类似“倒扣的钟形”,所以认为数据基本服从正态分布。

01、分析流程

T检验的分析流程,大体可以分为四步:

  1. 整理成正确的数据格式;
  2. 验证t检验的前提条件;(前提条件:正态分布、)
  3. 进行操作;
  4. T检验的结果分析;

Step1:

整理数据格式,组别为一列,数据为一列,所以整理的结果如下:

Step2:

T检验的前提条件:

  • 样本独立
  • 正态分布
  • 方差齐性

Step3:t检验操作

上传数据后,点击通用方法的t检验,然后将分析项拖拽到对应分析框内,点击开始分析。

Step4:T检验的结果分析;

02、解读分析结果

从t检验分析结果可以看出,第一组的均值为59.27、第二组的均值为68.27,从均值中可以看出来第二组数据平均水平上大于第一组数据,然后t统计量为-1.077,p值为0.294大于显著性水平,说明模型不显著,也即说明第一组数据与第二组数据之间没有差异性。与此同时我们还可以使用柱形图或者条形图进行可视化分析:

从可视化图形中可以看出第二组数据均值大于第一组数据,但是柱形图中只能看处=出,两组数据的简单对比,对于模型的分析或者显著性的判断,还是需要进行假设检验。

03、指标解读

对于t检验中的t值如何计算得到呢?

  1. 样本1的均值,本例子中为59.27;
  2. 样本2的均值,本例子中为68.27;
  3. 样本1的方差,本例子中为(18.34)^2=336.3556;
  4. 样本2的方差, 本例子中为(20.78)^2=431.8084;
  5. 样本1的样本量, 本例子中为11;
  6. 样本2的样本量, 本例子中为11,

计算t值为:-1.077;其它指标的计算可以登录SPSSAU官网进行查看。

二、连续×连续

如果数据的类型是连续变量和连续变量,那么他的相关性分析或者差异性分析有哪些方法呢?接下来进行说明。

1、分析方法

如果数据是连续数据和连续变量,那么进行分析时,分析方法大体可以分为四类,相关分析、参数检验、非参数检验以及可视化图形,其中相关分析一般包括皮尔逊(pearson)相关系数以及斯皮尔曼(spearman)相关系数。如果连续变量和连续变量的样本量是相同的,可以考虑使用参数检验中的配对t检验,非参数检验包括配对wilcoxon,可视化图形可以考虑使用散点图。

01、相关分析

相关分析说明

相关分析一般是研究定量数据和定量数据的相关性,以及变量之间存在相关性,相关程度是如何的,比如研究身高和体重之间是否有关联等等。

相关分析数据格式

在进行数据分析之前都需要将数据整理成正确的数据格式然后在进行分析,那么相关分析的数据格式是什么样的呢?如下说明:

相关分析的数据格式为一个分析项为一列,比如上图中研究身高和体重,则身高为一列、体重为一列。

相关分析操作

整理成正确的数据格式之后,接下来准备进行相关分析,分析操作是怎样的呢?以SPSSAU举例进行说明:

【通用方法:相关分析】→【拖拽分析项】→点击开始分析;

相关分析结果一般形式

分析结果一般包括相关系数以及p值和样本量,一般分析时查看p值就好了。

相关系数判断标准

不同的文献相关系数的判断标准不同,如果在分析中,建议以及所参考的文献等进行参考,比如上面的文献就来自于贾俊平, 何晓群, 金勇进. 统计学.第7版[M]. 中国人民大学出版社, 2018.

02、参数检验

配对t检验说明

配对t检验一般是研究配对的定量数据和定量数据之间的差异关系,比如研究某班级补习前后两次的语文成绩是否有差异。

配对t检验的数据格式

配对t检验的数据格式比较特殊,因为不仅需要为定量变量,还需要数据为配对数据,也就是两组数据的样本量是需要相同的,一般如下:

配对t检验操作

【通用方法:配对t检验】→【拖拽分析项】→点击开始分析;

配对t检验的一般形式

分析结果一般包括配对的均值和标准差、统计量t值以及p值。

03、非参数检验

  • 配对wilcoxon
    配对wilcoxon说明
    配对wilcoxon一般是研究配对的定量数据和定量数据之间的差异关系,比如研究某班级补习前后两次的语文成绩是否有差异。
    配对wilcoxon的数据格式
    其数据格式与配对t检验一致。
    配对wilcoxon操作
    【实验/医学研究:配对样本wilcoxon】→【拖拽分析项】→点击开始分析;


配对wilcoxon的一般形式


分析结果一般包括配对的中位数、统计量z值以及p值。
04、可视化图形

  • 散点图

散点图说明

散点图一般用于绘制定量数据和定量数据关系研究时,比如想要观察身高和体重的关系,就可以使用散点图进行研究。

散点图的数据格式

散点图的数据格式与相关分析一致。

散点图操作

【可视化:散点图】→【拖拽分析项】→点击开始分析;

散点图的一般形式

2、方法PK

连续变量和连续变量可以进行相关分析、参数检验、非参数检验以及可视化图形,那么这些方法应该如何去选择呢?接下来进行说明:

01、相关系数PK

Pearson相关系数也叫皮尔逊积矩相关系数,通常用r表示,使用pearson相关系数,数据需要满足:

  • 线性
  • 正态分布
  • 没有异常值

如果不满足条件可以考虑使用spearman相关系数,以及pearson相关系数的计算如下:

Speaman计算公式如下:

针对pearson相关系数不能识别非线性关系以及并且对一个或者几个异常值比较敏感,此时可以使用spearman相关系数进行替代,spearman相关系数有时也被称为级别相关系数或者秩相关系数,该相关系数是根据两个变量的秩进行相关分析,spearman相关系可以用来衡量两个变量之间是否存在单调相关关系。当值为1时说明一个变量随着一个变量单调递增,当值为-1时,说明一个变量随着另一个变量单调递减。

02、参数检验PK非参数检验

按假设检验类别进行分类,分为参数检验和非参数检验,如果服从正态分布可以使用配对t检验,如果不满足正态分布可以使用配对wilcoxon检验,对于参数检验和非参数检验的区别可以查看上一个模块。对于散点图,一般和相关分析一起联用,在相关分析前,探索数据之间的关系。

3、举例分析

想要了解高中生的母亲受教育年数和学生的科学素养是否有关联,测得19名学生的母亲受教育年数和学生的科学素养数据如下。

分析:由于是分析不同组别之间的相关性(差异性),由于组别是二分类变量,所以考虑使用t检验或者非参数检验,由于数据基本服从正态分布,所以采用t检验和可视化图形进行结合分析。

正态检验的结果如下:

从结果中可以看到,模型不显著,接受原假设说明数据服从正态分布。

01、分析流程

此案例的相关分析分析流程,大体可以分为五步:

  1. 整理成正确的数据格式;
  2. 进行散点图查看;
  3. 验证相关分析的前提条件;(前提条件:正态分布、)
  4. 进行操作;
  5. 相关的结果分析;

Step1:

整理数据格式,一个分析项为一列,所以整理的结果如下:

Step2:

pearson相关分析的前提条件:

  • 两变量为连续变量
  • 两变量存在线性关系
  • 两变量呈现正态分布

Step3:进行绘制散点图

简单查看下数据的关系。

Step4:相关分析操作

上传数据后,点击通用方法的相关分析,然后将分析项拖拽到对应分析框内,点击开始分析。

Step5:相关的结果分析;

02、解读分析结果

1)散点图

从散点图可以看出,散点是杂乱无章的,从图中看起来学生科学素养与母亲受教育年限大概没有关系,可以进一步查看相关分析。

从相关分析的结果中可以看出,相关系数为0.08,说明二者之间的关系极弱,以及p值大于0.1说明整体模型不显著,拒绝原假设,二者没有相关关系。

03、指标解读

对于pearson相关系数具体如何计算呢?

计算过程如下:

三、分类×分类

1、分析方法

如果数据是分类变量和分类变量,那么进行分析时,分析方法大体可以分为三类,卡方检验、可视化图形,其中卡方检验又包括pearson卡方、fisher卡方、yates校正卡方、cochran-armitage检验、线性趋势卡方,以及还可以使用可视化图形(堆积柱形图、条形图)进行查看。

01、卡方检验

  • 卡方检验

卡方检验说明

卡方检验一般是研究定类数据和定类数据之间的差异性,比如研究性别和是否吸烟之间的显著性差异。

卡方检验数据格式

卡方检验的数据格式为一个分析项为一列,如果有加权格式,则加权格式单独为一列,如下说明:

(1)普通格式

(2)加权格式

卡方检验操作

整理成正确的数据格式之后,接下来进行卡方检验,分析操作是怎样的呢?以SPSSAU举例进行说明:

【实验/医学研究:卡方检验】→【拖拽分析项】→点击开始分析;

卡方检验结果一般形式

一般结果中会提供均值标准差以及卡方值和p值等。

02、可视化图形

为了更清楚的表示各个类别占比可以使用渡记柱形图或者条形图进行表示。

2、方法PK

(1)不同类卡方检验pk

(2)其它方法说明

除了可以使用卡方检验外,还可以使用可视化图形进行描述分类变量和分类变量之间的关系,比如可以使用堆积柱形图和堆积条形图进行描述,更加直观,分析时可以结合自己的分析方法进行绘制研究。

03、举例分析

(1)分析流程

想要调查不用性别(男、女)的饮食习惯(米食、面食),针对卡方检验的分类应该使用pearson卡方检验。

(2)解读分析结果

从分析结果中看出男性更偏爱吃面食占比为60%,女性更偏爱吃米食约占调查中的80%。从数据来看,不同性别的饮食习惯有差异,模型中的卡方值为16.667,其中p值小于0.05,拒绝原假设,说明模型显著,不同性别的饮食习惯有差别。并且从堆积柱形图中也可以直观查看到男性更爱吃面食,女性更爱吃米食。

(3)指标解读

其中Ai为i水平的观察频数,Ei为i水平的期望频数,k为单元格数。

比如:

计算如下:

参考文献:

[1]朱玉祥,江剑民,赵亮,等.不同计算形式的相关分析在气象中的应用综述[J].热带气象学报, 2021, 37(1):1-13.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/178153.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C语言--每日选择题--Day25

第一题 1. 对于C/C语言的函数,下列叙述中正确的是( ) A:函数的定义不能嵌套,但函数调用可以嵌套 B:函数的定义可以嵌套,但函数调用不能嵌套 C:函数的定义和调用都不能嵌套 D&#xf…

凝聚数字经济发展新力量,四象科技受邀出席2023全球数商大会

11月25日,2023全球数商大会在上海开幕。本届大会以“数联全球、商通未来”为主题,上海市委副书记、市长龚正出席大会并宣布大会开幕,国家发展改革委党组成员,国家数据局党组书记、局长刘烈宏,上海市副市长陈杰致辞。四…

奇异值分解SVD(Singular Value Decomposition)

一种理解方式,值得学习(分解时空矩阵) 先在这里阐述一下SVD的用途吧,具体细节稍后再做补充 1.通过SVD对数据的处理,我们可以使用小得多的数据集来表示原始数据集,这样做实际上是去除了噪声和冗余信息&…

SA与NSA网络架构的区别

SA与NSA网络架构的区别 1. 三大运营商网络制式:2. 5G组网方式及业务特性3. NSA-3系列4. NSA—4系列5. NSA-7系列6. 5G SA网络架构7. 运营商策略 1. 三大运营商网络制式: 联通:3G(WCDMA)\4G(FDD-LTE/TD-LTE)\5G(SA/NSA)移动:2G(GS…

【备忘录】快速回忆ElasticSearch的CRUD

导引——第一条ElasticSearch语句 测试分词器 POST /_analyze {"text":"黑马程序员学习java太棒了","analyzer": "ik_smart" }概念 语法规则 HTTP_METHOD /index/_action/IDHTTP_METHOD 是 HTTP 请求的方法,常见的包括…

Rocket mq namesrv源码分析

NameServer 作为注册中心,提供路由注册、路由踢出、路由发现功能,舍弃强一致,保证高可用,集群中各个节点不会实时通讯,其中一个节点下线之后,会提供另外一个节点保证路由功能。 启动入口 org.apache.rock…

【带头学C++】----- 八、C++面向对象编程 ---- 8.5 struct结构体类型增强使用说明

目录 8.5 struct结构体类型增强使用说明 8.5.1 C结构体可以定义成员函数 8.5.2 c中定义结构体变量可以不加struct关键字 8.6 bool布尔类型关键字 8.5 struct结构体类型增强使用说明 第六章对结构体的使用、内存对齐以及数组、深拷贝和浅拷贝进行了一个详细的说明&#xff0c…

【数据结构实验】排序(二)希尔排序算法的详细介绍与性能分析

文章目录 1. 引言2. 希尔排序算法原理2.1 示例说明2.2 时间复杂性分析 3. 实验内容3.1 实验题目(一)输入要求(二)输出要求 3.2 算法实现3.3 代码解析3.4 实验结果 4. 实验结论 1. 引言 排序算法在计算机科学中扮演着至关重要的角色…

Leetcode211. 添加与搜索单词 - 数据结构设计

Every day a Leetcode 题目来源:211. 添加与搜索单词 - 数据结构设计 解法1:字典树 字典树(前缀树)是一种树形数据结构,用于高效地存储和检索字符串数据集中的键。前缀树可以用 O(∣S∣) 的时间复杂度完成如下操作…

基于单片机温湿度光照自动窗帘系统设计

**单片机设计介绍, 基于单片机温湿度光照自动窗帘系统设计 文章目录 一 概要二、功能设计设计思路 三、 软件设计原理图 五、 程序六、 文章目录 一 概要 基于单片机的温湿度光照自动窗帘系统是一种智能家居系统,通过使用单片机作为控制核心&#xff0c…

【IQR与MAD】原理,一文带你玩转箱型图含详细解释与代码

IQR方法 基于四分位数:使用数据的第一四分位数(25%)和第三四分位数(75%)来计算。 对称:相对于中位数对称地考虑上下界。 受极端值影响:如果数据中包含极端值,IQR可能会被拉得很大&a…

CMA认证是什么?CMA软件测试报告如何获取?

资格证书在各行各业都是一种专业性象征,如第三方检测机构的CMA认证,在相应的检测报告上加盖CMA章可获得国家以及行业认可,还是享受税收优惠的有力证明材料。 一、CMA认证是什么?   CMA是中国计量认证的简称,由省级以上人民政府…

顺序栈的基本操作(超详细)

目录 前言 一、顺序栈的定义 二、顺序栈的c语言结构描述表示 三、顺序栈中基本操作的实现 3.1顺序栈的初始化 3.2判断顺序栈是否为空 3.3求顺序栈的长度 3.4清空顺序栈 3.5销毁顺序栈 3.6顺序栈的入栈 3.7顺序栈的出栈 3.8求栈顶元素 3.9遍历顺序栈 四、顺序栈的…

JDK21发布了!面试官:来,谈下jdk21的新特性!

1.前言 JDK21 计划23年9月19日正式发布,尽管一直以来都是“版随意出,换 8 算我输”,但这么多年这么多版本的折腾,若是之前的 LTS 版本JDK17你还觉得不错,那 JDK21还是有必要关注一下,因为会有一批重要更新…

华清远见嵌入式学习——C++——作业一

作业要求&#xff1a; 代码&#xff1a; #include <iostream>using namespace std;int main() {string str;cout << "请输入一个字符串&#xff1a;" << endl;getline(cin,str);int dx0,xx0,sz0,kg0,qt0;int len str.size() 1;for(int i0;i<l…

HarmonyOS 传感器开发指南

HarmonyOS 系统传感器是应用访问底层硬件传感器的一种设备抽象概念。开发者根据传感器提供的Sensor接口&#xff0c;可以查询设备上的传感器&#xff0c;订阅传感器数据&#xff0c;并根据传感器数据定制相应的算法开发各类应用&#xff0c;比如指南针、运动健康、游戏等。 运作…

Centos 如何判断分区是mbr还是gpt格式

1 介绍 MBR 自20世纪80年代初以来的标准分区表格式每个驱动器最多支持四个主分区最多可以划分2TB的磁盘 GPT GPT是MBR分区表格式的后续每个驱动器最多支持128个分区可以将一个磁盘分区到最大到18艾字节 对小于2TB的磁盘使用MBR对大于2TB的磁盘使用GTP 2 查询方式 2.1 fdis…

校园虚拟化部署与横向扩展统一存储

项目背景 这所隶属教育部直属重点大学&#xff0c;学校设有11个学科体系&#xff0c;现有本硕博学生共29000余人&#xff0c;为积极响应“中国教育现代化2023战略部署”&#xff0c;校方制定教育信息化2.0发展目标&#xff0c;通过平台融合&#xff0c;数据驱动、技术赋能等措…

Linux常见指令基础知识

目录 初始Linux操作系统 Linux背景&#xff1a; 开源 &#xff1a; 发行版本&#xff1a; ​编辑 OS概念&#xff0c;定位&#xff1a; 使用 XShell 远程登录 Linux Linux相关知识 文件是什么&#xff1f; 路径分隔符 &#xff08;.&#xff09; 和 &#xff08;. .&…

Docker Swarm总结+Jenkins安装配置与集成(5/5)

博主介绍&#xff1a;Java领域优质创作者,博客之星城市赛道TOP20、专注于前端流行技术框架、Java后端技术领域、项目实战运维以及GIS地理信息领域。 &#x1f345;文末获取源码下载地址&#x1f345; &#x1f447;&#x1f3fb; 精彩专栏推荐订阅&#x1f447;&#x1f3fb;…