MiniTab的相关性统计

相关概述

相关可以度量两个变量之间关联的强度和方向。可以在以下两种相关方法之间进行选择:Pearson 积矩相关和 Spearman 秩次相关。Pearson 相关(又称为 r)是最常见的方法,它度量两个连续变量之间的线性关系。

如果变量之间的关系不是线性的,则可以使用 Spearman 秩次相关(又称为 Spearman 的 rho)。Spearman 相关度量两个连续或顺序变量之间的单调关系。

例如,刨花板制造商的工程师想要确定刨花板的密度是否与刨花板的刚度相关联。工程师使用 Pearson 相关执行相关分析,以评估密度和刚度之间线性关系的强度和方向。

功能菜单请选择:统计 > 基本统计 > 相关。

数据注意事项

为了确保结果有效,请在收集数据、执行分析和解释结果时考虑以下准则。

  1. 数据必须至少包括两列数字或日期/时间数据:所有列必须包含相同数量的行。
  2. 数据应当是连续的或按顺序的:如果有类别数据,则应当执行 交叉分组表和卡方,以检查变量之间的相关性。
  3. 样本数量应当为中等程度及以上,n ≥ 25:虽然对于相关所需的数据量没有正式的准则,但样本越大,就越能清楚地表示数据中的模式并提供更精确的估计值。
  4. 变量间的关系应该为线性关系或单调关系:如果变量不具有线性关系或单调关系,则相关性分析所得出的结果将不会准确反映关系的强度。检查矩阵图以查看其他关系。
  5. 异常值可能会对结果产生较大影响:正因为异常值可能会对结果产生较大影响,所以需使用矩阵图确定这些值。应该调查异常值,因为他们能够提供关于数据或过程的有用信息。
  6. 数据应服从二变量正态分布:Pearson 相关和 Spearman 相关的 p 值程序可以很好地适应偏离正态性的情况。无论样本的父级总体如何,当 n ≥ 25 时p 值通常准确。Pearson 相关的置信区间对基础二变量分布的正态性敏感。如果数据偏离正态性,那么,无论样本数量的量值是多少,置信区间都可能不准确。Spearman 相关的置信区间基于秩,而且对基础二变量分布假设不太敏感。

相关示例

某银行需要贷款申请人提供八项信息:收入、教育程度、年龄、在目前住址的居住年限、在目前聘用单位的工作时间、储蓄、负债和信用卡数。银行管理员需要分析这些数据,以确定用于分组和报告这些数据的最佳方式。该管理员收集了 30 名贷款申请人的上述信息。

收入

教育程度

年龄

住址

服务处所

储蓄

外债

信用卡数量

50000

16

28

2

2

5000

1200

2

72000

18

35

10

8

12000

5400

4

61000

18

36

6

5

15000

1000

2

88000

20

35

4

4

980

1100

4

91100

18

38

8

9

20000

0

1

45100

14

41

15

14

3900

22000

4

36200

14

29

6

5

100

7000

5

41000

12

34

9

8

5000

200

3

40000

16

32

8

7

19000

1760

2

32000

16

30

2

2

16000

550

1

29000

16

28

1

4

2100

4600

2

21240

12

26

2

2

100

10010

3

58700

12

38

9

9

4500

7800

5

41000

14

29

5

4

300

10000

6

38720

16

36

11

11

24500

540

2

88240

16

38

13

12

13600

8100

2

40000

18

39

7

6

16000

1300

2

34600

16

40

14

12

34000

100

3

29800

12

27

1

3

100

10000

5

56400

16

30

2

1

3000

1200

2

39800

14

29

3

2

2500

900

3

54200

16

31

5

3

14200

800

2

42650

16

27

3

2

5200

1000

3

62200

14

40

8

10

10000

700

2

72200

16

34

5

4

12000

400

4

26530

12

30

1

2

0

12000

2

36500

16

26

2

2

3100

800

3

40000

16

29

3

2

1900

1300

3

41200

12

34

5

4

1000

1200

2

50000

16

35

8

6

4500

1400

2

 银行管理员使用 Pearson 相关来检查每对变量之间线性关系的强度和方向。

如果不进行菜单选择,可以执行如下命令行代码:

Correlation '年龄' '住址' '服务处所' '储蓄' '外债' '信用卡数量';NoDefault;Pearson;Confidence 95.0;GMPlot;RCIS;LL;TMethod;TCorrelation.

上述命令行代码,等同于菜单选择效果。

主要结果解释

主要输出包括 Pearson 相关系数、Spearman 相关系数和 p 值。

步骤 1:检查矩阵图上变量之间的关系

使用矩阵图检查两个连续变量之间的关系。还要在关系中查找异常值。异常值可能会严重影响 Pearson 相关系数的结果。

确定关系是线性关系、单调关系还是二者都不是。下面是相关系数所描述之形式类型的示例。Pearson 相关系数适用于线性形式。Spearman 相关系数适用于单调形式。

无关系:点随机落在图上,表明变量之间无线性关系。

 中等正向关系:一些点靠近直线,另一些点远离直线,仅表明变量之间存在中等线性关系。

大正向关系:点靠近线,表明变量之间存在强大的线性关系。关系为正向,因为当一个变量上升时,另一个变量也会上升。

大负向关系:点靠近线,表明变量之间存在强大的负向关系。关系为负向,因为当一个变量上升时,另一个变量会下降。

单调:在单调关系中,变量倾向于沿着相同的相对方向移动,但不一定以恒定的速率移动。在线性关系中,变量沿着相同的方向以恒定的速率移动。此图显示两个变量同时上升,但不以相同的速率上升。此关系是单调的,但不是线性的。这些数据的 Pearson 相关系数是 0.843,但 Spearman 相关系数较高,为 0.948。

二次曲线:此示例显示曲线关系。即使变量之间的关系很强,相关系数也将接近于零。关系既不是线性的又不是单调的。

主要结果:矩阵图

在这些结果中,可以查看正向线性关系、负向线性关系、可能的曲线关系和几个异常值。

  • 聘用年限(服务处所)与居住年限(住址)之间存在强正向线性关系。
  • 信用卡数与储蓄之间存在弱负向线性关系。
  • 外债似乎具有异常值,需要进行调查。

步骤 2:检查变量之间的相关系数

使用 Pearson 相关系数可以检查两个连续变量之间线性关系的强度和方向。

强度

相关系数可以是介于 −1 到 +1 之间的值。系数的绝对值越大,变量之间的关系越强。

对于 Pearson 相关性,绝对值 1 指示完美的线性关系。接近 0 的相关系数表示变量之间无线性关系。

方向

系数的符号表示关系的方向。如果两个变量都倾向于同时上升或下降,则系数为正,代表相关的直线向上倾斜。如果一个变量倾向于在另一个变量下降时上升,则系数为负,代表相关的直线向下倾斜。

在解释相关系数时,请考虑以下几点:

  • 仅根据相关即得出一个变量会导致另一个变量更改的结论绝对不合适。只有进行过适当控制的试验才能确定是否存在因果关系。
  • Pearson 相关系数对极端数据值非常敏感。数据集中与其他值截然不同的单个值会极大地改变该系数值。应该尝试找出导致任何极端值的原因。更正任何数据输入错误或测量误差。考虑删除与异常的单次事件(也称为特殊原因)相关联的数据值。然后,重新执行分析。
  • Pearson 相关系数低并不意味着变量之间不存在关系。变量之间可能存在非线性关系。

相关: 年龄, 住址, 服务处所, 储蓄, 外债, 信用卡数量

主要结果:Pearson 相关

居住年限与年龄、聘用年限与年龄、聘用年限和居住年限之间存在正向线性关系。这些对的 Pearson 相关系数为:

  • 居住年限与年龄:0.838
  • 聘用年限与年龄:0.848
  • 聘用年限与居住年限:0.952

这些值表明变量之间存在中度正向关系。

对于以下各对存在负向线性关系,它们的 Pearson 相关系数为负:

  • 负债与储蓄:−0.393
  • 信用卡数与年龄:−0.130
  • 信用卡数与储蓄:−0.410

这些变量之间的关系是负向的,表明当负债上升时,教育程度和储蓄下降;当信用卡数上升时,储蓄下降。

所有统计量和图形

Pearson 相关

相关矩阵显示相关值,可度量每对变量之间线性关系的程度。相关值可以介于 -1 和 +1 之间。如果两个变量倾向于同时上升和下降,则相关值为正数。如果一个变量上升而另一个变量下降,则相关值为负数

使用相关矩阵可评估两个变量之间关系的强度和方向。较高的正相关值表明这些变量度量同特征。如果这些项目并非高度相关,则可能度量不同特征或可能未明确定义。

居住年限与年龄、聘用年限与年龄、聘用年限和居住年限之间存在正向线性关系。这些对的 Pearson 相关系数为:

  • 居住年限与年龄:0.838
  • 聘用年限与年龄:0.848
  • 聘用年限与居住年限:0.952

这些值表明变量之间存在中度正向关系。

对于以下各对存在负向线性关系,它们的 Pearson 相关系数为负:

  • 负债与储蓄:−0.393
  • 信用卡数与年龄:−0.130
  • 信用卡数与储蓄: −0.410

这些变量之间的关系是负向的,表明当负债上升时,教育程度和储蓄下降;当信用卡数上升时,储蓄下降。

在这些结果中,居住年限和年龄之间存在正线性相关,相关值为 0.838。总体相关系数介于 0.684 和 0.920 之间的可信度为 95%。通常,相关性越强,置信区间越窄。例如,信用卡数和年龄之间的相关较弱,95% 置信区间的范围是 -0.468 到 0.242。

Spearman 相关

使用 Spearman 相关系数可以检查两个连续或顺序变量之间单调关系强度与方向。在单调关系中,变量倾向于沿着相同的相对方向移动,但不一定以恒定的速率移动。要计算 Spearman 相关,Minitab 将对原始数据进行排秩。然后,Minitab 针对已排秩数据计算相关系数。

强度

相关系数可以是介于 −1 到 +1 之间的值。系数的绝对值越大,变量之间的关系越强。

对于 Spearman 相关,绝对值 1 表明按秩排序的数据呈现完美的线性关系。例如,Spearman 相关系数 −1 表示变量 A 的最高值与变量 B 的最低值相关联,变量 A 的第二最高值与变量 B 的第二最低值相关联,以此类推。

方向

系数的符号指示关系的方向。如果两个变量都倾向于同时上升或下降,则系数为正,代表相关的直线向上倾斜。如果一个变量倾向于在另一个变量下降时上升,则系数为负,代表相关的直线向下倾斜。

下面的几幅图显示具有特定 Spearman 相关系数值的数据,以说明变量之间的关系在强度和方向上的不同模式。

无关系:Spearman rho = 0:点随机落在图上,表明变量之间无线性关系。

强正向关系:Spearman rho = .948 :点靠近线,表明变量之间存在强大的关系。关系为正向,因为这两个变量同时上升。

强负向关系:Spearman rho = 1.0:点靠近线,表明变量之间存在强大的关系。关系为负向,因为当一个变量上升时,另一个变量会下降。

仅根据相关即得出一个变量会导致另一个变量更改的结论绝对不合适。只有进行过适当控制的试验才能确定是否存在因果关系。

在这些结果中,居住年限和年龄之间的 Spearman 相关为 0.824,这表明两个变量之间存在正向关系。rho 的置信区间为 0.624 到 0.922。p 值为 0.000,这表示当显著性水平 α 为 0.05 时,关系在统计意义上显著

负债和储蓄之间的 Spearman 相关为 -0.605,信用卡数和储蓄之间的 Spearman 相关为 -0.480。这些变量之间的关系是负向的,表明当负债和信用卡数上升时,储蓄下降。

相关的置信区间

置信区间提供相关系数的可能值范围。由于样本的随机性,来自总体的两个样本不可能生成相同的置信区间。但是如果将样本重复许多次,则所获得的特定百分比的置信区间或限值会包含未知的相关系数。这些包含相关系数的置信区间或限值的百分比是区间的置信水平。

例如,95% 置信水平表明,如果从总体中随机抽取 100 个样本,则大约 95 个样本将产生包含相关系数的区间。

上限定义可能大于总体差值的值。下限定义可能小于总体差值的值。

Pearson 相关的置信区间对基础二变量分布的正态性敏感。如果数据偏离正态性,那么,无论样本数量的量值是多少,置信区间都可能不准确。

Spearman 相关的置信区间基于秩,而且对基础二变量分布假设不太敏感。

P 值

P 值是一个概率,用来测量否定原假设的证据。p 值越小,否定原假设的证据越充分。

使用 p 值可以确定相关系数在统计意义上是否显著。

要确定相关系数在统计意义上是否显著,请将 p 值与显著性水平进行比较。通常,显著性水平(用 α 或 alpha 表示)为 0.05 即可。显著性水平 0.05 指示在实际上不存在差异时得出存在差异的风险为 5%。

P 值 ≤ α:相关在统计意义上显著(否定 H0)

如果 p 值小于或等于显著性水平,则决策为否定原假设。可以得出相关在统计意义上显著的结论。请使用的专业知识确定差值在实际意义上是否显著。

P 值 > α:相关在统计意义上不显著(无法否定 H0)

如果 p 值大于显著性水平,则决策为无法否定原假设。证据不足,无法得出相关在统计意义上显著的结论。

Pearson 相关和 Spearman 相关的 p 值程序可以很好地适应偏离正态性的情况。无论样本的父级总体如何,当 n ≥ 25 时,p 值通常准确。

在这些结果中,许多 p 值小于显著性水平 0.05,这表示 Pearson 相关系数在统计意义上显著

注意:有时,由于存在极端数据点,p 值可能较小,但置信区间非常大。例如,对于信用卡数和负债,95% 置信区间非常大,但 p 值较小。当检查矩阵图时,可能会看到极端数据点。

矩阵图

矩阵图是散点图的阵列。矩阵图中的每个散点图会在 x 和 y 轴上绘制一对项目的分值。

使用该矩阵图可直观地评估每个项目或变量组合之间的关系。关系可以是线性或单调关系,也可以都不是。还可以使用矩阵图查找可能会严重影响结果的异常值。

此矩阵图表明所有项目对都具有正线性关系。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/635011.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

通讯录项目的实现以及动态顺序表(基于顺序表)

首先我们要知道什么是顺序表: 顺序表的底层结构是数组,对数组的封装,实现了常⽤的增删改查等接⼝,顺序表分为静态顺序表(使⽤定⻓数组存储元素)和动态顺序表(按需申请) 静态顺序表缺点: 空间给少了不够⽤,给多了造成空间浪费 拿出来我之前以及写好了的顺序表的代码:…

SQL SERVER无法连接到服务器解决过程记录

很久没用sql server了,这几天打算更新SQL SERVER数据库:SQL看这一篇就看够了(附详细代码及截图) 这篇文章,发现连接不上服务器。 找一下解决办法。 一、打开服务界面 在键盘上按“WINR”快捷键,打开运行…

rust使用protobuf

前言 c,java,go 等直接是用 ,具体就不说了,这章主要讲述rust 使用protobuf 这章主要讲述2种 1 > protoc protoc-gen-rust plugin 2> protoc prost-build 1:环境 win10 rustrover64 25-2 下载地址 https://github.com/protocolbu…

【DFS】695.岛屿的最大面积

题目 法1:DFS 最简单的DFS必须掌握!!! class Solution {public int maxAreaOfIsland(int[][] grid) {int m grid.length, n grid[0].length, ans 0;if (m 0 || n 0) {return ans;}boolean[][] visited new boolean[m][n]…

简单实用的恒温控制器

工作原理如下:ST是WTQ-288型电接点压力式温度计,当恒温箱内的温度降低到下限时,ST的指针与下限接点接触,双向可控硅通过R被强制触发导通,接通加热器RL的电源,于是恒温箱内温度上升。ST的指针转动&#xff0…

插入排序(一)——直接插入排序与希尔排序

目录 一.前言 二.排序的概念及其运用 1.1排序的概念 1.2 常用排序算法 三.常用排序算法的实现 3.1 插入排序 3.1.1 基本思想 3.1.2 直接插入排序 3.1.3 希尔排序(缩小增量排序) 四.全部代码 sort.c sort.h test.c 五.结语 一.前言 本文我们…

REPLACE INTO

简介 在数据库中,REPLACE INTO 是一种用于插入或更新数据的(DML) SQL 语句。它与 INSERT INTO 语句类似,但具有一些特殊的行为。 语法 REPLACE INTO table_name (column1, column2, ...) VALUES (value1, value2, ...); repla…

360 C++ 面试真题

1、虚函数表的机制 虚函数的声明和定义:在基类中声明一个函数为虚函数,然后在派生类中进行重写(override)。 class Base { public:virtual void virtualFunction() {// 虚函数的定义} }; ​ class Derived : public Base { publi…

使用antd design pro 及后端nodejs express 结合minio进行文件的上传和下载管理

使用Ant Design Pro前端框架结合Node.js Express后端服务以及MinIO作为对象存储,实现文件上传和下载管理的基本步骤如下: 1. 安装所需依赖 在Node.js Express项目中安装minio客户端库: npm install minio --save 在前端项目(假…

c语言字符串分割函数strtok_s和strtok

strtok_s和strtok是C语言提供的字符串分割函数,用于将一个字符串按照指定的分隔符进行分割成多个子字符串。 strtok_s是C11标准库中提供的安全版本的字符串分割函数,其基本语法如下: char* strtok_s(char* str, const char* delim, char** …

航空飞行器运维VR模拟互动教学更直观有趣

传统的二手车鉴定评估培训模式存在实践性不强、教学样本不足、与实际脱节等一些固有的不足。有了VR虚拟仿真技术的加持,二手车鉴定评估VR虚拟仿真实训系统逐渐进入实训领域,为院校及企业二手车检测培训提供了全新的解决方案。 高职院校汽车专业虚拟仿真实…

DC-3靶机刷题记录

靶机下载地址: 链接:https://pan.baidu.com/s/1-P5ezyt5hUbmmGMP4EI7kw?pwdrt2c 提取码:rt2c 参考: http://t.csdnimg.cn/hhPi8https://www.vulnhub.com/entry/dc-32,312/ 官网http://t.csdnimg.cn/5mVZ7DC-3 (1).pdfhttps://…

模具制造企业ERP系统有哪些?企业怎么选型适配的软件

模具的生产管理过程比较繁琐,涵盖接单报价、车间排期、班组负荷评估、库存盘点、材料采购、供应商选择、工艺流转、品质检验等诸多环节。 有些采用传统管理手段的模具制造企业存在各业务数据传递不畅、信息滞后、不能及时掌握订单和车间生产情况,难以对…

【CF比赛记录】 —— Codeforces Round 920 (Div. 3)(A、B、C、D)

🌏博客主页:PH_modest的博客主页 🚩当前专栏:CF比赛记录 💌其他专栏: 🔴每日一题 🟡 cf闯关练习 🟢 C语言跬步积累 🌈座右铭:广积粮,缓…

学习使用微信小程序实现智能名片电子名片功能代码

学习使用微信小程序实现智能名片电子名片功能代码 拨打手机号功能一键复制信息功能定位导航功能存入手机通讯录功能转发分享功能 拨打手机号功能 wx.makePhoneCall({phoneNumber: qipa250 //仅为示例,并非真实的电话号码 })一键复制信息功能 wx.getClipboardData(…

【ARMv8M Cortex-M33 系列 7.1 -- xPSR | CFSR | HFSR | BFAR | MMFAR 寄存器】

文章目录 问题背景Cortex-M33 Fault 寄存器介绍xPSR (程序状态寄存器)CFSR (可配置故障状态寄存器)HFSR (硬件故障状态寄存器)BFAR (总线故障地址寄存器)MMFAR (内存管理故障地址寄存器) 问题背景 由于在RA4M2(Cortex-M33)移植RT-Thread OS的时候遇到了…

mysql limit

语法 SELECT * FROM TABLE_NAME LIMIT 起始位置,偏移量注: 起始位置从0开始 示例 查询的第1条数据到第100条数据 limit 0,100查询的第101条数据到第200条数据 limit 100,100注意不要用 limit 101,100示例2 limit 语句应放在order by语句后面执行 …

Java调用WebService接口,SOAP协议HTTP请求返回XML对象

Java调用Web service接口SOAP协议HTTP请求,解析返回的XML字符串: 1. 使用Java的HTTP库发送SOAP请求,并接收返回的响应。 可以使用Java的HttpURLConnection、Apache HttpClient等库。 2. 将返回的响应转换为字符串。 3. 解析XML字符串&…

第十五届蓝桥杯单片机组——串口通信UART

文章目录 一、什么是串口通信二、UART重要参数三、利用STC-ISP生成初始化代码四、使用UART发送和接收数据 一、什么是串口通信 微控制器与外部设备的数据通信,根据连线结构和传送方式的不同,可以分为两种:并行通信和串行通信。   并行通信:指数据的各位…

亚马逊云科技 WAF 部署小指南(六)追踪 Amazon WAF Request ID,排查误杀原因

众所周知,中国是全球制造业的巨大力量,许多中国企业通过 2B 电商平台网站进行商品销售和采购。在这些电商平台上,Web 应用防火墙(WAF)成为不可或缺的安全工具。然而,WAF 也可能导致误杀问题。一旦误杀发生&…