相关概述
相关可以度量两个变量之间关联的强度和方向。可以在以下两种相关方法之间进行选择:Pearson 积矩相关和 Spearman 秩次相关。Pearson 相关(又称为 r)是最常见的方法,它度量两个连续变量之间的线性关系。
如果变量之间的关系不是线性的,则可以使用 Spearman 秩次相关(又称为 Spearman 的 rho)。Spearman 相关度量两个连续或顺序变量之间的单调关系。
例如,刨花板制造商的工程师想要确定刨花板的密度是否与刨花板的刚度相关联。工程师使用 Pearson 相关执行相关分析,以评估密度和刚度之间线性关系的强度和方向。
功能菜单请选择:统计 > 基本统计 > 相关。
数据注意事项
为了确保结果有效,请在收集数据、执行分析和解释结果时考虑以下准则。
- 数据必须至少包括两列数字或日期/时间数据:所有列必须包含相同数量的行。
- 数据应当是连续的或按顺序的:如果有类别数据,则应当执行 交叉分组表和卡方,以检查变量之间的相关性。
- 样本数量应当为中等程度及以上,n ≥ 25:虽然对于相关所需的数据量没有正式的准则,但样本越大,就越能清楚地表示数据中的模式并提供更精确的估计值。
- 变量间的关系应该为线性关系或单调关系:如果变量不具有线性关系或单调关系,则相关性分析所得出的结果将不会准确反映关系的强度。检查矩阵图以查看其他关系。
- 异常值可能会对结果产生较大影响:正因为异常值可能会对结果产生较大影响,所以需使用矩阵图确定这些值。应该调查异常值,因为他们能够提供关于数据或过程的有用信息。
- 数据应服从二变量正态分布:Pearson 相关和 Spearman 相关的 p 值程序可以很好地适应偏离正态性的情况。无论样本的父级总体如何,当 n ≥ 25 时,p 值通常准确。Pearson 相关的置信区间对基础二变量分布的正态性敏感。如果数据偏离正态性,那么,无论样本数量的量值是多少,置信区间都可能不准确。Spearman 相关的置信区间基于秩,而且对基础二变量分布假设不太敏感。
相关示例
某银行需要贷款申请人提供八项信息:收入、教育程度、年龄、在目前住址的居住年限、在目前聘用单位的工作时间、储蓄、负债和信用卡数。银行管理员需要分析这些数据,以确定用于分组和报告这些数据的最佳方式。该管理员收集了 30 名贷款申请人的上述信息。
收入 | 教育程度 | 年龄 | 住址 | 服务处所 | 储蓄 | 外债 | 信用卡数量 |
50000 | 16 | 28 | 2 | 2 | 5000 | 1200 | 2 |
72000 | 18 | 35 | 10 | 8 | 12000 | 5400 | 4 |
61000 | 18 | 36 | 6 | 5 | 15000 | 1000 | 2 |
88000 | 20 | 35 | 4 | 4 | 980 | 1100 | 4 |
91100 | 18 | 38 | 8 | 9 | 20000 | 0 | 1 |
45100 | 14 | 41 | 15 | 14 | 3900 | 22000 | 4 |
36200 | 14 | 29 | 6 | 5 | 100 | 7000 | 5 |
41000 | 12 | 34 | 9 | 8 | 5000 | 200 | 3 |
40000 | 16 | 32 | 8 | 7 | 19000 | 1760 | 2 |
32000 | 16 | 30 | 2 | 2 | 16000 | 550 | 1 |
29000 | 16 | 28 | 1 | 4 | 2100 | 4600 | 2 |
21240 | 12 | 26 | 2 | 2 | 100 | 10010 | 3 |
58700 | 12 | 38 | 9 | 9 | 4500 | 7800 | 5 |
41000 | 14 | 29 | 5 | 4 | 300 | 10000 | 6 |
38720 | 16 | 36 | 11 | 11 | 24500 | 540 | 2 |
88240 | 16 | 38 | 13 | 12 | 13600 | 8100 | 2 |
40000 | 18 | 39 | 7 | 6 | 16000 | 1300 | 2 |
34600 | 16 | 40 | 14 | 12 | 34000 | 100 | 3 |
29800 | 12 | 27 | 1 | 3 | 100 | 10000 | 5 |
56400 | 16 | 30 | 2 | 1 | 3000 | 1200 | 2 |
39800 | 14 | 29 | 3 | 2 | 2500 | 900 | 3 |
54200 | 16 | 31 | 5 | 3 | 14200 | 800 | 2 |
42650 | 16 | 27 | 3 | 2 | 5200 | 1000 | 3 |
62200 | 14 | 40 | 8 | 10 | 10000 | 700 | 2 |
72200 | 16 | 34 | 5 | 4 | 12000 | 400 | 4 |
26530 | 12 | 30 | 1 | 2 | 0 | 12000 | 2 |
36500 | 16 | 26 | 2 | 2 | 3100 | 800 | 3 |
40000 | 16 | 29 | 3 | 2 | 1900 | 1300 | 3 |
41200 | 12 | 34 | 5 | 4 | 1000 | 1200 | 2 |
50000 | 16 | 35 | 8 | 6 | 4500 | 1400 | 2 |
银行管理员使用 Pearson 相关来检查每对变量之间线性关系的强度和方向。
如果不进行菜单选择,可以执行如下命令行代码:
Correlation '年龄' '住址' '服务处所' '储蓄' '外债' '信用卡数量';NoDefault;Pearson;Confidence 95.0;GMPlot;RCIS;LL;TMethod;TCorrelation.
上述命令行代码,等同于菜单选择效果。
主要结果解释
主要输出包括 Pearson 相关系数、Spearman 相关系数和 p 值。
步骤 1:检查矩阵图上变量之间的关系
使用矩阵图检查两个连续变量之间的关系。还要在关系中查找异常值。异常值可能会严重影响 Pearson 相关系数的结果。
确定关系是线性关系、单调关系还是二者都不是。下面是相关系数所描述之形式类型的示例。Pearson 相关系数适用于线性形式。Spearman 相关系数适用于单调形式。
无关系:点随机落在图上,表明变量之间无线性关系。
中等正向关系:一些点靠近直线,另一些点远离直线,仅表明变量之间存在中等线性关系。
大正向关系:点靠近线,表明变量之间存在强大的线性关系。关系为正向,因为当一个变量上升时,另一个变量也会上升。
大负向关系:点靠近线,表明变量之间存在强大的负向关系。关系为负向,因为当一个变量上升时,另一个变量会下降。
单调:在单调关系中,变量倾向于沿着相同的相对方向移动,但不一定以恒定的速率移动。在线性关系中,变量沿着相同的方向以恒定的速率移动。此图显示两个变量同时上升,但不以相同的速率上升。此关系是单调的,但不是线性的。这些数据的 Pearson 相关系数是 0.843,但 Spearman 相关系数较高,为 0.948。
二次曲线:此示例显示曲线关系。即使变量之间的关系很强,相关系数也将接近于零。关系既不是线性的又不是单调的。
主要结果:矩阵图
在这些结果中,可以查看正向线性关系、负向线性关系、可能的曲线关系和几个异常值。
- 聘用年限(服务处所)与居住年限(住址)之间存在强正向线性关系。
- 信用卡数与储蓄之间存在弱负向线性关系。
- 外债似乎具有异常值,需要进行调查。
步骤 2:检查变量之间的相关系数
使用 Pearson 相关系数可以检查两个连续变量之间线性关系的强度和方向。
强度
相关系数可以是介于 −1 到 +1 之间的值。系数的绝对值越大,变量之间的关系越强。
对于 Pearson 相关性,绝对值 1 指示完美的线性关系。接近 0 的相关系数表示变量之间无线性关系。
方向
系数的符号表示关系的方向。如果两个变量都倾向于同时上升或下降,则系数为正,代表相关的直线向上倾斜。如果一个变量倾向于在另一个变量下降时上升,则系数为负,代表相关的直线向下倾斜。
在解释相关系数时,请考虑以下几点:
- 仅根据相关即得出一个变量会导致另一个变量更改的结论绝对不合适。只有进行过适当控制的试验才能确定是否存在因果关系。
- Pearson 相关系数对极端数据值非常敏感。数据集中与其他值截然不同的单个值会极大地改变该系数值。应该尝试找出导致任何极端值的原因。更正任何数据输入错误或测量误差。考虑删除与异常的单次事件(也称为特殊原因)相关联的数据值。然后,重新执行分析。
- Pearson 相关系数低并不意味着变量之间不存在关系。变量之间可能存在非线性关系。
相关: 年龄, 住址, 服务处所, 储蓄, 外债, 信用卡数量
主要结果:Pearson 相关
居住年限与年龄、聘用年限与年龄、聘用年限和居住年限之间存在正向线性关系。这些对的 Pearson 相关系数为:
- 居住年限与年龄:0.838
- 聘用年限与年龄:0.848
- 聘用年限与居住年限:0.952
这些值表明变量之间存在中度正向关系。
对于以下各对存在负向线性关系,它们的 Pearson 相关系数为负:
- 负债与储蓄:−0.393
- 信用卡数与年龄:−0.130
- 信用卡数与储蓄:−0.410
这些变量之间的关系是负向的,表明当负债上升时,教育程度和储蓄下降;当信用卡数上升时,储蓄下降。
所有统计量和图形
Pearson 相关
相关矩阵显示相关值,可度量每对变量之间线性关系的程度。相关值可以介于 -1 和 +1 之间。如果两个变量倾向于同时上升和下降,则相关值为正数。如果一个变量上升而另一个变量下降,则相关值为负数。
使用相关矩阵可评估两个变量之间关系的强度和方向。较高的正相关值表明这些变量度量同特征。如果这些项目并非高度相关,则可能度量不同特征或可能未明确定义。
居住年限与年龄、聘用年限与年龄、聘用年限和居住年限之间存在正向线性关系。这些对的 Pearson 相关系数为:
- 居住年限与年龄:0.838
- 聘用年限与年龄:0.848
- 聘用年限与居住年限:0.952
这些值表明变量之间存在中度正向关系。
对于以下各对存在负向线性关系,它们的 Pearson 相关系数为负:
- 负债与储蓄:−0.393
- 信用卡数与年龄:−0.130
- 信用卡数与储蓄: −0.410
这些变量之间的关系是负向的,表明当负债上升时,教育程度和储蓄下降;当信用卡数上升时,储蓄下降。
在这些结果中,居住年限和年龄之间存在正线性相关,相关值为 0.838。总体相关系数介于 0.684 和 0.920 之间的可信度为 95%。通常,相关性越强,置信区间越窄。例如,信用卡数和年龄之间的相关较弱,95% 置信区间的范围是 -0.468 到 0.242。
Spearman 相关
使用 Spearman 相关系数可以检查两个连续或顺序变量之间单调关系强度与方向。在单调关系中,变量倾向于沿着相同的相对方向移动,但不一定以恒定的速率移动。要计算 Spearman 相关,Minitab 将对原始数据进行排秩。然后,Minitab 针对已排秩数据计算相关系数。
强度
相关系数可以是介于 −1 到 +1 之间的值。系数的绝对值越大,变量之间的关系越强。
对于 Spearman 相关,绝对值 1 表明按秩排序的数据呈现完美的线性关系。例如,Spearman 相关系数 −1 表示变量 A 的最高值与变量 B 的最低值相关联,变量 A 的第二最高值与变量 B 的第二最低值相关联,以此类推。
方向
系数的符号指示关系的方向。如果两个变量都倾向于同时上升或下降,则系数为正,代表相关的直线向上倾斜。如果一个变量倾向于在另一个变量下降时上升,则系数为负,代表相关的直线向下倾斜。
下面的几幅图显示具有特定 Spearman 相关系数值的数据,以说明变量之间的关系在强度和方向上的不同模式。
无关系:Spearman rho = 0:点随机落在图上,表明变量之间无线性关系。
强正向关系:Spearman rho = .948 :点靠近线,表明变量之间存在强大的关系。关系为正向,因为这两个变量同时上升。
强负向关系:Spearman rho = 1.0:点靠近线,表明变量之间存在强大的关系。关系为负向,因为当一个变量上升时,另一个变量会下降。
仅根据相关即得出一个变量会导致另一个变量更改的结论绝对不合适。只有进行过适当控制的试验才能确定是否存在因果关系。
在这些结果中,居住年限和年龄之间的 Spearman 相关为 0.824,这表明两个变量之间存在正向关系。rho 的置信区间为 0.624 到 0.922。p 值为 0.000,这表示当显著性水平 α 为 0.05 时,关系在统计意义上显著。
负债和储蓄之间的 Spearman 相关为 -0.605,信用卡数和储蓄之间的 Spearman 相关为 -0.480。这些变量之间的关系是负向的,表明当负债和信用卡数上升时,储蓄下降。
相关的置信区间
置信区间提供相关系数的可能值范围。由于样本的随机性,来自总体的两个样本不可能生成相同的置信区间。但是如果将样本重复许多次,则所获得的特定百分比的置信区间或限值会包含未知的相关系数。这些包含相关系数的置信区间或限值的百分比是区间的置信水平。
例如,95% 置信水平表明,如果从总体中随机抽取 100 个样本,则大约 95 个样本将产生包含相关系数的区间。
上限定义可能大于总体差值的值。下限定义可能小于总体差值的值。
Pearson 相关的置信区间对基础二变量分布的正态性敏感。如果数据偏离正态性,那么,无论样本数量的量值是多少,置信区间都可能不准确。
Spearman 相关的置信区间基于秩,而且对基础二变量分布假设不太敏感。
P 值
P 值是一个概率,用来测量否定原假设的证据。p 值越小,否定原假设的证据越充分。
使用 p 值可以确定相关系数在统计意义上是否显著。
要确定相关系数在统计意义上是否显著,请将 p 值与显著性水平进行比较。通常,显著性水平(用 α 或 alpha 表示)为 0.05 即可。显著性水平 0.05 指示在实际上不存在差异时得出存在差异的风险为 5%。
P 值 ≤ α:相关在统计意义上显著(否定 H0)
如果 p 值小于或等于显著性水平,则决策为否定原假设。可以得出相关在统计意义上显著的结论。请使用的专业知识确定差值在实际意义上是否显著。
P 值 > α:相关在统计意义上不显著(无法否定 H0)
如果 p 值大于显著性水平,则决策为无法否定原假设。证据不足,无法得出相关在统计意义上显著的结论。
Pearson 相关和 Spearman 相关的 p 值程序可以很好地适应偏离正态性的情况。无论样本的父级总体如何,当 n ≥ 25 时,p 值通常准确。
在这些结果中,许多 p 值小于显著性水平 0.05,这表示 Pearson 相关系数在统计意义上显著。
注意:有时,由于存在极端数据点,p 值可能较小,但置信区间非常大。例如,对于信用卡数和负债,95% 置信区间非常大,但 p 值较小。当检查矩阵图时,可能会看到极端数据点。
矩阵图
矩阵图是散点图的阵列。矩阵图中的每个散点图会在 x 和 y 轴上绘制一对项目的分值。
使用该矩阵图可直观地评估每个项目或变量组合之间的关系。关系可以是线性或单调关系,也可以都不是。还可以使用矩阵图查找可能会严重影响结果的异常值。
此矩阵图表明所有项目对都具有正线性关系。