协方差矩阵(Covariance Matrix)是一个用于衡量多个变量之间相互关系的工具,在统计学和数据分析领域中非常重要。这个矩阵展现了每一对变量之间的协方差。协方差是衡量两个变量如何一起变化的度量;如果两个变量的协方差是正的,那么当一个变量增加时,另一个变量也倾向于增加,反之亦然。
协方差矩阵的定义如下:对于一个有 n 个观察值的 k 个变量的数据集,协方差矩阵是一个k×k的矩阵,其中每个元素 Cij是第 i 个和第 j 个变量的协方差。如果 i=j,协方差就是变量自己的方差。
举例说明
假设我们有一个包含两个变量的简单数据集:身高(以厘米为单位)和体重(以千克为单位)。我们有三个观测值:
-观察值1:身高170厘米,体重65千克。
-观察值2:身高180厘米,体重80千克。
-观察值3:身高175厘米,体重75千克。
首先,我们计算每个变量的平均值(均值):
-身高的平均值:170+180+175/3厘米。
-体重的平均值:65+80+75/3千克。
然后,我们使用以下公式计算协方差:
其中 X 和 Y 是要计算协方差的两个变量,n 是观测值的数量。
使用这些数据,我们可以计算身高和体重之间的协方差,以及它们各自的方差。协方差矩阵将如下所示:
我们可以实际计算这个矩阵的值。
计算得出的协方差矩阵如下:
在这个矩阵中:
—25 是身高的方差。
—58.33 是体重的方差。
—37.5 是身高和体重之间的协方差,这个值出现在矩阵的两个非对角线位置,表示这两个变量之间存在正相关关系,即身高越高,体重通常也越重。