一、说明
本文探讨最平凡的数学模型--距离模型。我们知道,任何数学模型如果是个距离模型,那么它是:放心的、自动的、不加任意条件的指标项目。然而另一些度量参数不是距离空间,因此,使用起来必须外加若干条件,本文指的相关性就是这种类型的度量。
二、度量基本概念
在没有距离的情况下,“近”和“远”是没有意义的。为了在一组抽象的数学对象上定义这些概念,我们需要能够测量每对对象之间的距离。问题是:如果抽象的数学对象是随机变量,那么我们应该如何测量它们之间的距离?
相关距离是测量具有有限方差的两个随机变量之间距离的常用方法¹。如果两个随机变量之间的相关²为r,则它们的相关距离定义为d=1-r。但是,适当的距离度量需要具有一些属性,即应该是一个度量,并且相关距离是否具有这些属性并非易事。在本说明中,我们询问相关距离是否是一个指标。
三、回顾:什么是度量?
考虑我们要定义集合Ω元素之间的距离度量。然后,度量(适当的距离度量)是具有以下属性的函数 d:Ω×Ω →R⁺:
- 如果两个物体的距离为零,则它们是相同的,反之亦然;即 d(x,y) = 0 iff x = y。
- 它是对称的,即d(x,y)=d(y,x)。
- 它满足三角不等式,即d(x,y)≤d(x,z)+d(z,y)。
由于相关性是对称的,因此对于相关距离,第二个性质显然是满足的。因此,我们需要研究另外两个。
四、第一属性:元素身份辨别
考虑具有相关性 r₁₂ 的随机变量 X₁ 和 X₂。 则相关距离 d₁₂ = 1 - r₁₂ 为零,当且仅 r₁₂ = 1。 同时,X₁ 和 X₂ 之间的相关性是 0,当且仅当存在 a><> 和 b∈ R 使得 X₁=aX₂+b。
换句话说,d₁₂ 为零当且仅当 X₂ 可以通过仅通过移动和缩放转换为 X₁。相关距离的这一特殊特征使得我们需要平移和尺度不变距离测量的情况非常有趣。但是,此功能使得相关距离不可能成为具有有限方差的所有随机变量集合的度量;相反,它仍然可以是归一化随机变量(即均值和单位方差为零的变量)的集合³上的距离。
结论:相关距离在归一化随机变量集上具有第一个性质。
图1.随机变量向量表示之间的相关距离的可视化;详见附录。
五、第三个属性:三角不等式
三角不等式的陈述非常直观:从床到办公桌的直线是从床到办公桌的最短路径。如果相关距离想要满足这个性质,那么任意三个随机变量 X₁、X₂ 和 X₃ 的相关性必须满足不等式
因此,如果 r₂₃ 和 r₁₃ 等于 0.5,则 r₁₂ 必须大于或等于 0。 很容易找到不满足此条件的随机变量的示例;请参阅我之前关于“相关性的误解”的说明中的第三种情况。换句话说,在一个距离由相关距离测量的世界里,如果你先去沙发,然后从那里到你的办公桌,你可能会发现从床到办公桌的路径更短!
结论?相关距离不满足第三个条件,它不是一个正确的度量。
六、如何使其成为指标?
在归一化随机变量的集合上,很容易证明欧几里得距离可以用相关性表示为
欧几里得距离是一个度量;欧几里得距离是相关距离的平方根(成正比)。因此,相关距离的平方根是一个度量。
七、对向量表示的评论
考虑一组具有相关矩阵 Σ 的 N 个归一化随机变量。如果我们将 Σ 平方根的第 n 行(即 N-d 单位球上的 N-d 向量)视为第 n个随机变量的向量表示,那么这些向量之间的欧几里得距离(与它们之间余弦距离的平方根相同)与相应随机数之间相关距离的平方根保持相同(通过忽略尺度)变量。
八、结论
相关距离不满足三角不等式,因此不是度量。但是,它的平方根是规范化随机变量集上的度量。
脚注
¹ 相关距离广泛用于聚类,它在神经科学和生物信息学等领域有应用,在编程语言中也可以作为距离选项使用,例如在 MATLAB pdist 函数中。
² 在本文中,我总是通过相关性来表示皮尔逊相关性。
³ 相关距离也可以被视为随机变量等价类集合上的距离度量,当随机变量 X 和 Y 在 R ∈存在 a>0 和 b 时相互关联,使得 X=aY+b。