一 基本概念
方差:(variance)是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。
协方差:标准差与方差是描述一维数据的,当存在多维数据时,我们通常需要知道每个维数的变量中间是否存在关联。协方差就是衡量多维数据集中,变量之间相关性的统计量。比如说,一个人的身高与他的体重的关系,这就需要用协方差来衡量。如果两个变量之间的协方差为正值,则这两个变量之间存在正相关,若为负值,则为负相关。
二 马氏距离
马氏距离是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的,表示数据的协方差距离。
协方差矩阵,当变量多了,超过两个变量了。那么,就用协方差矩阵来衡量这么多变量之间的相关性。假设 X 是以 n 个随机变数(其中的每个随机变数是也是一个向量,当然是一个行向量)组成的列向量:
马氏距离:它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的(scale-invariant),即独立于测量尺度。
将马氏距离用于人脸识别时,x是预测出的数值,μ是期望(标签)。人脸图像大小为200*200时,那么x应该是200*200大小的,相应地,协方差矩阵也时一个大矩阵的,而Dm(x)则是标量。
而欧氏距离用于人脸识别,,x是预测出的额值,μ是期望(标签)。人脸图像大小为200*200时,那么X也是200*200的,但是输出σ2也是标量。
knn中,使用马氏距离比使用欧式距离好,为什么?
knn中,使用马氏距离,则协方差矩阵是训练集的协方差矩阵。d=(x-y)‘R^-1(x-y)
使用欧式距离d = (x-y)’(x-y)
不同之处在于马氏距离,多乘一个R^-1,从而得到的距离必然与欧氏距离不同。而给x分类的关键局势距离的大小,选择合适的距离度量是大事。
但说到底,都是计算两个距离,然后使用投票方式,选出x的标签。
http://blog.csdn.net/zb1165048017/article/details/48579743