马氏距离的深入理解
转自: http://www.cnblogs.com/kevinGaoblog/archive/2012/06/19/2555448.html 对于马氏距离,本人研究了一下,虽然看上去公式很简单的,但是其中存在很多模糊的东西,例如有很多教科书以及网络上的简要说明,下面以维基百科作为引用: 马氏距离是由印度统计学家马哈拉诺比斯( P. C. Mahalanobis )提出的,表示数据的 协方差 距离。它是一种有效的计算两个未知 样本集 的相似度的方法。与 欧氏距离 不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的(scale-invariant),即独立于测量尺度。 对于一个均值为 , 协方差矩阵 为Σ的多变量矢量 ,其马氏距离为 马氏距离也可以定义为两个服从同一分布并且其协方差矩阵为Σ的随机变量 与 的差异程度: 如果协方差矩阵为单位矩阵,马氏距离就简化为欧式距离;如果协方差矩阵为对角阵,其也可称为正规化的马氏距离。 其中σi是xi的 标准差 。 对于上述的马氏距离,本人研究了一下,虽然看上去公式很简单的,但是其中存在很多模糊的东西,为什么马氏距离是一种考滤到各种特性之间的联系并且是尺度无关的?为什么可以使用协方差矩阵的逆矩阵去掉单位而使之尺度无关。基于此,以下是个人的一些想法。 1