马氏距离和欧式距离详解

article/2025/9/14 8:15:09

一般在机器学习模型中会涉及到衡量两个样本间的距离，如聚类、KNN，K-means等，使用的距离为欧式距离。其实，除了欧氏距离之外，还有很多的距离计算标准，本文主要介绍欧氏距离和马氏距离。

欧氏距离

最常见的两点之间或多点之间的距离表示法，又称之为欧几里得度量，它定义于欧几里得空间中，如点 $x = (x_1,…,x_n)$ 和 $y = (y_1,…,y_n)$ 之间的距离为：
$\sqrt{(x_1-y_1)^2+(x_2-y_2)^2+...+(x_n-y_n)^2} = \sqrt{\sum_{i=1}^{n}(x_i-y_i)^2}$

二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离：
$d_{12} = \sqrt{(x_1-x_2)^2+(y_1-y_2)^2}$
两个n维向量 $a(x_{11},x_{12},…,x_{1n})$ 与 $b(x_{21},x_{22},…,x_{2n})$ 间的欧氏距离：
$d_{12} = \sqrt{\sum_{k=1}^{n}(x_{1k}-x_{2k})^2}$

马氏距离

在介绍马氏距离之前，我们先来看如下几个概念：

方差：方差是标准差的平方，而标准差的意义是数据集中各个点到均值点距离的平均值。反应的是数据的离散程度。
协方差： 标准差与方差是描述一维数据的，当存在多维数据时，我们通常需要知道每个维数的变量中间是否存在关联。协方差就是衡量多维数据集中，变量之间相关性的统计量。比如说，一个人的身高与他的体重的关系，这就需要用协方差来衡量。如果两个变量之间的协方差为正值，则这两个变量之间存在正相关，若为负值，则为负相关。
协方差矩阵： 当变量多了，超过两个变量了。那么，就用协方差矩阵来衡量这么多变量之间的相关性。假设 $X$ 是以 $n$ 个随机变数（其中的每个随机变数是也是一个向量，当然是一个行向量）组成的列向量：
$\begin{bmatrix} X_1 \\ X_2 \\ \vdots \\ X_n \end{bmatrix}$
其中， $μ_i$ 是第i个元素的期望值，即 $μ_i=E(X_i)$ 。协方差矩阵的第 $i, j$ 项（第 $i, j$ 项是一个协方差）被定义为如下形式：
$\sum_{ij} = cov(X_i,X_j = E[(X_i-\mu_i)(X_j-\mu_j)])$
即：
$\sum = \begin{bmatrix} E[(X_1-\mu_1)(X_1-\mu_1)]) & E[(X_1-\mu_1)(X_2-\mu_2)]) & \cdots & E[(X_1-\mu_1)(X_n-\mu_n)]) \\ E[(X_2-\mu_2)(X_1-\mu_1)]) & E[(X_2-\mu_2)(X_2-\mu_2)]) & \cdots & E[(X_2-\mu_2)(X_n-\mu_n)]) \\ \vdots & \vdots & \ddots & \vdots \\ E[(X_n-\mu_n)(X_1-\mu_1)]) & E[(X_n-\mu_n)(X_2-\mu_2)]) & \cdots & E[(X_n-\mu_n)(X_n-\mu_n)]) \end{bmatrix}$
矩阵中的第 $(i, j)$ 个元素是 $X_i$ 与 $X_j$ 的协方差。

马氏距离的定义：
马氏距离（Mahalanobis Distance）是由马哈拉诺比斯（P. C. Mahalanobis）提出的，表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系（例如：一条关于身高的信息会带来一条关于体重的信息，因为两者是有关联的）并且是尺度无关的（scale-invariant），即独立于测量尺度。
对于一个均值为 $μ=(μ_1,μ_2,μ_3,...,μ_p)^T$ ，协方差矩阵为 $S$ 的多变量 $x=(x_1,x_2,x_3,...,x_p)^T$ ，其马氏距离为：
$D_M(x) = \sqrt{(x-\mu)^T {S}^{-1}(x-\mu)}$
我们可以发现如果 $S^{-1}$ 是单位阵的时候，马氏距离简化为欧氏距离。