统计篇（四）-- 协方差矩阵的理解

本文将针对协方差矩阵做一个详细的介绍，其中包括协方差矩阵的定义、数学背景与意义、计算公式的推导、几何解释，主要整理自下面两篇博客：

peghoty-关于协方差矩阵的理解：http://blog.csdn.net/itplus/article/details/11452743
协方差矩阵的几何解释：https://www.cnblogs.com/nsnow/p/4758202.html

一、协方差的定义与推导

二、几何解释

2.1 介绍

下面图1表明标准差（方差的平方根）提供了数据在特征空间上传播多少的量度。

Figure 1. Gaussian density function. For normally distributed data, 68% of the samples fall within the interval defined by the mean plus and minus the standard deviation.

我们发现，样本方差的无偏估计可由下式获得：

$\begin{aligned} \sigma_x^2 &= \frac{1}{N-1} \sum_{i=1}^N (x_i - \mu)^2\\ &= \mathbb{E}[ (x - \mathbb{E}(x)) (x - \mathbb{E}(x))]\\ &= \sigma(x,x) \end{aligned}\tag{1}$

然而，方差只能用于解释平行于特征空间轴方向的数据传播。考虑图2所示的二维特征空间：

Figure 2. The diagnoal spread of the data is captured by the covariance.

对于这个数据，我们可以计算出在 $x$ 方向上的方差 $\sigma(x, x)$ 和 $y$ 方向上的方差 $\sigma(y, y)$ 。然而，数据的水平传播和垂直传播不能解释明显的对角线关系。图2清楚地显示，平均而言，如果一个数据点的 $x$ 值增加，则 $y$ 值也将增加，这产生了正相关。这种相关性可以通过扩展方差概念到所谓的数据“协方差”捕捉到：
$\sigma(x,y) = \mathbb{E}[ (x - \mathbb{E}(x)) (y - \mathbb{E}(y))] \tag{2}$

对于2D数据，我们得到 $\sigma(x, x), \sigma(y, y), \sigma(x, y), and \sigma(y, x)$ ，这些值可以用矩阵来表示，该矩阵叫做协方差矩阵：
$\Sigma = \begin{bmatrix} \sigma(x,x) & \sigma(x,y) \\[0.3em] \sigma(y,x) & \sigma(y,y) \\[0.3em] \end{bmatrix} \tag{3}$
如果 $x$ 与 $y$ 是正相关的，那么 $y$ 和 $x$ 也是正相关的。换句话说， $\sigma(x, y) =\sigma(y, x)$ 。因此，协方差矩阵始终是一个对称矩阵，其对角线上是方差，非对角线上是协方差。二维正态分布数据由它的均值和2x2协方差矩阵就可以完全解释。同样，一个3x3协方差矩阵用于捕捉三维数据的传播，一个NxN协方差矩阵捕获N维数据的传播。

图3展示了数据的整体形状如何定义协方差矩阵：

Figure 3. The covariance matrix defines the shape of the data. Diagonal spread is captured by the covariance, while axis-aligned spread is captured by the variance.

2.2 协方差矩阵的特征值分解

我们在图3看到的，协方差矩阵定义了我们数据的传播（方差）和方向（协方差）。因此，如果我们想用一个向量和它的大小来表示协方差矩阵，我们应该简单地尝试找到指向数据最大传播方向上的向量，其大小等于这个方向上的传播（方差）。

如果我们定义这个向量为 $\vec{v}$ ，那么我们数据 $D$ 到这个向量上的映射为 $\vec{v}^TD$ ，映射数据的方差是 $\vec{v}^T\Sigma\vec{v}$ 。由于我们正在寻找指向最大方差方向的向量 $\vec{v}$ ，所以我们应该选择它的成分，使得映射数据的协方差矩阵 $\vec{v}^T\Sigma\vec{v}$ 尽可能的大。最大化 $\vec{v}$ 的形式为 $\vec{v}^T\Sigma\vec{v}$ 的任何函数，其中 $\vec{v}$ 是归一化单位向量，可以用一个所谓的瑞利商表示。通过设置 $\vec{v}$ 等于矩阵的最大特征特征向量 $\Sigma$ 可以获得这样瑞利商的最大值。

换句话说，协方差矩阵的最大特征向量总是指向数据最大方差的方向，并且该向量的幅度等于相应的特征值。第二大特征向量总是正交于最大特征向量，并指向第二大数据的传播方向。

一个线性变换矩阵 $T$ 完全由它的特征向量和特征值定义。应用到协方差矩阵，这意味着：
$\Sigma \vec{v} = \lambda \vec{v} \tag{4}$

如果我们数据的协方差矩阵是对角矩阵，使得协方差是零，那么这意味着方差必须等于特征值λ。如图4所示，特征向量用绿色和品红色表示，特征值显然等于协方差矩阵的方差分量。

Figure 4. Eigenvectors of a covariance matrix

然而，如果协方差矩阵不是对角的，使得协方差不为零，那么情况稍微更复杂一些。特征值仍代表数据最大传播方向的方差大小，协方差矩阵的方差分量仍然表示x轴和y轴方向上的方差大小。但是，因为数据不是轴对齐的，所以这些值不再与图5所示的相同。

Figure 5. Eigenvalues versus variance

通过比较图5与图4，可以清楚地看到特征值表示沿特征向量方向数据的方差，而协方差矩阵的方差分量表示沿轴的传播。如果没有协方差，则这两个值是相等的。

2.3 协方差矩阵作为线性变换

图3的实例可以简单地认为是图6的一个线性变换实例：

Figure 6. Data with unit covariance matrix is called white data.

        图6所示的数据是 $D$ ，则图3所示的每个实例可以通过线性变换 $D$ 得到：
$D'=TD\tag{5}$
        其中 $T$ 是变换矩阵，包括一个旋转矩阵 $R$ 和缩放矩阵 $S$ ：
$T=RS\tag{6}$
        这些矩阵定义如下：
$\begin{bmatrix} \cos(\theta) & -\sin(\theta) \\[0.3em] \sin(\theta) & \cos(\theta) \end{bmatrix}\tag{7}$

其中 $\theta$ 是旋转角度。
$\begin{bmatrix} s_x & 0 \\[0.3em] 0 & s_y \end{bmatrix}\tag{8}$
$S_x, S_y$ 分别是 $x$ 方向和 $y$ 方向的比例因子。

在下面的段落中，我们将讨论协方差矩阵 $\Sigma$ 与线性变换矩阵 $T = RS$ 之间的关系。

让我们先从未缩放（缩放相当于1）和未旋转的数据开始。在统计中，这往往为“白数据’，因为它的样本是从标准正态分布引出的，因此对应于白（不相关）噪声：

Figure 7. White data is data with a unit covariance matrix.

这个“白色”数据的协方差矩阵等于单位矩阵，使得方差和标准差等于1，协方差等于零：
$\Sigma = \begin{bmatrix} \sigma_x^2 & 0 \\[0.3em] 0 & \sigma_y^2 \\ \end{bmatrix} = \begin{bmatrix} 1 & 0 \\[0.3em] 0 & 1 \\ \end{bmatrix} \tag{9}$

现在让我们用因子4在 $x$ 方向缩放数据：
$\begin{bmatrix} 4 & 0 \\[0.3em] 0 & 1 \\ \end{bmatrix}D\tag{10}$

数据 $D^{'}$ 现在如下：

Figure 8. Variance in the x-direction results in a horizontal scaling.

$D^{'}$ 的协方差 $\Sigma'$ 现在是：
$\Sigma'=\begin{bmatrix} \sigma_x^2 & 0 \\ 0 & \sigma_y^2\end{bmatrix} = \begin{bmatrix} 16 & 0 \\ 0 & 1\end{bmatrix}\tag{11}$

         $D^{'}$ 的协方差 $\Sigma'$ 与线性变换矩阵 $T$ 有关系， $D^{'} = T D$ ，其中:
$T=\sqrt{\Sigma'}=\begin{bmatrix} 4 & 0 \\ 0 & 1\end{bmatrix}\tag{12}$
        然而，虽然数据在 $x$ 和 $y$ 方向上缩放时等式（12）成立，但是应用旋转是否依然成立呢？为了调查一般情况下线性变换矩阵 $T$ 和协方差矩阵 $\Sigma'$ 之间的关系，我们试图分解协方差矩阵为旋转和缩放矩阵的乘积。
        正如我们前面所看到的，我们可以用特征向量和特征值表示协方差矩阵：
$\Sigma\vec{v} = \lambda\vec{v}\tag{13}$

等式（13）保存矩阵 $\Sigma$ 的每个特征向量和特征值。在2D情况下，我们得到两个特征值和两个特征值。由公式（13）定义的两个等式可以有效地用矩阵符号来表示：
$\Sigma V=VL\tag{14}$
其中 $V$ 是矩阵，它的列是 $\Sigma$ 的特征向量， $L$ 是对角矩阵，其非零元素对应特征值。

这意味着我们可以将协方差矩阵表示为特征向量和特征值的函数：
$\Sigma = VLV^{-1}\tag{15}$

        方程（15）就是所谓协方差矩阵特征值分解，并可以使用奇异值分解算法来获得。而特征向量表示数据最大方差的方向，特征值表示那些方向方差的幅度。换言之， $V$ 表示旋转矩阵，而 $\sqrt{L}$ 表示一个缩放矩阵。协方差矩阵可以进一步分解为：
$\Sigma = RSSR^{-1}\tag{16}$
        其中， $R = V$ 是一个旋转矩阵， $S=\sqrt{L}$ 是一个缩放矩阵。
        在等式（6）中，我们定义了一个线性变换 $T = RS$ 。由于 $S$ 是对角缩放矩阵，所以 $S = ST$ 。此外，由于 $R$ 为正交矩阵， $R^{-1}=R^T$ 。因此， $T^T=(RS)^T=S^TR^T=SR^{-1}$ 。协方差矩阵可以写为：
$\Sigma = R \, S \, S \, R^{-1} = T \, T^{\intercal}\tag{17}$

换言之，如果我们应用由 $T = RS$ 定义的线性变换到图7所示的原始白数据，我们得到了旋转和缩放的数据 $D^{'}$ 及协方差矩阵 $TT^T=\sigma'=RSSR^{-1}$ 。如图10：

Figure 10. The covariance matrix represents a linear transformation of the original data.

图10的彩色箭头表示特征向量。最大特征向量，即与最大特征值对应的特征向量，总是指向数据最大方差的方向，并由此确定其方位。次特征向量总是正交于最大特征向量，因为旋转矩阵的正交性。

2.4 总结

在本文中，我们表明观察到数据的协方差矩阵与白色不相关数据的线性变换有直接的关系。此线性变换完全由数据的特征向量和特征值确定。而特征向量表示旋转矩阵，特征值对应于每个维度上缩放因子的平方。
原文链接为：A geometric interpretation of the covariance matrix：https://www.visiondummy.com/2014/04/geometric-interpretation-covariance-matrix/