1 前言

内容为自己的学习总结，其中多有借鉴他人的地方，最后一并给出链接。

2 定义

在机器学习和谱图理论的学习中，总会用到正定矩阵半正定矩阵概念，了解它们的概念是十分必要的。
定义：正定矩阵（positive definite, PD）
给定一个大小为 $n \times n$ 的实对称矩阵 $A$ ，若对于任意长度为 $n$ 的非零向量 $X$ ，有 $X^TAX>0$ 恒成立，则矩阵 $A$ 是一个正定矩阵。

定义：半正定矩阵（positive semi-definite, PSD）
给定一个大小为 $n \times n$ 的实对称矩阵 $A$ ，若对于任意长度为 $n$ 的非零向量 $X$ ，有 $X^TAX \ge 0$ 恒成立，则矩阵 $A$ 是一个正定矩阵。
看个一个例子（来源参考文献【3】）：

（1）单位矩阵 $\in \mathbb{R}^{2 \times 2}$ 是不是正定矩阵？
设向量 $\boldsymbol{x}=\left[\begin{array}{l} x_{1} \\ x_{2} \end{array}\right] \in \mathbb{R}^{2}$ 为非 $0$ 向量，则

$\boldsymbol{x}^{T} I \boldsymbol{x}=\boldsymbol{x}^{T} \boldsymbol{x}=x_{1}^{2}+x_{2}^{2}$

由于 $\boldsymbol{x} \neq \mathbf{0}$ ，故而 $\boldsymbol{x}^{T} I \boldsymbol{x}>0$ 恒成立，所以单位矩阵是正定矩阵。

从上面的例子看正定矩阵半正定矩阵和二次函数有些相似。以二次函数 $y=ax^2$ 为例，该函数的曲线会经过坐标原点，当参数 $a > 0$ 时，曲线的“开口”向上，参数 $a < 0$ 时，曲线的“开口”向下。
实际上可以把二次函数和 $y=ax^2$ 和 $y=x^TAx$ 对比看。

在 $y=ax^2$ 中，若 $a > 0$ ，则对于任意 $x\neq0$ ，则有 $y > 0$ 恒成立。
对应于 $y=x^TAx$ ，若 $A$ 为正定矩阵，则对于任意 $x\neq0$ ，则有 $y > 0$ 恒成立。
在 $y=ax^2$ 中，若 $a\geq0$ ，则对于任意 $x\neq0$ ，则有 $y\geq0$ 恒成立。
对应于 $y=x^TAx$ ，若 $A$ 为半正定矩阵，则对于任意 $x\neq0$ ，则有 $y\geq0$ 恒成立。

3 从几何的角度理解

若给定任意一个正定矩阵 $A\in R^{n\times n}$ 和一个非 $0$ 向量 $x\in R^n$ ，则两者相乘得到的向量 $y=Ax\in R^n$ 与向量 $x$ 的夹角恒小于 $90^。$ 等价于 $x^TAx>0$ 。
从矩阵的本质讲矩阵相乘实际上是向量 $x$ 安装矩阵 $A$ 指定的方式进行变换（矩阵的理解系列（一）（二）（三））。那么对于正定矩阵 $x^TAx=x^TM>0$ ，记 $M = A x$ 。有没有想起 $C o s$ 公式
$\cos \langle\boldsymbol{x}, \boldsymbol{y}\rangle=\frac{\boldsymbol{x}^{T} \boldsymbol{y}}{\|\boldsymbol{x}\| \cdot\|\boldsymbol{y}\|}$
到这里我们就可以理解正定矩阵的函数为：一个向量 $x$ 经过正定矩阵 $A$ 变换之后与原向量 $x$ 的夹角小于 $90^。$ 。

再看个例子：给定向量 $x=\left[\begin{array}{l}2 \\1\end{array}\right]$ ，对于单位矩阵 $I=\left[\begin{array}{ll}1 & 0 \\0 & 1\end{array}\right]$ ，则
$\boldsymbol{y}=I \boldsymbol{x}=\boldsymbol{x}=\left[\begin{array}{l} 2 \\1\end{array}\right]$ 则向量 $y 和 x$ 的夹角为0。

$\begin{array}{l} \cos \langle\boldsymbol{x}, \boldsymbol{y}\rangle=\frac{\boldsymbol{x}^{T} \boldsymbol{y}}{\|\boldsymbol{x}\| \cdot\|\boldsymbol{y}\|} \\[6mm] =\frac{2 \times 2+1 \times 1}{\sqrt{2^{2}+1^{2}} \cdot \sqrt{2^{2}+1^{2}}} \\[6mm] =1 \end{array}$

结合上面的例子和矩阵的运动我们可以理解正定矩阵：

对于一个向量 $x$ ,我们希望 $x$ 在经过有一个矩阵 $A$ 的变化后得到的新的向量 $M$ 和它本身的夹角小于 $90$ 度。
而小于 $90$ 度背后的含义是变换后的向量 $M$ 是沿着原向量 $x$ 的正方向进行缩放的（即 $M$ 投影回原向量时方向不变）

那么如何理解要求正定矩阵的特征值大于0？
首先一个矩阵 $A$ 的特征向量 $x$ 就是表示某个向量会沿着特征向量的方向进行变换（缩放），缩放比例由特征值 $\lambda$ 决定。（特征值和特征向量的理解）。举个例子【参考文献【1】】：
$A_1=[[0.5, 0]^T,[0, 2]^T]$ 很简单地可以计算得到A的特征值分别是 $0.5$ 和 $2$ ，而它们对应的特征向量分别是 $1,0]^T$ 和 $0,1]^T$ 。所以如果一个向量 $b$ 左乘一个矩阵 $A$ ，其本质就是将向量 $b$ 沿着 $1,0]^T$ 和 $0,1]^T$ 方向分别放大 $0.5$ 和 $2$ 倍。我们假设 $b=[2,2]^T$ ，那么 $A b$ 最终得到的向量为 $1, 4]^T$ ，结合下图看更加直观：
在这里插入图片描述
图片来着参考文献【1】
我们看上图，如果其中一个特征值小于 $0$ ，比如 $\lambda_1<0$ 那么最终得到的向量 $A b$ 投射到方向的向量与 $b$ 反向。综上，要使得变换后的向量 $M$ 与原向量 $x$ 夹角小于 $90$ 度，即映射回原来的向量时保持方向不变，那么就需要特征值大于 $0$ ，所以这也是为什么正定矩阵的特征值都大于 $0$ .
$\begin{array}{c} A x=\lambda x \\ \rightarrow x^{T} A x=\lambda x^{T} x=\lambda\|x\|^{2}>0 \end{array}$
故λ必须大于0，即特征值必须大于0。
正定矩阵跟优化的关系用到了在补充。