一、为什么需要矩阵求导

参数的向量化：
向量化会使代码、式子更加简洁；
使用向量化代替for循环，向量化能够加速你的代码；
求导在优化算法中的广泛应用：
优化算法需要反向传播，需要对参数矩阵进行求导

二、向量函数与矩阵求导初印象

标量函数：输出为标量的函数
$f(x)=x^2,R \rightarrow R$
.
$f(x)=x_1^2+x_2^2,R^2 \rightarrow R$
向量函数：输出为向量(矩阵)
$\begin{bmatrix} f_1(x)=x \\ f_2(x)=x^2 \\ \end{bmatrix},R \rightarrow R^2$
.
$\begin{bmatrix} f_{11}(x)=x&&f_{12}(x)=x^2 \\f_{21}(x)=x^3&&f_{22}(x)=x^4 \\ \end{bmatrix},R \rightarrow R^{2 \times 2}$

输入 $x$ 可以是标量、向量、矩阵，输出 $f (x)$ 也可以是标量、向量、矩阵。讨论的问题是 $\frac{df(x)}{dx}=?$

矩阵求导主要讨论的是【输入 $x$ 是标量、向量】和【输出 $f (x)$ 是标量、向量】组合在一起的 $4$ 种情况。

矩阵求导的本质：
$\frac{dA}{dB}$ ：矩阵 $A$ 中每个元素对矩阵 $B$ 中的每个元素求导。

从求导后的个数看矩阵求导本质：

$\times1、B:1 \times1$
$\frac{dA}{dB}：1 \times1$
$\times p、B:1 \times n$
$\frac{dA}{dB}：p \times n$ (排列组合一下)
$\times p、B:m \times n$
$\frac{dA}{dB}：p \times q\times m \times n$

三、求导秘术：YX拉伸

$秘术口诀\begin{cases}\color{RED}{1、标量不变、向量拉伸} \\\color{RED}{2、前面(Y)横向拉，后面(X)纵向拉} \\ \end{cases}$

例1：求 $\frac{f(x)}{dx}$

$f (x)$ 是标量函数, $f(x)=f(x_1,x_2,……,x_n)$
$x$ 是列向量

这里的 $f (x)$ 就是口诀里的Y，它是标量不变且不用拉伸； $x$ 是向量，需要拉伸，根据第二条口诀要纵向拉伸。
所以 $\frac{f(x)}{dx}=\begin{bmatrix} \frac{\partial f(x)}{\partial x_1} \\\\ \frac{\partial f(x)}{\partial x_2} \\ …… \\ \\ \frac{\partial f(x)}{\partial x_n} \end{bmatrix}$

实际拉伸就是将多元函数的偏导写在一个列向量里。

例2：求 $\frac{f(x)}{dx}$

$f (x)$ 是向量函数, $f(x)=\begin{bmatrix} f_1(x) \\ \\ f_2(x) \\ \\……\\ \\f_n(x) \end{bmatrix}$
$x$ 是标量

这里的 $f (x)$ 就是口诀里的Y，它是向量需要拉伸，横向拉； $x$ 是标量不变且不用拉伸。
所以 $\frac{f(x)}{dx}=\begin{bmatrix} \frac{\partial f_1(x)}{\partial x} & \frac{\partial f_2(x)}{\partial x} & …… & \frac{\partial f_n(x)}{\partial x} \end{bmatrix}$

例3：求 $\frac{f(x)}{dx}$

$f (x)$ 是向量函数, $f(x)=\begin{bmatrix} f_1(x) \\ \\ f_2(x) \\ \\……\\ \\f_n(x) \end{bmatrix}$
$x$ 是列向量

$\frac{f(x)}{dx}=\begin{bmatrix} \frac{\partial f(x)}{\partial x_1} \\\\ \frac{\partial f(x)}{\partial x_2} \\ … \\ \\ \frac{\partial f(x)}{\partial x_n} \end{bmatrix}$ = $\begin{bmatrix} \frac{\partial f_1(x)}{\partial x_1}&&\frac{\partial f_2(x)}{\partial x_1} &&…\frac{\partial f_n(x)}{\partial x_1}\\\\ \frac{\partial f_1(x)}{\partial x_2} && \frac{\partial f_2(x)}{\partial x_2}&&… \frac{\partial f_n(x)}{\partial x_2} \\ …&&…&&…… \\ \\ \frac{\partial f_11(x)}{\partial x_n}&&\frac{\partial f_2(x)}{\partial x_n}&&…\frac{\partial f_n(x)}{\partial x_n} \end{bmatrix}$

四、常见矩阵求导公式举例

$f(x)=A^T\cdot X$ ， $A=\begin{bmatrix} a_1 \\ a_2 \\…\\a_n \end{bmatrix}$ , $X=\begin{bmatrix} x_1 \\ x_2 \\…\\x_n \end{bmatrix}$
.
$f (x)$ 是标量， $X$ 是向量,所以：

$\color {red} {f(x)=A^T\cdot X=X^T\cdot A=\sum\limits_{i=1}^n a_ix_i}$
$\color {red} {\frac{d\ A^T\cdot X}{dX}=\frac{d\ X^T\cdot A}{dX}=A}$

2. $f(X)=X^T\cdot A\cdot X$ , $X=\begin{bmatrix} x_1 \\ x_2 \\…\\x_n \end{bmatrix}$ , $A=\begin{bmatrix} a_{11} & a_{12} & …a_{1n}\\ a_{21} & a_{22} & …a_{2n}\\…&…&…\\a_{n1}& a_{n1}&…a_{nn} \end{bmatrix}$ .
.
$f(X)=\sum\limits_{i=1}^n \sum\limits_{j=1}^n a_{ij}x_ix_j$ 是标量，X是向量。
在这里插入图片描述

$\color {red} {\frac{d X^T\cdot A\cdot X}{dX}=(A+A^T) \cdot X}$

五、求导细节补充

分母布局和分子布局：

分母布局：YX拉伸术
口诀一致，其实就是Y横向拉伸，X纵向拉伸
分子布局：XY拉伸术
口诀一致，其实就是X横向拉伸，Y纵向拉伸

这两个拉伸求导后元素排列不同，通常 (分母布局)^T=(分子布局)，互为转置关系。

如下图的 $f(X)=X^TX$ 的例子：
在这里插入图片描述

补充公式：(分母布局)

$U=\begin{bmatrix} u_1(x) \\ u_2(x) \\…\\u_n(x) \end{bmatrix}_{n\times1}$ , $V=\begin{bmatrix} v_1(x) \\ v_2(x) \\…\\v_n(x) \end{bmatrix}_{n\times1}$ , $X=\begin{bmatrix} x_1(x) \\ x_2(x) \\…\\x_n(x) \end{bmatrix}_{n\times1}$