对微分的简单理解

一、一元函数的可微性

设函数 $\small f(x)$ 在 $x_0$ 的某邻域 $\small U(x_0)$ 内有定义，若对 $\small U(x_0)$ 中的任意一点 $x=x_0+\Delta x$ ，函数增量 $\Delta f$ 都可以表示为 $\Delta f=f(x_0+\Delta x)-f(x_0)=A\Delta x+o(\Delta x)$ 其中 $\small A$ 为常数，仅与 $x_0$ 有关，则称函数 $f$ 在 $x_0$ 处可微.

另外，还可以求出 $\displaystyle A=\lim_{\Delta x \to0}\frac{f(x_0+\Delta x)-f(x_0)}{\Delta x}=f'(x_0)$ .

可以看到，可微是函数 局部性质 的一个刻画.

二、偏导数

设函数 $f(\vec{x}) \,\,(\vec{x}=(x_1,x_2,\cdots,x_n))$ 在点 $\small P_0=(x_{10},x_{20},\cdots,x_{n0})$ 处有定义. 将 $x_1$ 以外的其他变量当作常数，令 $g(x_1)=f(x_{1},x_{20},\cdots,x_{n0})$ ，则 $g(x_1)$ 是关于 $x_1$ 的一元函数. 若 $g(x_1)$ 在 $x_{10}$ 处的导数 $g'(x_{10})$ 存在，则称其为函数 $f$ 在点 $\small P_0$ 处关于 $x_1$ 的偏导数，记作 $f_{x_1}(P_0) \,\,\textmd{or}\,\, \frac{\partial f}{\partial x_1} \Big|_{P_0}$

三、二元函数的可微性

设函数 $f (x, y)$ 在点 $\small P_0=(x_0,y_0)$ 的某邻域 $\small U(P_0)$ 内有定义，若对 $\small U(P_0)$ 中的任意一点 $\small P=(x,y)=(x_0+\Delta x,y_0+\Delta y)$ ，函数增量 $\Delta f$ 都可以表示为 $\begin{aligned}\Delta f&=f(x_0+\Delta x,y_0+\Delta y)-f(x_0,y_0)\\&=A\Delta x+ B\Delta y+o\big(\sqrt{(\Delta x)^2+(\Delta y)^2}\,\big)\end{aligned}$ 其中 $\small A,B$ 为常数，仅与 $\small P_0$ 有关，则称函数 $f$ 在 $\small P_0$ 处可微.

一元函数情形中，函数增量 $\Delta f$ 可以表示为 $\Delta f=f(x_0+\Delta x)-f(x_0)=A\Delta x+o(\Delta x)$ 并求得 $A=f'(x_0)$ .

那么在二元函数中 $\small A,B$ 又是什么呢？直觉性较强的读者应该能够猜到 $A=f_x(x_0,y_0), B=f_y(x_0,y_0)$ (不然我为什么要先介绍偏导数呢？嘿嘿 )

下面来证明这个直觉是对的.
$1.\,\,$ 证明 $o\big(\sqrt{(\Delta x)^2+(\Delta y)^2}\,\big)=\alpha\Delta x+\beta\Delta y$ ，其中 $\alpha,\beta$ 是 $(\Delta x,\Delta y)$ 的函数且满足 $\lim_{(\Delta x,\Delta y)\to(0,0)}\alpha=\lim_{(\Delta x,\Delta y)\to(0,0)}\beta=0$ 证明：
$\Leftarrow:$ 证 $\alpha\Delta x+\beta\Delta y=o\big(\sqrt{(\Delta x)^2+(\Delta y)^2}\,\big)$ $\begin{aligned} \Big| \frac{\alpha\Delta x+\beta\Delta y}{\sqrt{(\Delta x)^2+(\Delta y)^2}}\Big|&=\Big| \alpha\frac{\Delta x}{\sqrt{(\Delta x)^2+(\Delta y)^2}}+\beta\frac{\Delta y}{\sqrt{(\Delta x)^2+(\Delta y)^2}}\Big| \\& \leq \vert \alpha\vert\Big|\frac{\Delta x}{\sqrt{(\Delta x)^2+(\Delta y)^2}}\Big|+\vert \beta\vert\Big|\frac{\Delta y}{\sqrt{(\Delta x)^2+(\Delta y)^2}}\Big| \\& \leq\vert \alpha \vert+\vert \beta \vert \end{aligned}$ 两边取极限，得 $\lim_{(\Delta x,\Delta y)\to(0,0)} \frac{\alpha\Delta x+\beta\Delta y}{\sqrt{(\Delta x)^2+(\Delta y)^2}}=0$ 因此， $\alpha\Delta x+\beta\Delta y=o\big(\sqrt{(\Delta x)^2+(\Delta y)^2}\,\big)$ .
$\Rightarrow:$ 证 $o\big(\sqrt{(\Delta x)^2+(\Delta y)^2}\,\big)=\alpha\Delta x+\beta\Delta y$ ，其中 $\lim_{(\Delta x,\Delta y)\to(0,0)}\alpha=\lim_{(\Delta x,\Delta y)\to(0,0)}\beta=0$ 由定义易知， $o\big(\sqrt{(\Delta x)^2+(\Delta y)^2}\,\big)=\varepsilon\sqrt{(\Delta x)^2+(\Delta y)^2}$ ，其中 $\varepsilon$ 是 $(\Delta x,\Delta y)$ 的函数且满足 $\displaystyle \lim_{(\Delta x,\Delta y)\to(0,0)}\varepsilon=0$ . $\begin{aligned}&\,\,\varepsilon\sqrt{(\Delta x)^2+(\Delta y)^2}\\=&\,\,\varepsilon\frac{(\Delta x)^2+(\Delta y)^2}{\sqrt{(\Delta x)^2+(\Delta y)^2}}\\=&\,\frac{\varepsilon\Delta x}{\sqrt{(\Delta x)^2+(\Delta y)^2}}\Delta x+\frac{\varepsilon\Delta y}{\sqrt{(\Delta x)^2+(\Delta y)^2}}\Delta y \end{aligned}$ 令 $\displaystyle \alpha=\frac{\varepsilon\Delta x}{\sqrt{(\Delta x)^2+(\Delta y)^2}},\,\beta=\frac{\varepsilon\Delta y}{\sqrt{(\Delta x)^2+(\Delta y)^2}}$ ，则 $\varepsilon\sqrt{(\Delta x)^2+(\Delta y)^2}=\alpha\Delta x+\beta\Delta y$ $\vert\alpha\vert=\vert \varepsilon\vert \Big| \frac{\Delta x}{\sqrt{(\Delta x)^2+(\Delta y)^2}}\Big| \leq \vert \varepsilon\vert$ 两边取极限，得 $\displaystyle \lim_{(\Delta x,\Delta y)\to(0,0)}\alpha=0$ . 同理可证 $\displaystyle \lim_{(\Delta x,\Delta y)\to(0,0)}\beta=0$ .
因此， $o\big(\sqrt{(\Delta x)^2+(\Delta y)^2}\,\big)=\alpha\Delta x+\beta\Delta y$ .

$2.\,\,$ 由上述结论，函数增量 $\Delta f$ 可以表示为
$\begin{aligned}\Delta f&=A\Delta x+B\Delta y+o\big(\sqrt{(\Delta x)^2+(\Delta y)^2}\,\big)\\&=A\Delta x+B\Delta y+\alpha\Delta x+\beta\Delta y\end{aligned}$ 其中 $\displaystyle \lim_{(\Delta x,\Delta y)\to(0,0)}\alpha=\lim_{(\Delta x,\Delta y)\to(0,0)}\beta=0$ .
取 $\Delta y=0$ ，则 $\Delta f=A\Delta x+\alpha\Delta x=A\Delta x+o(\Delta x)$ .
由一元函数可微性及偏导数定义，可得 $A=f_x(x_0,y_0)$ . 同理 $B=f_y(x_0,y_0)$ .

于是 $\begin{aligned}\Delta f&=f_x(x_0,y_0)\Delta x+f_y(x_0,y_0)\Delta y+o\big(\sqrt{(\Delta x)^2+(\Delta y)^2}\,\big)\\&=\vec{c}\,\Delta \vec{x}+o(\Vert \Delta \vec{x}\Vert)\end{aligned}$ 其中， $\vec{c}=(f_x(x_0,y_0),f_y(x_0,y_0)),\Delta \vec{x}=(\Delta x,\Delta y)^T,\Vert \Delta \vec{x}\Vert=\sqrt{(\Delta x)^2+(\Delta y)^2}$ .

四、 $n$ 元函数的可微性

新酒装旧壶
设 $n$ 元函数 $f(\vec{x})\,(\vec{x}=(x_1,x_2,\cdots,x_n)^T)$ 在点 $\vec{x}_0=(x_{10},x_{20},\cdots,x_{n0})^T$ 的某邻域 $\small U(\vec{x}_0)$ 内有定义，若对 $\small U(\vec{x}_0)$ 中的任意一点 $\vec{x}=\vec{x}_0+\Delta \vec{x}\,\, (\Delta \vec{x}=(\Delta x_1,\Delta x_2,\cdots,\Delta x_n)^T)$ ，函数增量 $\Delta f$ 都可以表示为 $\begin{aligned}\Delta f&=f(\vec{x}_0+\Delta \vec{x})-f(\vec{x}_0)\\&=c_1\Delta x_1+ c_2\Delta x_2+\cdots+c_n\Delta x_n+o(\Vert\Delta \vec{x}\Vert)\end{aligned}$ 其中 $c_1,c_2,\cdots,c_n$ 为常数，仅与 $\vec{x}_0$ 有关，则称函数 $f$ 在 $\vec{x}_0$ 处可微.

同理可证， $o(\Vert\Delta \vec{x}\Vert)=\varepsilon_1\Delta x_1+\varepsilon_2\Delta x_2+\cdots+\varepsilon_n\Delta x_n$ ，其中 $\displaystyle \lim_{\Delta \vec{x}\to\vec{0}}\varepsilon_i=0$ .
同理亦可证， $c_i=f_{x_i}(\vec{x}_0 )$ .

令 $c=(c_1,c_2,\cdots,c_n)=(f_{x_1}(\vec{x}_0 ),f_{x_2}(\vec{x}_0 ),\cdots,f_{x_n}(\vec{x}_0 ))$ ，

则 $\Delta f=c\,\Delta \vec{x}+o(\Vert\Delta \vec{x}\Vert)$ ，其中 $dy=c\,\Delta \vec{x}$ 称为全微分.

由此推知 $n$ 元函数的导数为 $f'(\vec{x})=(f_{x_1}(\vec{x}),f_{x_2}(\vec{x}),\cdots,f_{x_n}(\vec{x}))=(\frac{\partial f}{\partial x_1},\frac{\partial f}{\partial x_2},\cdots,\frac{\partial f}{\partial x_n})$ 咦？这不就是梯度吗？或者说是梯度的转置

那，微分怎么就是线性近似了呢？
不急不急，先来看下 $n$ 维空间中的超平面，定义为 $\lbrace \vec{x}\,| \,\vec{c}\,\vec{x}=d,\vec{c}\,(\vec{c}\neq \vec{0})$ 为"平面"的法向量(行向量)， $d$ 为常数 $\small \rbrace\subset R^n$ .
$n = 2$ 时，是平面 $\small R^2$ 中的一条直线；
$n = 3$ 时，是三维空间 $\small R^3$ 中的一个平面；
$n > 3$ 时，便是 $\small R^n$ 中的超平面.

有了微分，我们便可以据此给出 $\vec{x}_0$ 附近 $\vec{x}$ 处函数的估计值，即 $\hat{f}(\vec{x})=f(\vec{x}_0)+dy=f(\vec{x}_0)+f'(\vec{x}_0)(\vec{x}-\vec{x}_0)$ .

令 $\vec{c}=(f'(\vec{x}_0),-1)$ ，令 $\vec{x}_{new}=(\vec{x}^T,\hat{f}(\vec{x}))^T,\vec{x}_{old}=(\vec{x}_0^T,f(\vec{x}_0))^T$ ，

则 $\,\vec{c}\,\vec{x}_{new}=\vec{c}\,\vec{x}_{old}=d_0$ .

因此，近似点 $\vec{x}_{new}$ 与已知点 $\vec{x}_{old}$ 位于同一超平面上，这便是线性近似.

一元函数，近似点位于切线上；
二元函数，近似点位于切平面上；
$n$ 元函数，近似点位于 $R^{n+1}$ 中的“切超平面”上.

五、向量函数的导数

(这部分可以跳过，不影响对“微分”的理解，写出来是为了保证文章的完整性)

换汤不换药
什么是向量函数？简单来讲，就是函数"值"不再是数(实数或复数)，而是向量. 具体定义如下：
设 $\small X\subset R^n,\,Y\subset R^m$ ，若对任意的 $\vec{x}\in X$ ，都存在唯一的 $\vec{y}\in Y$ 与之对应，则将此映射称为向量函数，记作 $\begin{aligned}f:\,X&\to Y\\ x&\mapsto y\end{aligned}$

嘶，向量到向量的映射，啊，这让人怎么想象？
让我来给您解释一下：记 $f(\vec{x})=(f_1(\vec{x}),f_2(\vec{x}),\cdots,f_m(\vec{x}))^T$ ，则 $f_i(\vec{x})$ 为 $n$ 元函数. 于是，向量函数便可以理解为 $m$ 个 $n$ 元函数拼成的东东.

emm， $n\,$ 元函数的导数是个向量，那向量函数的导数该是什么？
数学直觉动起来，没错，答案就是——矩阵，下面来验证这一猜想.

先来回顾下多元函数(可微时)函数增量的表达式
$\Delta f_i=f_i(\vec{x}_0+\Delta \vec{x})-f_i(\vec{x}_0)=c_{i}\Delta \vec{x}+o(\Vert\Delta \vec{x}\Vert)$ 其中 $c_i=f'_i(\vec{x}_0)$ . 把这些 $\Delta f_i$ 拼起来， $\Delta f=\begin{pmatrix}\Delta f_1 \\ \Delta f_2 \\ \vdots \\ \Delta f_m\\\end{pmatrix}=\begin{pmatrix}c_1 \\ c_2 \\ \vdots \\c_m\\\end{pmatrix}\Delta \vec{x}+\vec{o}(\Vert\Delta \vec{x}\Vert)=A\Delta \vec{x}+\vec{o}(\Vert\Delta \vec{x}\Vert)$ 其中 $A=\begin{pmatrix}c_1\\c_2\\\vdots\\c_m\end{pmatrix}= \begin{pmatrix}f'_1(\vec{x}_0)\\f'_2(\vec{x}_0)\\\vdots\\f'_m(\vec{x}_0)\end{pmatrix}= \begin{pmatrix} \frac{\partial f_1}{\partial x_1} & \frac{\partial f_1}{\partial x_2} & \cdots & \frac{\partial f_1}{\partial x_n}\\ \frac{\partial f_2}{\partial x_1} & \frac{\partial f_2}{\partial x_2} & \cdots & \frac{\partial f_2}{\partial x_n}\\ \vdots & \vdots & \ddots & \vdots\\ \frac{\partial f_m}{\partial x_1} & \frac{\partial f_m}{\partial x_2} & \cdots & \frac{\partial f_m}{\partial x_n}\\ \end{pmatrix}$ $\small A$ 就是向量函数 $f$ 的导数，有时也被称为 $f$ 的 $\small Jacobi$ 矩阵，记作 $\small J_f(\vec{x}_0)$ .

巧的是，这样得到的导数同样满足求导的链式法则.

补充两个例子

$\,f(x)=Ax$ ， $A$ 为 $m\times n$ 阶矩阵.
$\begin{pmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{pmatrix}\begin{pmatrix}x_1\\x_2\\\vdots\\x_n\end{pmatrix}= \begin{pmatrix} a_{11}x_1 + a_{12}x_2 + \cdots + a_{1n}x_n\\ a_{21}x_1 + a_{22}x_2 + \cdots + a_{2n}x_n\\ \vdots\\ a_{m1}x_1 + a_{m2}x_2 + \cdots + a_{mn}x_n\end{pmatrix}= \begin{pmatrix}f_1\\f_2\\\vdots\\f_n\end{pmatrix}$
则
$\begin{pmatrix} \frac{\partial f_1}{\partial x_1} & \frac{\partial f_1}{\partial x_2} & \cdots & \frac{\partial f_1}{\partial x_n}\\ \frac{\partial f_2}{\partial x_1} & \frac{\partial f_2}{\partial x_2} & \cdots & \frac{\partial f_2}{\partial x_n}\\ \vdots & \vdots & \ddots & \vdots\\ \frac{\partial f_m}{\partial x_1} & \frac{\partial f_m}{\partial x_2} & \cdots & \frac{\partial f_m}{\partial x_n}\\ \end{pmatrix}= \begin{pmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{pmatrix}=A$
$2. \,f(x)=x^TAx$ ， $A$ 为 $n$ 阶方阵.
$\begin{aligned} f(x)&=a_{11}x_1x_1+a_{12}x_1x_2+\cdots+a_{1n}x_1x_n\\ &+a_{21}x_2x_1+a_{22}x_2x_2+\cdots+a_{2n}x_2x_n\\ &+\cdots\cdots\cdots\cdots\cdots\cdots\cdots\cdots\cdots\cdots\cdots\\ &+a_{n1}x_nx_1+a_{n2}x_nx_2+\cdots+a_{nn}x_nx_n \end{aligned}$ 则
$\begin{aligned} \frac{\partial f}{\partial x_1}&=2a_{11}x_1+a_{12}x_2+\cdots+a_{1n}x_n +a_{21}x_2+a_{31}x_3+\cdots+a_{n1}x_n\\&=(a_{11}+a_{11})x_1+(a_{12}+a_{21})x_2+\cdots+(a_{1n}+a_{n1})x_n\\&= \begin{pmatrix} a_{11}+a_{11} & a_{12}+a_{21} & \cdots & a_{1n}+a_{n1} \end{pmatrix}\begin{pmatrix}x_1\\x_2\\\vdots\\x_n\end{pmatrix} \end{aligned}$ 则
$\nabla f= \begin{pmatrix}\frac{\partial f}{\partial x_1} \\ \frac{\partial f}{\partial x_2} \\ \vdots \\ \frac{\partial f}{\partial x_n}\end{pmatrix}= \begin{pmatrix} a_{11}+a_{11} & a_{12}+a_{21} & \cdots & a_{1n}+a_{n1}\\ a_{21}+a_{12} & a_{22}+a_{22} & \cdots & a_{2n}+a_{n2}\\ \vdots & \vdots & \ddots & \vdots\\ a_{n1}+a_{1n} & a_{n2}+a_{2n} & \cdots & a_{nn}+a_{nn} \end{pmatrix}\begin{pmatrix}x_1\\x_2\\\vdots\\x_n\end{pmatrix}=(A+A^T)x$ 特别地，若 $\small A=A^T$ ，则 $\small \nabla f=2Ax$ .