一、直观理解

梯度方向与等高线的切线方向垂直

假设一函数为： $f(x,y)=x^2+y^2$ ，该函数的梯度为 $[2 x, 2 y]$ ;
选择其中一条等高线： $c=x^2+y^2$ ( $c$ 为常数), 该等高线在任意一点的斜率为 $\frac{-x}{\sqrt{c-x^2}}$ ，则切线方向为 $[x,-\frac{c-y^2}{y}]$ ;
可以验证 $[2x,2y]\cdot[x,-\frac{c-y^2}{y}]^T=0$ ，故得等高线的切线方向与梯度方向垂直。
在这里插入图片描述

二、方向导数

梯度是函数上升的方向，且在该方向上的方向导数最大

多元函数 $f (x, y)$ 的方向导数代表了函数在 $(x, y)$ 点上， $\vec{l}$ 方向的瞬时变化率。
设函数 $f (x, y)$ 在点 $(x, y)$ 的某一邻域 $U_0$ 内有定义，自点 $(x, y)$ 引射线 $l$ ，自 $x$ 轴的正向到射线 $l$ 的转角为 $\alpha$ ，则 $f (x, y)$ 在点 $(x, y)$ 沿方向 $l$ 的方向导数为： $\frac{\partial f}{\partial l}=\frac{\partial f}{\partial x}\cdot\cos\alpha+\frac{\partial f}{\partial y}\cdot\sin\alpha$
我们知道梯度为： $grad=[\frac{\partial f}{\partial x},\frac{\partial f}{\partial y}]$ ，所以方向导数可写为： $\frac{\partial f}{\partial l}=grad\cdot\vec l=|grad||\vec l|\cos\theta$
$\theta$ 为梯度方向和 $l$ 方向的夹角，由上式可知，当夹角为 $0$ 时，即梯度方向，方向导数最大，函数上升最快；当夹角为 $180$ 时，梯度的反方向，方向导数为负，最小，函数下降地最快，这就是梯度下降法的本质。

三、从泰勒级数展开来看

对函数 $f (x, y)$ 进行一阶泰勒展开：
$f(x+\delta_1,y+\delta_2)\approx f(x_0,y_0)+\nabla f(x_0,y_0)\cdot(\delta_1,\delta_2)^T$
$f(x+\delta_1,y+\delta_2)-f(x_0,y_0)\approx\nabla f(x_0,y_0)\cdot(\delta_1,\delta_2)^T$
由上可知，当 $(\delta_1,\delta_2)$ 与梯度方向一致时，函数增长速度最快。

四、牛顿法

在函数的某一点 $x_0,y_0)$ 处用二次函数进行逼近，即二阶泰勒展开，如：
$f(x_0+\delta_1,y+\delta_2) \approx f(x_0,y_0)+f'(x_0,y_0)\cdot(\delta_1,\delta_2)^T+\frac{f''(x_0,y_0)}{2}\cdot(\delta_1,\delta_2)^T$
找到二次函数最小值点： $(x_1,y_1)=(x_0,y_0)-\frac{f'(x_0,y_0)}{f''(x_0,y_0)}$
然后，在 $x_1,y_1)$ 处二阶泰勒展开，找到 $x_2,y_2)$ ，…，直到收敛。