牛顿法

求函数的根

牛顿法的最初提出是用来求解方程的根的。我们假设点 $x^*$ 为函数 $f(x)$ 的根，那么有 $f(x^*) = 0$ 。现在我们把函数 $f(x)$ 在点 $x_k$ 处一阶泰勒展开有：

f (x) = f (x k) + f' (x k) (x - x k)

$f(x) = f(x_k) + f'(x_k)(x-x_k)$ 那么假设点

xk+1 $x_{k+1}$ 为该方程的根，则有

f (x k + 1) = f (x k) + f' (x k) (x k + 1 - x k) = 0

$f(x_{k+1}) = f(x_k) + f'(x_k)(x_{k+1} - x_k) = 0$ 那么就可以得到

x k + 1 = x k - f ( x k ) f ' ( x k )

$x_{k+1} = x_k - \frac{f(x_k)}{f'(x_{k})}$ 这样我们就得到了一个递归方程，我们可以通过迭代的方式不断的让

x $x$ 趋近于

x∗ $x^*$ 从而求得方程

f(x) $f(x)$ 的解。该递归式同样可以通过下图的方式得到：
这里写图片描述

在该图中我们可以看到

xn+1 $x_{n+1}$ 是要比

xn $x_n$ 更接近于

x∗ $x^*$ ，而

xn+1 $x_{n+1}$ 利用三角形特征可以知道

xn+1=xn−f(xn)f′(xn) $x_{n+1} = x_n - \frac{f(x_n)}{f'(x_n)}$ 。其中，

f′(xn) $f'(x_n)$ 在三角形中表示点

(xn,f(xn)) $(x_n,f(x_n))$ 处切线的斜率。
牛顿法动图

最优化

对于最优化问题，其极值点处有一个特性就是在极值点处函数的一阶导数为0。因此我们可以在一阶导数处利用牛顿法通过迭代的方式来求得最优解，即相当于求一阶导数对应函数的根。
首先，我们对函数在 $x_k$ 点处进行二阶泰勒展开

f (x) = f (x k) + f' (x k) (x - x k) + 1 2 f'' (x k) (x - x k) 2 \Rightarrow

$f(x) = f(x_k) + f'(x_k)(x-x_k) + \frac12 f''(x_k)(x-x_k)^2 \Rightarrow$

f ( x ) - f ( x k ) x - x k = f' (x k) + f'' (x k) (x - x k)

$\frac{f(x) - f(x_k)}{x - x_k} = f'(x_k)+f''(x_k)(x-x_k)$ 因此，当

x→xk $x\rightarrow x_k$ 时，

f′(x)=f′(xk)+f′′(xk)(x−xk) $f'(x) = f'(x_k) + f''(x_k)(x-x_k)$ 。这里假设点

xk+1 $x_{k+1}$ 是一阶导数的根，那么就有

f' (x k + 1) = f' (x k) + f'' (x k) (x k + 1 - x k) = 0

$f'(x_{k+1}) = f'(x_k)+f''(x_k)(x_{k+1}-x_k) = 0$ 依据上式可以得到

x k + 1 = x k - f ' ( x k ) f '' ( x k )

$x_{k+1} = x_k - \frac{f'(x_{k})}{f''(x_k)}$ 这样我们就得到了一个不断更新

x $x$ 迭代求得最优解的方法。这个也很好理解，假设我们上面的第一张图的曲线表示的是函数

f(x) $f(x)$ 一阶导数的曲线，那么其二阶导数就是一阶导数对应函数在某点的斜率，也就是那条切线的斜率，那么该公式就和上面求根的公式本质是一样的。
我们这里讨论的都是在低维度的情形下，那么对于高维函数，其二阶导数就变为了一个海森矩阵，记为

H(x)=[δ2fδxiδxj] $H(x) = [\frac{\delta ^2f}{\delta x_i\delta x_j}]$ ，那么迭代公式就变为了

x k + 1 = x k - H - 1 k f' k

$x^{k+1} = x^k - H_k^{-1}f'_k$ 我们可以看到，当

Hk $H_k$ 为正定（

H−1k $H_k^{-1}$ 也为正定）的时候，可以保证牛顿法的搜索方向是向下搜索的。
牛顿法求最优值的步骤如下：
1. 随机选取起始点

x0 $x^0$ ；
2. 计算目标函数

f(x) $f(x)$ 在该点

xk $x^k$ 的一阶导数和海森矩阵；
3. 依据迭代公式

xk+1=xk−H−1kf′k $x^{k+1} = x^k - H_k^{-1}f'_k$ 更新

x $x$ 值
如果

E(f(xk+1)−f(xk))<ϵ $E(f(x_{k+1}) - f(x_k)) < \epsilon$ ，则收敛返回，否则继续步骤2,3直至收敛
我们可以看到，当我们的特征特别多的时候，求海森矩阵的逆的运算量是非常大且慢的，这对于在实际应用中是不可忍受的，因此我们想能否用一个矩阵来代替海森矩阵的逆呢，这就是拟牛顿法的基本思路。