李宏毅深度学习--《Backpropagation》

article/2025/10/11 0:59:11

李宏毅深度学习

Gradient Descent of neural network：

$neural\ \ network$ 的参数： $θ=\{w_1,w_2,\cdots,b_1,b_2,\cdots \}$
计算参数 $θ$ 对于损失函数L的导数 $\Delta L(θ)$
$\Delta L(θ)=\begin{bmatrix} \partial L(θ)/\partial w_1 \\ \\ \partial L(θ)/\partial w_2 \\ \\\cdots \\ \\ \partial L(θ)/\partial b_1 \\ \\ \partial L(θ)/\partial b_2 \\ \cdots \end{bmatrix}$
更新参数： $-\eta\Delta L(θ)$

$\Delta L(θ)$ 可以是一个上百万维的向量，计算十分的麻烦；所以 $B a c k p ro p a g a t i o n$ 要做的是去高效的计算反向传播的梯度 $\Delta L(θ)$ 。

定义预测结果 $y^n$ (理想模型)与实际结果 $\hat{y}^n$ (现实模型)之间的距离为 $l^n$ ，即第 $n$ 单个样本的损失函数值是 $l^n$ 。
在这里插入图片描述
总体样本损失函数值表达式为：
$L(θ)=\sum\limits_{n=1}^{N} {l^n(θ)}$

对损失函数 $L (θ)$ 左右两边同时对 $w$ 求偏微分：

$\frac{\partial L(θ)}{\partial w}=\sum\limits_{n=1}^{N} \frac{\partial l^n(θ)}{\partial w}$

可以看出，我们仅需要对一个样本数据进行讨论，再将一个样本讨论的结论覆盖到整体样本上进行求和即可。所以下面的讨论都是基于一个样本的。

$B a c k p ro p a g a t i o n$ 可以分为 $Forward\ pass$ 和 $Backward\ pass$ 两个部分，首先讨论 $Forward\ pass$ 。

Forward pass：

我们的目标是求出 $\frac{\partial l}{\partial w}$ ;

将下图三角形部分的神经元拿出来单独讨论；
在这里插入图片描述

观察下面的图片，通过链式求导法则可以将 $\frac{\partial l}{\partial w}$ 展开为：
$\frac{\partial l}{\partial w}=\frac{\partial z}{\partial w}\frac{\partial l}{\partial z}$

在这里插入图片描述

$z$ 的表达式在前向传播中给出来了， $\frac{\partial z}{\partial w}$ 的计算会很容易：

$\frac{\partial z}{\partial w_1}=x_1$

$\frac{\partial z}{\partial w_2}=x_2$

可以看出 $z$ 对 $w$ 的偏导等于与 $w$ 相联系的 $in p u t$ 。

将这个结论扩展到网络的其他部分，如下图：
在这里插入图片描述

所以通过前向传播，计算每个神经节点的输入就能计算所有的 $\partial z ∕ \partial w$ 了。

Backward pass：
在这里插入图片描述

$\frac{\partial l}{\partial w}=\frac{\partial z}{\partial w}\frac{\partial l}{\partial z}$ 中的 $\frac{\partial z}{\partial w}$ 通过 $Forward\ pass$ 就能够计算出来。接下来计算 $\frac{\partial l}{\partial z}$ 部分，根据链式法则：
$\frac{∂l}{∂z}=\frac{∂a}{∂z}\frac{∂l}{∂a} \tag 1$

$\frac{∂a}{∂z}$ 就是对激活函数求导，假设使用的激活函数是 $s i g m o i d$ ，那么 $\frac{∂a}{∂z}=σ'(z)=σ(z)(1-σ(z))$

在这里插入图片描述

所以主要问题在于 $\frac{∂l}{∂a}$ 的计算，观察上图， $\frac{∂l}{∂a}$ 可以按照链式法则继续展开为：

$\frac{∂l}{∂a}=\frac{∂z'}{∂a}\frac{∂l}{∂z'}+\frac{∂z''}{∂a}\frac{∂l}{∂z''}$

根据 $z^{'}$ 和 $z^{''}$ 的表达式可以计算 $\frac{∂z'}{∂a}=w_1$ 、 $\frac{∂z''}{∂a}=w_2$ 。

带入到(1)中：
$\frac{∂l}{∂z}=σ'(z)[w_3\frac{∂l}{∂z'}+w_4\frac{∂l}{∂z''}] \tag2$

如下图，表达式 $(2)$ 的含义就像从后面向前面传播：

在这里插入图片描述

接下来求出 $\frac{∂l}{∂z'}$ 和 $\frac{∂l}{∂z''}$ ，就可以计算出 $\frac{∂l}{∂z}$ 。

分两种情况讨论：

$-Case\ 1-$ ：
$z^{'}$ 和 $z^{''}$ 是连接的是输出层，如下图：

链式法则展开：
$\frac{∂l}{∂z'}=\frac{∂y_1}{∂z'}\frac{∂l}{∂y_1}$ $\frac{∂l}{∂z''}=\frac{∂y_2}{∂z''}\frac{∂l}{∂y_2}$
$l$ 对 $y$ 求导可以通过损失函数表达式计算， $y$ 对 $z$ 求偏导其实就是激活函数的求导，这时候工作 $\frac{∂l}{∂z}$ 就计算完成了。
$-Case\ 2-$ ：
$z^{'}$ 和 $z^{''}$ 是连接的不是输出层，如下图：

其实这就是个套娃的过程，计算当前层的 $\frac{∂l}{∂z}$ 需要计算下一层的 $\frac{∂l}{∂z}$ ，计算下一层的 $\frac{∂l}{∂z}$ 需要计算下下层的 $\frac{∂l}{∂z}$ 。如下图：

所以要做的是递归计算 $\frac{∂l}{∂z}$ ，直到最后一层。