什么是强化学习？（贝尔曼方程）

article/2025/10/7 23:24:44

文章目录

- 什么是强化学习？（贝尔曼方程）
- - 3.贝尔曼方程(Bellman equation)
  - - 3.1贝尔曼期望方程(Bellman expectation equation)
    - 3.2 贝尔曼最优方程(Bellman optimality equation)
  - 4. $M D P$ 的动态编程(dynamic programming)
  - - 4.1 $M D P$
    - 4.2.动态规划的局限性以及为什么需要强化学习

什么是强化学习？（贝尔曼方程）

3.贝尔曼方程(Bellman equation)

贝尔曼方程表示上述状态价值函数与状态-行为价值函数之间的关系。贝尔曼方程有贝尔曼期望方程和贝尔曼最佳方程。

3.1贝尔曼期望方程(Bellman expectation equation)

贝明期望方程可将状态价值函数和状态-行为价值函数表示为期望值 $E$ 。状态价值函数的贝尔曼期望方程表示如下：
$V_{\pi}(s)=\mathbb{E}\left[R_{t+1}+\gamma V_{\pi}\left(S_{t+1}\right) \mid S_{t}=s\right]$ 当前状态 $S_t$ 的价值减价到下一状态 $S_{t+1}$ 的价值 $\gamma$ 乘以的期望值。
状态-行为价值函数的贝尔曼期望方程如下：
$Q_{\pi}(s, a)=\mathbb{E}\left[R_{t+1}+\gamma Q_{\pi}\left(S_{t+1}, A_{t+1}\right) \mid S_{t}=s, A_{t}=a\right]$ 在当前状态 $S_t$ 上执行动作 $A_t$ ，这意味着期望补偿 $R_{t+1}$ 加上下一个状态 $S_{t+1}$ 和动作 $A_{t+1}$ 的状态-动作价值乘以折扣率。
在状态价值函数中，可以将此期望值转换为遵循策略 $π$ 的状态-行为价值函数，如下所示： $V_{\pi}(s)=\sum_{a \in A} \pi(a \mid s) Q_{\pi}(s, a)$ 状态 $s$ 根据策略 $π$ 选择行为 $a$ 的概率乘以状态 $s$ 根据 $π$ 执行行为 $a$ 的价值。在此公式中，状态-行为价值函数也可以用状态价值函数重新求解。
$Q_{\pi}(s, a)=R_{s}^{a}+\gamma \sum_{s^{\prime} \in S} P_{s, s^{\prime}}^{a} V_{\pi}\left(s^{\prime}\right)$ 在当前状态 $s$ 中执行行为 $a$ 时，期望补偿和对下一状态 $s$ 的期望值乘以状态转移概率，并加上加上折扣。
将此公式代入上面的状态值函数：
$V_{\pi}(s)=\sum_{a \in A} \pi(a \mid s)\left(R_{s}^{a}+\gamma \sum_{s^{\prime} \in S} P_{s, s^{\prime}}^{a} V_{\pi}\left(s^{\prime}\right)\right)$ 这样，在价值函数表达式中，模糊期望值表达式 $E$ 被减去并递归地表示。
类似地，状态-行为价值函数也可以递归地表示：
$Q_{\pi}(s, a)=R_{s}^{a}+\gamma \sum_{s^{\prime} \in S} P_{s, s^{\prime}}^{a} \sum_{a^{\prime} \in A} \pi\left(a^{\prime} \mid s^{\prime}\right) Q_{\pi}\left(s^{\prime}, a^{\prime}\right)$
我们通过贝尔曼方程对状态价值函数和状态-行为价值函数进行了递归求解。

3.2 贝尔曼最优方程(Bellman optimality equation)

最佳状态价值和最佳状态-行动价值可以表述为：最佳价值是指在遵循可获得最大总回报的政策时所获得的价值。
$\begin{aligned} V_{*}(s) &=\max _{\pi} V_{\pi}(s) \\ Q_{*}(s, a) &=\max _{\pi} Q_{\pi}(s, a) \end{aligned}$ 在 $V$ 和 $Q$ 上加上星星（*）表示最佳价值。
用贝尔曼最佳方程表示最佳价值和最佳行动价值：
$\begin{gathered} V_{*}(s)=\max _{a} R_{s}^{a}+\gamma \sum_{s^{\prime} \in S} P_{s, s^{\prime}}^{a} V_{*}\left(s^{\prime}\right) \\ Q_{*}(s, a)=R_{s}^{a}+\gamma \sum_{s^{\prime} \in S} P_{s, s^{\prime}}^{a} V_{*}\left(s^{\prime}\right) \end{gathered}$

4. $M D P$ 的动态编程(dynamic programming)

4.1 $M D P$

让我们看一下使用达伦贝尔曼方程求解 $M D P$ 的动态编程。动态编程（Dynamic Programming，DP）是一种解决递归优化问题的方法，DP由策略迭代和价值迭代组成。
重复策略（policy iteration）
重复策略将重复刷新状态价值函数，如下所示：
$V_{k+1}(s)=\sum_{a \in A} \pi(a \mid s)\left(R_{s}^{a}+\gamma \sum_{s^{\prime} \in S} P_{s, s^{\prime}}^{a} V_{k}\left(s^{\prime}\right)\right)$
其中 $k$ 表示重复过程。重复 $N$ 次更新价值函数V以创建 $V_1、V_2、…和V_N$ 。这与贝尔曼期望方程的形式相同。
我们将重新导入上面的 $M D P$ 示例。以下是3x3网格区域中的策略
在这里插入图片描述最初，我们允许在所有状态下以相同的0.25概率执行所有操作。未应用折扣。即，即 $\gamma$ =1。
到达陷阱时-0.1，到达目的地时奖励1。现在，让我们看一下重复刷新状态价值函数会发生什么。
下面显示了状态价值函数在策略重复过程中的变化
在这里插入图片描述
策略迭代中的状态值函数变化。当 k=8 时，策略可以更新为

基于状态价值函数的策略更新
如果下一个状态具有与基于状态价值函数的策略更新相同的价值，则可以赋予相同的概率，使其移动到具有最高价值的状态。价值重复（value iteration）价值重复类似于策略重复。区别在于，我们首先来看一下价值重复的公式
$V_{k+1}(s)=\max a \in A R_{s}^{a}+\gamma \sum_{s^{\prime} \in S} P_{s, s^{\prime}}^{a} V_{k}\left(s^{\prime}\right)$ 在策略重复中，我们将以下状态的价值乘以策略函数的概率相加，而在策略重复中，我们贪婪地选择最大的下一个价值。从公式可以看出，只有贝尔是最佳方程。在策略重复中，我们更新了状态价值函数，随后又更新了策略；而在价值重复中，我们没有单独更新策略的步骤。价值循环假定当前的策略是最佳的，并获得最大的补偿。