贝尔曼方程推导（无跳步）

这两天学习MDP，对于贝尔曼方程有很大的困惑，而且找了很多资料都没有详尽的推导，我这里把详尽推导写出来，希望能帮到正在学习的同学们。
$\begin{aligned} V_{\pi}(s) &= E[G_t|S_t=s] \\ &= E[R_{t+1} + \gamma G_{t+1}|\pmb{S_t=s}] \\ &= E[R_{t+1}+\gamma V_{\pi}(s')|s] \end{aligned}$
但是 $V_{\pi}(s')=E[G_{t+1}|\pmb{S_{t+1}=s'}]$ ，上面这个最后一步到底是怎么出现的？？
下面我在推导这个贝尔曼方程时会顺带解答这个疑惑。
#------------------------------------------------------------------------------------------------#
值函数给出了从状态 $s$ 出发，遵循策略 $\pi$ 会得到的期望回报，用于评估一个策略的好坏。贝尔曼方程给出了值函数的计算方法（迭代/递归）。
从状态值函数的表达式可以发现， $t$ 时刻计算的值函数必然和 $t + 1$ 时刻的值函数存在关系，因为 $G_t$ 必然包含着 $G_{t+1}$ ，所以应该是可以找到前后时刻值函数的递归关系的。就像隐马尔科夫模型中的前向变量、后向变量，前后时刻存在递归关系。
值函数前后时刻之间的递归关系得到的就是贝尔曼方程了：
状态值函数：
$\begin{aligned} V_\pi(s) &= E[G_t|S_t=s] \\ &= E[\displaystyle\sum_{k=0}^\infin \gamma^k R_{t+1+k}|S_t=s] \\ &= E[R_{t+1} + \gamma \displaystyle\sum_{k=0}^\infin \gamma^k R_{t+2+k} | S_t=s] \\ &= E[R_{t+1} + \gamma G_{t+1}|S_t=s] \\ &= E[R_{t+1}|S_t=s]+\gamma E[G_{t+1}|S_t=s] \\ &=\displaystyle\sum_{R_{t+1}}R_{t+1}P(R_{t+1}|S_t=s) \\ &+\gamma \displaystyle\sum_{G_{t+1}}G_{t+1}P(G_{t+1}|S_t=s) \\ \end{aligned}$
我们用 $s$ 代指 $S_t$ ， $a$ 代指 $A_t$ ，用 $s^{'}$ 代指 $S_{t+1}$ ，即当前时刻的状态为 $s$ ，当前采取的动作是 $a$ ，下一时刻状态为 $s^{'}$ 。注意， $s, a, s^{'}$ 都是有多种可能取值的。而且这里时刻 $t$ 只是一种泛指，只是为了指示 $s, s^{'}$ 是前后关系。
$P(R_{t+1}|S_t=s)$ –>需要在 $S_t/s$ 条件下，采取动作 $A_t/a$ ，随后转移到状态 $S_{t+1}/s'$ ，并随即确定性地获得奖励 $R_{t+1}$ （用 $R_{ss'}^a$ 表示）。 $\displaystyle\sum_{R_{t+1}}$ 指代所有情形的 $R_{t+1}/R_{ss'}^a$ ，对应所有情形的动作 $A_t/a$ 、 $S_{t+1}/s'$ 。
$P(G_{t+1}|S_t=s)$ –>需要在 $S_t/s$ 条件下采取动作 $A_t/a$ ，随后转移到状态 $S_{t+1}/s'$ ，然后需要在状态 $S_{t+1}/s'$ 条件下依概率产生 $G_{t+1}$ 。 $\displaystyle\sum_{G_{t+1}}$ 同理
事件顺序
$\begin{aligned} &(接上式) \\ &= \displaystyle\sum_{a}\displaystyle\sum_{s'}R_{ss'}^a P(a|s) P(s'|s,a) \\ &+\gamma \displaystyle\sum_{G_{t+1}}\displaystyle\sum_{a}\displaystyle\sum_{s'} G_{t+1}P(a|s)P(s'|s,a)P(G_{t+1}|s') \\ \end{aligned}$
这里， $\displaystyle\sum_{G_{t+1}}G_{t+1}P(G_{t+1}|s')=E[G_{t+1}|s']=V_{\pi}(s')$ 。用 $\pi(a|s)$ 表示 $P (a ∣ s)$ ， $P_{ss'}^a$ 表示 $P (s^{'} ∣ s, a)$
$\begin{aligned} &(接上式) \\ &=\displaystyle\sum_{a}\displaystyle\sum_{s'}R_{ss'}^a \pi(a|s) P_{ss'}^a \\ &+\gamma \displaystyle\sum_{a}\displaystyle\sum_{s'}\pi(a|s)P_{ss'}^aV_{\pi}(s') \\ &= \displaystyle\sum_{a}\displaystyle\sum_{s'} \pi(a|s) P_{ss'}^a(R_{ss'}^a + \gamma V_{\pi}(s')) \end{aligned}$
至此，我们就得到了贝尔曼方程其中的一个，另一个是反映动作值函数前后时刻递归关系的。
补充一下
$\begin{aligned} \displaystyle\sum_{a}\displaystyle\sum_{s'}\pi(a|s)P_{ss'}^aV_{\pi}(s') &= \displaystyle\sum_{a}\displaystyle\sum_{s'}P(a|s)P(s'|s,a)V_{\pi}(s') \\ &=E[V_{\pi}(s')|s] \end{aligned}$
因为 $E[V_{\pi}(s')|s]$ –>需要在状态 $s$ 条件下，采取动作 $a$ ，随后转移到状态 $s^{'}$ ，然后得到 $V_{\pi}(s')$
在这里插入图片描述
所以才会出现：
$\begin{aligned} V_{\pi}(s) &= E[G_t|S_t=s] \\ &= E[R_{t+1} + \gamma G_{t+1}|S_t=s] \\ &= E[R_{t+1}+\gamma V_{\pi}(s')|s] \end{aligned}$
这样就解答了开头的疑惑~
动作值函数的递归关系同理，就不写了。
有帮助的话点个赞啊~~