深度强化学习调研

article/2025/8/22 19:22:56

深度强化学习（DRL）

（一）强化学习
强化学习（Reinforcement Learning，简称RL）是机器学习领域的一个研究热点，当前已经广泛应用于工业制造、仿真模拟、机器人控制、优化与调度、游戏博弈等领域。不同于深度学习侧重于感知和表达，强化学习则侧重于寻找解决问题的策略，强化学习中的智能体在与环境交互的过程中，为了获取更大的累计奖赏值而不断优化动作策略，当累积的奖赏值达到最大后且稳定则意味着学习到全局或局部最优策略。强化学习任务通常使用马尔可夫决策过程（Markov Decision Process，简称MDP）来描述，具体而言：机器处在一个环境中，每个状态为机器对当前环境的感知；机器只能通过动作来影响环境，当机器执行一个动作后，会使得环境按某种概率转移到另一个状态；同时，环境会根据潜在的奖赏函数反馈给机器一个奖赏。综合而言，强化学习主要包含四个要素：状态、动作、转移概率以及奖赏函数。
下图展示了强化学习的过程示意，其中RL的基本思想即是通过最大化智能体（Agent）从环境中获得的累计奖赏值，以学习到完成目标的最优策略。
在这里插入图片描述
根据上图，Agent（智能体）在进行某个任务时，首先与Environment进行交互，产生新的状态state，同时环境给出奖励reward，如此循环下去，Agent和Environment不断交互产生更多新的数据。强化学习算法就是通过一系列动作策略与环境交互，产生新的数据，再利用新的数据去修改自身的动作策略，经过数次迭代后，Agent就会学习到完成任务所需要的动作策略。强化学习过程中的关键要素有：Agent（智能体），reward（奖励），action（行为），state（状态），Environment（环境），其中：
（1）Agent：主要涉及到策略（Policy），价值函数（Value Function）和模型（Model）。Policy，可以理解为行动指南，让Agent执行什么动作，在数学上可以理解为从状态state到动作action的映射，可分为确定性策略（Deterministic policy）和随机性策略（Stochastic policy），前者是指在某特定状态下执行某个特定动作，后者是根据概率来执行某个动作。Value Function，对未来总reward的一个预测。Model，一个对环境的认知框架，可以预测采取动作后的下一个状态是什么，很多情况下是没有模型的，Agent只能通过与环境互动来提升策略。
（2）state：可以细分为三种，Environment State，Agent State和Information State。Environment State是Agent所处环境包含的信息，简单理解就是很多特征数据，也包含了无用的数据。Agent State是输入给Agent的信息，也就是特征数据。Information State是一个概念，即当前状态包含了对未来预测所需要的有用信息，过去信息对未来预测不重要，该状态就满足马尔可夫性（Markov Property）。Environment State，Agent State都可以是Markov Property。
（3）Environment：可以分为完全可观测环境（Fully Observable Environment）和部分可观测环境（Partially Observable Environment）。Fully Observable Environment表示Agent了解了整个环境，是一个理想情况。Partially Observable Environment是Agent了解部分环境的情况，剩下的需要靠Agent去探索。
对于传统的机器学习方式，输入一个状态s，模型就映射得到一个动作a。但强化学习是通过应用这些映射的动作，得到一系列的反馈奖励值，然后从中挑出最大奖励值的那个动作。因此，强化学习具有以下两个明显的特征：试验式求解方式（Trial-and-Error，试错法）和奖励延迟机制（Delayed Reward）。
（二）深度强化学习
深度强化学习（Deep Reinforcement Learning，简称DRL），深度强化学习将深度学习的感知能力和强化学习的决策能力相结合，可以直接根据输入的图像进行控制，是一种更接近人类思维方式的人工智能方法。深度学习具有较强的感知能力，但是缺乏一定的决策能力；而强化学习具有决策能力，对感知问题束手无策。传统的强化学习局限于动作空间和样本空间都很小，且一般是离散的情境下。然而比较复杂的、更加接近实际情况的任务则往往有着很大的状态空间和连续的动作空间。例如当输入数据为图像或者声音时，往往具有很高维度，传统的强化学习很难处理，因此将深度学习与强化学习两者结合起来优势互补，将为复杂系统的感知决策问题提供解决思路。它的侧重点更多的是在强化学习上，解决的仍然是决策问题，只不过是借助神经网络强大的表征能力去拟合Q表或直接拟合策略以解决状态-动作空间过大或连续状态-动作空间问题。下图为一个深度强化学习过程的示意图。深度强化学习的主要过程可以描述为：
（1）在每个时刻 Agent与Environment交互得到一个高维度的观察，并利用DL方法来感知观察，以得到抽象、具体的状态特征表示。
（2）基于预期回报来评价各动作的价值函数，并通过某种策略将当前状态映射为相应的动作。
（3）环境对此动作做出反应，并得到下一个观察。通过不断循环以上过程，最终可以得到实现目标的最优策略。
在这里插入图片描述