前言

深度强化学习(DRL)已成为人工智能研究的热点之一。它已被广泛应用于端到端控制、机器人控制、推荐系统、自然语言对话系统等各个领域。本文对深度RL算法及其应用进行了分类，并将现有的DRL算法分为基于模型的方法、无模型的方法和先进RL方法进行介绍。

一、无模型强化学习

DRL的发展仍处于起步阶段。学术研究集中在确定性和静态环境中，状态主要是离散的和充分观察。因此，大多数RL工作都是基于无模型方法的。无模型RL可以通过大量样本估计agent的状态、价值函数和奖励函数，从而优化以在s状态下做a动作获得更多奖励为目标的行为策略 $gif.latex?%5Cpi%20%28a%7Cs%29$ 。由于其实现简单，开放资源丰富，无模型RL吸引了越来越多的学者进行深入的研究。

1. 基于值函数的RL

1.1深度Q-网络

深度Q-网络 (DQN) (Mnih et al.， 2013, 2015)是DRL的典型代表，它使用卷积神经网络(CNN) (Krizhevsky et al.， 2012)作为模型，并使用Q-learning的变体进行训练(Kröse, 1995)。DQN使用最大Q值作为低维动作输出，解决高维状态输入(如游戏画面的原始像素)的令人困惑的表示。

此外，DQN将奖励值和误差项减小到一个有限的区间，从而减轻了非线性网络所代表的值函数的不稳定性。与Q-learning算法不同的是，DQN将学习过程与训练过程同步，主要改进如下:(1)使用经验重放缓冲区(Lin, 1992)来减少样本之间的关联;(2)深度神经网络——目标网络——用于行为-价值函数逼近。

1.2 DQN的发展

随着DQN算法的成功，提出了大量的改进算法。在这一小节中，我们主要关注与系统的整体结构、训练样本的构建和神经网络的结构相关的代表性方法。

双深度Q-网络(Double deep Q-network, DDQN) (van Hasselt et al.， 2016)通过自举行为的解耦选择和评估，降低了Q-learning过高估计偏差的风险。因为经验转换从经验回放中统一均匀采集，DQN显然没有充分考虑每个样本的重要性。改进的经验重演机制DDQN (Schaul et al.， 2016)通过计算经验池中每个样本的优先级，增加有价值训练样本的概率来解决这一问题。

2. 基于策略梯度的RL

强化 (Williams, 1992)是策略梯度(PG)算法的原型。与基于值的RL相比，基于策略的RL不仅避免了由于值函数误差引起的策略退化，而且更容易应用于连续动作空间问题。具体来说，基于值的方法，如Q-learning和SARSA，需要一步操作才能计算出最大值，这在连续空间或高维空间中是很难找到的。此外，基于值的方法可以学习隐式策略，而基于策略的RL方法可以学习随机策略。也就是说，在基于价值的方法中，通过政策改进得到的政策都是确定性的政策，会遇到一些在石头剪刀布等任务中无法解决的问题。基于策略的方法也有一些共同的缺点:(1)数据效率或样本利用率低;(2)方差较大，难以收敛。

两个典型的改进:(1)基于演员评论(actor-critic)的改进框架;(2)基于信任域的改进方法。

二、基于模型的强化学习

事实上，知道转移动力学p(st+1|st,at)会使问题解决变得更容易，这种动力学被称为模型。基于模型的方法是学习转换动力学的算法，它决定了在当前状态st执行动作at下一个状态将会是st+1在当前状态，接着方法将找出如何选择动作。简而言之，这种算法学习系统动力学模型，并使用最优控制选择动作。基于模型的RL是从最优控制领域发展而来的。通常，具体问题通过模型如高斯过程和贝叶斯网络建立，然后通过机器学习方法或最优控制方法解决，如模型预测控制(MPC)，线性二次调节器(LQR)，线性二次高斯控制。

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5Y-k6YGT6KW_6aOO55im56CB,size_14,color_FFFFFF,t_70,g_se,x_16

图1. 基于模型和无模型方法的不同使用场景

与无模型的RL相比，基于模型的RL以数据高效的方式学习价值函数或策略，不需要与环境进行持续的交互。但是，它可能会遇到模型识别的问题，导致对真实环境的描述不准确。基于模型的RL的上下文划分为三个场景.

1.全局模型和局部模型

对于基于模型的算法，第一个问题是，如果动力学未知，应该拟合哪一个:全局动力学模型还是局部动力学模型?在这一部分，我们介绍了相关的算法和这两种模型的比较。

尽管全局模型方法具有运行时计算成本低等优点，但在数值稳定性方面常常失效，尤其在随机域内，因为它们使用MPC迭代收集数据，并直接将它们反向传播到策略中。

在大多数状态空间中，全局模型的规划者可能会寻找模型错误乐观的区域，因此需要一个非常精确的模型来收敛于一个好的解。此外，获得一个适当的模型往往比学习一项政策要困难得多，特别是在环境难以描述的情况下。因此，具有约束的局部模型越来越受到重视。局部模型需要弄清楚执行哪个控制器来获得正确的数据，以及如何确保整个模型不会出现严重的偏离。这里我们列出了一些典型的算法。

2.不确定性意识(Uncertainty-aware)模型

基于纯基于模型的方法和无模型的方法之间存在性能差距。与无模型方法需要10天的时间相比，基于模型的方法只需要10分钟就可以完成整个训练过程。然而，无模型方法可以获得更好的性能，最多相差三个数量级。主要原因是过度拟合。不确定性感知模型是解决这一问题的有效方法。根据不确定性的表现形式，我们将不确定性分为两类:随机不确定性(固有的系统随机性)和认知不确定性(由于数据有限而产生的主观不确定性)。主要有两个方向:模式不确定性估计和利用输出熵建立不确定性感知模型。

通过学习概率动态模型和明确地将模型不确定性纳入长期计划，学习控制的概率推理(PILCO)可以处理很少的数据，并在几次试验中促进从零开始的学习。

在RL中，将无模型和基于模型的方法结合起来，以实现高性能但低样本复杂度的算法，这是一个日益增长的兴趣。基于模型的价值扩展允许想象固定深度来控制模型的不确定性。随机集合值展开通过在不同视界长度的模型展开之间进行动态插值，确保模型只有在这样做时才会引入显著误差。

3.复杂观测模型

基于模型的RL已被证明是一种学习控制任务的有效方法，但它难以用于具有复杂观测(如图像)的部分可观测MDPs。这是因为agent必须根据观察而不是准确的环境状态做出决定。

空间自动编码器架构提出了在潜在空间学习和自主学习图像的低维嵌入。然而，有一个不可避免的问题，即自动编码器可能无法恢复正确的表示，并且不适合基于模型的RL。为了解决这一难题，embed To control (E2C) 在潜在空间中应用带有iLQR的变分自编码器，将高维非线性系统的局部最优控制问题转化为低维潜在状态空间。

将深度动作条件视频预测模型与模型预测控制相结合的方法是第一个在观察空间中直接学习的机器人操作实例。它用完全未标记的数据和行动计划来训练agent，将环境中用户指定的对象移动到用户定义的位置，这两种方法都可以帮助生成新的、以前未见过的对象。视频预测模型也可以通过合并时间跳跃连接来跟踪对象，并完全通过自监督机器人学习在技能范围和复杂性方面取得显著进步。因为准确的正向预测可能非常昂贵, SOLAP 使用简单模型，通常是线性模型，为地方政策的改进提供梯度方向，而不是前向预测和规划。

三、高级强化学习

1.探索

在许多复杂的RL任务中，agent在与未知动态交互时面临着平衡探索和开发的挑战。随着RL的快速发展，各种有效的、可扩展的方法被提出，以克服缺乏探索的缺点。我们将介绍每一类的典型算法，并分析它们的优缺点。

1.1积极的探索

因为未经探索的行动可以带来更好的奖励，所以优化它们以有效地增加探索是很有价值的。因此，如何量化这些未被访问状态的状态新颖性是解决这类复杂问题的关键。

基于频率的分配奖励机制得到了广泛的应用。它们将行为(状态行为)的出现频率作为奖励。

在一些复杂的高维连续环境中(如《星际争霸2》)，几乎不可能出现两次完全相同的状态。这将导致上述方法变得毫无意义，因为几乎每个状态都是1。基于密度模型，引入了伪计数的概念，以推广基于计数的非表列RL agent勘探奖金。从那时起，人们对伪计数算法进行了大量的改进。

1.2后验抽样探索

用随机行为(例如，epsilon-greedy)进行探索会遭遇来回振荡的情况。它可能不会进入一个连贯或有趣的地方，而使用随机q函数探索可能会在整个事件中使用随机但内部一致的策略。受此启发，提出了后验采样算法，以实现更有针对性的探索。

1.3信息获取探索

在一些复杂的环境中，对一个动作进行采样可以帮助agent评估其他动作。在此基础上，在信息获取探索中充分考虑了信息结构的优势，有助于agent在困难任务中更高效地学习。

信息导向抽样衡量真正的最优行为与下一个观察之间的互信息，然后选择一个行为来量化学习的数量。对每个选择的行为进行采样，使期望单周期后悔与信息增益之间的比率最小化，这也在一定程度上平衡了勘探和开发。

然而，我们不可能构建一个成形的奖励函数，因为在现实世界的许多场景中，环境中的奖励极其稀少或完全缺失。与上述探索方法相比，利用贝叶斯神经网络中的变分推理，变分信息最大化探索(VIME)逼近了动态模型的概率，大大降低了对奖励的依赖。内部探索机制(其中奖励函数被信息增益修正) 激励agent去探索未知领域并允许与其他方法(如TRPO)集成。

与VIME类似，好奇心驱动学习(curiosity-driven )根据agent预测其自身行动的结果的难度(即，根据当前状态和执行的行动，预测下一个状态)产生内在奖励信号。正向动力学模型的预测误差被用来作为激励个体好奇心的内在奖励。实验表明，即使在奖励很少的环境中，好奇心驱动学习也能在各种连续控制任务中取得显著的表现。

2逆RL

通常我们学习过渡模型时，假设奖励模型已经为人所知。然而，一旦奖励功能设计不当，就会对绩效产生巨大影响。引入逆RL (IRL) ，从观察到的专家例子中学习适当的奖励函数。然而，IRL存在一些挑战:(1)问题定义不足，缺乏先验知识;(2)对学习奖励进行评估是困难的;(3)演示不一定是最优的。在下文中，我们讨论了基于最大边际和最大熵的解。

2.1基于最大margin的IRL

学徒学习使用最大边际法从一个专家实例中找到当前的奖励函数。在奖励函数下得到的最优策略保证在专家实例策略附近。

最大边际规划(MMP) 试图通过结构化的最大边际分类实现从感知特征到成本的自动化映射。尽管采用了一些技巧(如支持向量机)进行了改进，但在迭代求解MDP时，MMP仍然存在计算困难。为了处理这一问题，IRL通过结构化分类对每个状态下的每个动作进行约束，而不是对MDP的解决方案进行约束，并使用所谓的专家特征期望作为多类分类器得分函数的参数化。

此外，神经逆RL (NIRL)主要关注具有大规模高维状态空间的IRL。在神经网络的帮助下，NIRL不仅可以将专家的行为推广到状态空间的未访问区域，而且可以很容易地表达出明确的策略表示，即使是对于随机的专家策略。

总之，基于最大边际的方法往往是模糊的。例如，许多不同的奖励功能会导致相同的专家政策。在这种情况下，学习到的奖励函数通常具有随机偏好。主要挑战如下:(1)边际最大化具有一定的随意性;(2)没有明确的专家次优度模型;(3)深度规划不适用于复杂约束优化问题。

2.2基于最大熵的IRL

最大熵方法由于其概率分布没有对除约束外的任何位置信息的分布作任何假设，因此可以避免歧义问题。当在与所示行为的奖励值相匹配的约束下选择一个分配而不是决策时，它可能会引起歧义。最大熵IRL (MaxEnt IRL)是利用最大熵原理提出的解决问题的方法。

MaxEnt IRL虽然解决了歧义问题，但不能适应大而连续的状态和动作空间，也不能满足未知动态下有效学习的要求。基于最大熵的方法在实际应用中也很难应用，因为:(1)奖励函数的学习需要人工选择特征(对于许多实际问题来说，特征的选择是非常困难的);(2) IRL的许多子循环都包含正向RL，这是一个比较困难的问题。为了解决前一个挑战，Ziebart等人利用神经网络的表征能力来近似复杂的非线性奖励函数。为了解决后一个挑战，引导成本学习进一步制定了一种基于样本的有效近似，而不是前向RL。

生成式对抗模仿学习(GAIL) 映射了生成对抗网络(GAN)情境下IRL中的奖励函数目标。

GAIL的策略模型就像GAN中的生产模型，以状态为输入生成动作。GAIL的奖励函数模型可以作为一个判别模型来判别行为在多大程度上近似专家行为。实验结果表明，GAIL能够在模拟大型、高维环境中的复杂行为方面取得显著的效果。对抗式反强化学习(AIRL) 提供了价值函数和奖励函数的同时学习。与GAIL相比，AIRL充分利用了高效的对抗性配方，也恢复了可推广的、可携带的奖励功能。

3转移RL

人工智能的一个基本问题是，它不能像人类那样高效地学习。许多RL算法展示了超人的性能，但需要数百万个训练样本。许多迁移RL算法都是基于这样一种直觉提出的，即有用的知识可能会从之前的任务中获得，以解决新的任务。这种算法的目标是在新环境中使用少量的可用数据快速学习最优策略。

根据源域的选择，将迁移RL分为三种类型:(1)前向迁移，即在一个任务上进行训练，然后迁移到新的任务上;(2)多任务转移，即多任务训练，转移到新任务上;(3)学习从多个任务中学习的元RL。

3.1正向转移

前向转移最简单的方法就是抱着最大的希望去尝试(Levine et al.， 2016)。针对某一种情况训练的策略可能会奏效，如果运气好的话，可以成功地处理新任务，因为有时在训练中有足够的可变性来概括。

3.2多任务转移

RL的典型应用更注重掌握而不是一次性学习，需要大量的训练集。多任务转移提供了一种解决这些挑战的方法，并且更接近于人们所做的——建立一生的经验。

最简单的解决方案之一是学习一个可以同时执行许多任务的模型。在线动态适应将先前任务的先验知识与动态模型的在线适应相结合。这种基于模型的方法不仅减少了使用模型对训练数据的需求，而且还利用机器人在其他任务上的经验一次性学习新的任务，而不需要设计师提供明确的领域知识或演示。

3.3 元-RL

Meta-RL提供了一个可行的框架，以解决在非常复杂的环境中需要战略和战术思考的少镜头学习。设Mi = (S, A, Ti, Ri)表示具有状态空间S、行为空间A、转移概率分布Ti和奖励函数Ri的MDP。在元-RL中，对于一个族的MDPs其M包括一个任务分布，从而每个MDP都具有统计规律性。Meta-RL旨在通过学习策略πθ、模型Tθ和奖励函数等MDPs簇中的元项来提高后续任务的学习效率。对于每个MDP中的每个事件，从特定于相应MDP的初始状态分布中提取一个新的S0。探员是按照历史轨迹训练的。在一集的结尾，政策的隐藏状态会保留到下一集，但不会在审判之间保留。

循环模型在架构中有多种设计选择，通常是通用的和具有表现力的。然而，它们在处理复杂的任务时往往失败，需要复杂的模型和不切实际的数据。另一种典型的元学习方法是模型不可知论元学习(mml) 。为了克服循环模型的缺点，MAML使用了一个固定的优化器，并学习了一组基本参数，这些参数可以调整为通过几个梯度下降步骤来最小化任何任务损失。

四、挑战与未来

1挑战

1.1. 低效的样本

如表1所示，为了使模型达到一定的水平，需要大量的训练样本。大多数人在几分钟内就能上手的雅达利游戏需要花费大量时间。Rainbow DQN需要很长时间来训练模型，需要大约83小时的游戏体验才能超过人类的水平。基于模型的RL计算成本高，并且有自己的规划谬误:学习一个好的策略通常需要更多的样本，而实际的样本效率往往远低于预期的结果。

1.2. 苛刻的奖励功能

RL假设存在一个奖励函数，这个函数必须被精确地定义，以确保agent在任何时候都能做正确的事情。然而，奖励功能的设计通常是困难的:(1)需要一个合适的事先;(2)对所有对象状态都有完善的认识;对这个问题有一个好的定义是必要的。此外，有时在奖励功能上的过多努力可能会引入新的偏见。即使给了很好的奖励，也很难摆脱局部最优。前面提到的几种直观的探索方法(第4.1节)在一定程度上缓解了这个问题。然而，据我们所知，没有一种方法能够在所有环境中一致地工作。此外，IRL和模仿学习不需要奖励函数，但它们的表现通常是有限的和不令人满意的。

1.3.过度拟合和不稳定

RL的agent很少能够适应多种环境。即使是深度的元RL，也不能保证agent在新任务上表现良好。RL是不稳定的，对训练过程的初始化和动态非常敏感。在这方面，每一类算法都有自己的挑战。例如，具有深度网络函数估计的拟合Q(或值)方法通常是不收缩的，因此不能保证收敛。此外，还有许多稳定性参数，如目标网络延迟、重放缓冲区大小和剪辑。政策梯度方法有一个非常高的方差梯度估计。虽然有很多方法试图减少方差，但大多数也引入了超参数，因此他们需要很多样本和复杂的基线。基于模型的RL算法必须选择其模型类和拟合方法。优化策略是不平凡的，因为反向传播通过时间。相比之下，监督学习中不同的超参数会在训练中出现或多或少的变化。在RL中，运气不好可能意味着模型的曲线在很长一段时间内不会改变，或者RL方法根本不起作用。更糟糕的是，即使所有的超参数和随机种子都是已知的，只要实现稍有不同，性能就会非常不同。

2未来方向

我们相信RL有很大的前景，并列出了一些未来可能的方向:

需要具有良好改进和收敛性的算法。尽管TRPO在假设下提供了一种有保证的改进，但它在现实世界中可能并不适用。虽然自适应调整参数(Gu SX et al.， 2017b)需要大量的样本来提供统计保证，但它可能是一个很好的起点。
人为地添加一些监督信号。在稀疏奖励的情况下，我们可以引入内在奖励或添加一些辅助任务来增加探索能力。
IRL可以自动学习奖励函数，而模仿学习对奖励函数的要求不高。此外，对于多样化行为的无监督或弱监督学习会避免像奖励功能那样的严格监督。这两个方向可以弥补RL的不足。
从多任务学习中归纳。深度元RL越来越被认为是实现AGI的最有可能的方法之一。近年来的研究表明，可以通过提高meta-RL的探索能力来提高agent的性能。meta-RL与IRL的结合也是一个很有吸引力的方向。