1 所需的样本数量过大

深度强化学习一个严重的问题在于需要巨大的样本量。举个例子，玩Atari游戏

图 19.17 中纵轴是算法的分数与人类分数的比值， 100% 表示达到人类玩家的水准。

图中横轴是收集到的游戏帧数，即样本数量。

Rainbow DQN 需要 1 千 8 百万帧才能达到人类玩家水平，超过 1 亿帧还未收敛

再举几个例子。AlphaGo Zero 用了 2 千 9 百万局自我博弈，每一局约有 100 个状态和动作。

TD3 算法在 MuJoCo 物理仿真环境中训练 Half-Cheetah、Ant、Hopper 等模拟机器人，虽然只有几个关节需要控制，但是在样本数量 100 万时尚未收敛。甚至连 Pendulum、Reacher 这种只有一两个关节的最简单的控制问题，TD3 也需要超过 10 万个样本。

现实世界中的问题远远比 Atari 、 MuJoCo 复杂，其状态空间、动作空间都远大于 Atari、MuJoCo.

强化学习所需的样本量太大，这会限制强化学习在现实中的应用。

2 探索阶段代价太大

强化学习要求智能体与环境交互，用收集到的经验去更新策略。在交互的过程中，智能体会改变环境。在仿真、游戏的环境中，智能体对环境造成任何影响都无所谓。但是在现实世界中，智能体对环境的影响可能会造成巨大的代价。

在强化学习初始的探索阶段，策略几乎是随机的。如果是物理世界中的应用，智能体的动作难免造成很大的代价。如果应用到推荐系统中，如果上线一个随机的推荐策略，那么用户的体验会极差，很低的点击率也会给网站造成收入的损失。如果应用到自动驾驶中，随机的控制策略会导致车辆撞毁。如果应用到医疗中，随机的治疗方案会致死致残。

在物理世界的应用中，不能直接让初始的随机策略与环境交互，而应该先对策略做预训练，再在真实环境中部署。
- 一种方法是事先准备一个数据集，用行为克隆等监督学习方法做预训练。
- 另一种方法是搭建模拟器，在模拟器中预训练策略。比如阿里巴巴提出的“虚拟淘宝”系统是对真实用户的模仿，用这样的模拟器预训练推荐策略。
- 离线强化学习 (Offline RL) 是一个热门而又有价值的研究方向
- Offline reinforcement learning: tutorial, review, and perspectives on open problems.

3 超参数的影响非常大

深度强化学习对超参数的设置极其敏感，需要很小心调参才能找到好的超参数。超参数分两种：神经网络结构超参数、算法超参数。这两类超参数的设置都严重影响实验效果。换句话说，完全相同的方法，由不同的人实现，效果会有天壤之别。

3.1 结构超参数

神经网络结构超参数包括层的数量、宽度、激活函数，这些都对结果有很大影响。

拿激活函数来说，在监督学习中，在隐层中用不同的激活函数（比如 ReLU 、 Leaky ReLU）对结果影响很小，因此总是用 ReLU 就可以。

但是在深度强化学习中，隐层激活函数对结果的影响很大；有时 ReLU 远好于 Leaky ReLU ，而有时 Leaky ReLU 远好于 ReLU [Deep reinforcement learning that matters ]。由于这种不一致性，我们在实践中不得不尝试不同的激活函数。

3.2 算法超参数

强化学习中的算法超参数很多，包括学习率、批大小 (Batch Size)、经验回放的参数、探索用的噪声。
- 学习率（即梯度算法的步长）对结果的影响非常大，必须要很仔细地调。DDPG、 TD3、A2C 等方法中不止有一个学习率。策略网络、价值网络、目标网络中都有各自的学习率。
- 如果用经验回放，那么还需要调几个超参数，比如回放数组的大小、经验回放的起始时间等。
  - 回放数组的大小对结果有影响，过大或者过小的数组都不好。
  - 经验回放的起始时间需要调，比如 Rainbow 在收集到 8 万条四元组的时候开始经验回放，而标准的 DQN 则最好是在收集到 20 万条之后开始经验回放
- 在探索阶段，DQN、DPG 等方法的动作中应当加入一定噪声。噪声的大小是需要调的超参数，它可以平衡探索 (Exploration) 和利用 (Exploitation)。
  - 除了设置初始的噪声的幅度，我们还需要设置噪声的衰减率，让噪声逐渐变小。