推荐系统强化学习DRN

article/2025/9/24 6:43:42

强化学习的基本概念

强化学习的基本概念就是一个智能体通过与环境进行交互，不断学习强化自己的智力，来指导自己的下一步行动，以取得最大化的预期利益。
强化学习框架的六大要素
- 智能体（Agent）：强化学习的主体也就是作出决定的“大脑”；
- 环境（Environment）：智能体所在的环境，智能体交互的对象；
- 行动（Action）：由智能体做出的行动；
- 奖励（Reward）：智能体作出行动后，该行动带来的奖励；
- 状态（State）：智能体自身当前所处的状态；
- 目标（Objective）：指智能体希望达成的目标。
总结成一句话就是：一个智能体身处在不断变化的环境之中，为了达成某个目标，它需要不断作出行动，行动会带来好或者不好的奖励，智能体收集起这些奖励反馈进行自我学习，改变自己所处的状态，再进行下一步的行动，然后智能体会持续这个“行动 - 奖励 - 更新状态”的循环，不断优化自身，直到达成设定的目标。

强化学习推荐模型DRN（Deep Reinforcement Learning Network，深度强化学习网络）是微软在2018年提出的，它被应用在了新闻推荐的场景上，DRN的框架图如下：
DRN模型的第一步是初始化推荐系统，主要初始化的是推荐模型，我们可以利用离线训练好的模型作为初始化模型，其他的还包括我们之前讲过的特征存储、推荐服务器等等。
接下来推荐系统作为智能体会根据当前已收集的用户行为数据，也就是当前的状态，对新闻进行排序这样的行动，并在新闻网站或者App这些环境中推送给用户。
用户收到新闻推荐列表之后，可能会产生点击或者忽略推荐结果的反馈。这些反馈都会作为正向或者负向奖励再反馈给推荐系统。
最后，推荐系统收到奖励之后，会根据它改变、更新当前的状态，并进行模型训练来更新模型。接着，就是推荐系统不断重复“排序 - 推送 - 反馈”的步骤，直到达成提高新闻的整体点击率或者用户留存等目的为止。

智能体是强化学习框架的核心，作为推荐系统这一智能体来说，推荐模型就是推荐系统的“大脑”。在DRN框架中，扮演“大脑”角色的是Deep Q-Network (深度Q网络，DQN)。其中，Q是Quality的简称，指通过对行动进行质量评估，得到行动的效用得分，来进行行动决策。
DQN的网络结构如下图所示，它就是一个典型的双塔结构。其中，用户塔的输入特征是用户特征和场景特征；物品塔的输入向量是所有的用户、环境、用户 - 新闻交叉特征和新闻特征。
在强化学习的框架下，用户塔特征向量因为代表了用户当前所处的状态，所以也可被视为状态向量。物品塔特征向量则代表了系统下一步要选择的新闻，这个选择新闻的过程就是智能体的“行动”，所以物品塔特征向量也被称为行动向量。
双塔模型通过对状态向量和行动向量分别进行MLP处理，再用互操作层生成了最终的行动质量得分Q(s,a)，智能体正是通过这一得分的高低，来选择到底做出哪些行动，也就是推荐哪些新闻给用户的。

DRN的学习过程是整个强化学习推荐系统框架的重点，正是因为可以在线更新，才使得强化学习模型相比其他“静态”深度学习模型有了更多实时性上的优势。DRN学习过程如下图所示：
离线部分：DRN根据历史数据训练好DQN模型，作为智能体的初始化模型。
在线部分：根据模型更新的间隔分成n个时间段，（这里是t1 - t5）。首先在t1 - t2阶段，DRN利用初始化模型进行一段时间的推送服务，积累反馈数据。接着是在t2时间点，DRN利用 t1 - t2 阶段积累的用户点击数据，进行模型微更新（Minor update）。最后在t4时间点，DRN利用 t1 - t4 阶段的用户点击数据及用户活跃度数据，进行模型的主更新（Major update）。时间线不断延长，我们就不断重复 t1 - t4这3个阶段的操作。这里有两个重要操作：
- 第一个是在t4的时间点出现的模型主更新操作，我们可以理解为利用历史数据的重新训练，用训练好的模型来替代现有模型。
- 第二个是t2、t3时间点提到的模型微更新操作，这里就是DRN使用的一种新的在线训练方法，竞争梯度下降算法（Dueling Bandit Gradient Descent algorithm）。

竞争梯度下降算法流程图如下：
DRN在线学习过程主要包括三步：
- 第一步：对于已经训练好的当前网络Q，对其模型参数W添加一个较小的随机扰动，得到一个新的模型参数，这里我们称对应的网络为探索网络Q~。
- 第二步：对于当前网络Q和探索网络Q~ ，分别生成推荐列表L和 L~，再将两个推荐列表用间隔穿插（Interleaving）的方式融合，组合成一个推荐列表后推送给用户。
- 第三步：实时收集用户反馈。如果探索网络Q～生成内容的效果好于当前网络Q，我们就用探索网络代替当前网络，进入下一轮迭代。反之，我们就保留当前网络。