DRN: A Deep Reinforcement Learning Framework for News Recommendation学习

article/2025/9/23 14:45:22

欢迎转载,请注明出处https://blog.csdn.net/ZJKL_Silence/article/details/85798935。
本文提出了(基于深度Q-learning 的推荐框架)基于强化学习的推荐系统框架来解决三个问题:
1)首先,使用DQN网络来有效建模新闻推荐的动态变化属性,DQN可以将短期回报和长期回报进行有效的模拟。
2)将用户活跃度(activeness score)作为一种新的反馈信息,不仅仅考虑点击率作为回报。
3)使用Dueling Bandit Gradient Descent方法来进行有效的探索。
在这里插入图片描述
当前强化学习中已经提出增加一些随机性到决策中,来寻找新的物品。e-greedy或者UCB主要作为多臂赌博方法,因为e-greedy可能给消费者推荐完全不相关的物品,然而,UCB只有对物品进行多次尝试,才可以得到相对准确的回报估计。这两种方法在短期内可能损害推荐的性能,这里采取更加有效的探索。
本文用竞争赌博梯度下降方法进行探索。通过在当前推荐的邻居候选物品中随机选择一些物品,这样介意避免推荐完全不相关的物品,因此可以保持较好的推荐准确性。
对于上图,描述了强化学习的四个必要因素:
状态:用户的特征
动作:物品(新闻)特征
环境:用户和物品池
回报:点击率和用户的活跃度
强化过程:将用户的连续状态特征表示和连续的物品动作特征表示作为多层深度Q-网络,预测潜在回报。
该框架优点:
1、可以处理高度动态的新闻推荐,由于可以在线更新DQN。同时,DQN网卡可以推断用户和物品之间将来的交互。
2、结合用户的活跃度和来最用户反馈的点击率作为 回报。
3、利用DBGD策略更改推荐多样性。
模型框架包括线下阶段和线上阶段:
线下阶段:抽取用户和物品的四种特征。利用用户和物品的点击记录进行训练该网络。
四种特征:新闻特征,进行one-hot编码后的417维度特征;用户特征413*5=2065;用户新闻特征:用户和新闻之间的交互特征25;上下文特征32;
线上学习部分:我们推荐代理G将于用户进行交互,并按照以下方式更新网络:
(1)push:在每个时间戳用户像系统法师弓一个新闻请求,推荐代理G将当前用户和候选的新闻的特征表示作为DQN网络的输入并生成新闻推荐列表L,L的产生是结合当前模型的利用和新颖物品的探索。
(2)反馈:用户u将根据推荐新闻列表L,其点击率做为反馈
(3)次要更新:在每个时间戳之后,先前用户的特征表示,其推荐列表L,反馈B。代理G将通过利用Q网络和探索网络Q’比较推荐的性能。若Q’能够给出较好的推荐,将当前网络朝着Q’网络更新,否则保持Q网络不变。
(4)主要更新:在经过一段时间T后,代理将利用用户的反馈和存储在内存中的用户的活跃度和反馈更新Q网络。因此我们将利用
经验重放技术更新网络。每次更新,代理将抽样批量记录更新模型。
模型的整个回报
在这里插入图片描述
对于DDQN的reward:在这里插入图片描述
这里t+1是因为回报总是延时;
在这里插入图片描述
用户的活跃度
利用用户的生存分析构建用户的活跃度;
在这里插入图片描述
利用DBGD算法进行探索
在这里插入图片描述
代理G使用当前Q网络产生推荐表L;利用探索网络Q’产生推荐列表L’;在原来Q网络的W基础上,增加小的扰动到当前的Q网络中:
在这里插入图片描述

将使用概率交错算法算法首先随机的在L和L’选择物品,假设L被选中,来自列表L的物品i,将通过在L中的排序以确定性的概率放入L’中。然后推荐列表L’作为用户u的推荐列表,并得到反馈B。若利用探索网络Q’获得比较好的反馈,代理将更新Q网络朝着Q’网络进行更新。参数更新如下:
在这里插入图片描述


http://chatgpt.dhexx.cn/article/evvnnq0a.shtml

相关文章

【超分辨率】(DRN)Closed-loop Matters: Dual Regression Networks for Single Image Super-Resolution

论文名称:Closed-loop Matters: Dual Regression Networks for Single Image Super-Resolution 论文下载地址:https://arxiv.org/pdf/2003.07018.pdf 论文代码地址:https://github.com/guoyongcs/DRN 但是代码有问题 论文标题: 1…

CNN经典模型:深度残差网络(DRN)ResNet

一说起“深度学习”,自然就联想到它非常显著的特点“深、深、深”(重要的事说三遍),通过很深层次的网络实现准确率非常高的图像识别、语音识别等能力。因此,我们自然很容易就想到:深的网络一般会比浅的网络…

2021-11-11SR-DRN

闭环问题:单张图像超分辨的对偶回归网络(DRN) SR主要是要学习LR和HR之间的某种映射来重建相应的HR图像。 一、SISR存在的两个潜在的问题: 1.学习从LR到HR的映射是一个病态的逆问题。一张LR图像可以对应多张HR图像,也就是说存在…

DNN

文章目录 前向传播从感知机到神经网络DNN的基本结构DNN前向传播算法数学原理 DNN前向传播算法反向传播算法(BP)DNN反向传播算法要解决的问题 DNN反向传播算法的基本思路DNN反向传播算法过程损失函数和激活函数的选择均方差损失函数Sigmoid激活函数的问题使用交叉熵损失函数Sigm…

DRCN神经网络

1 DRCN DRCN(Deeply-Recurisive Convolutional Network),一种利用深度递归卷积网络。DRCN与之前的VDSR都是来自首尔国立大学计算机视觉实验室的工作。该网络将插值后的图像作为输入,并像SRCNN中一样预测目标图像。 该网络分为三个部分&…

DRM(一):什么是DRM

之前说了要一起学习一下与安全紧密相关的业务事项,于是这就开始了。 今天就来看看与版权保护相关的技术:DRM 内容基本上来自:【DRM架构介绍】 还是我推荐的那个号–》内核工匠,确实内容不错,学到很多。 1、DRM是什…

推荐系统强化学习DRN

文章目录 强化学习的基本概念强化学习推荐系统框架强化学习推荐模型的特点 深度强化学习推荐模型中的DQNDRN的学习过程DRN竞争梯度下降算法 强化学习的基本概念 强化学习的基本概念就是一个智能体通过与环境进行交互,不断学习强化自己的智力,来指导自己的…

DRN - 扩张残留网络(图像分类和语义分割)

DRN - 扩张残留网络(图像分类和语义分割) 原标题 | Review: DRN — Dilated Residual Networks (Image Classification & Semantic Segmentation) 作者 | Sik-Ho Tsang 翻译 | had_in(电子科技大学) 编辑 | Pita 本文回顾…

DRN——强化学习与推荐系统结合

强化学习是近年来机器学习领域非常热门的研究话题,它的研究起源于机器人领域,针对智能体在不断变化的环境 中决策和学习的过程进行建模。在智能体的学习过程中,会完成收集外部反馈,改变自身状态,再根据自身状态对下一步的行动进行决策&#x…

【Pytorch深度学习实战】(7)深度残差网络(DRN)

🔎大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎 📝个人主页-Sonhhxg_柒的博客_CSDN博客 📃 🎁欢迎各位→点赞…

图像超分辨率 之 DRN 论文解读与感想

图像超分辨率 之 DRN (Closed-loop Matters: Dual Regression Networks for Single Image Super-Resolution)论文解读与感想 DRN是在2020年顶会(CVPR)上发表的一篇想法简单,但是结果非常不错的文章。 先来说一下文章的切入点: …

关于CSRF攻击及mvc中的解决方案 [ValidateAntiForgeryToken]

一.CSRF是什么? CSRF(Cross-site request forgery),中文名称:跨站请求伪造,也被称为:one click attack/session riding,缩写为:CSRF/XSRF。 二.CSRF可以做什么&#xff…

CSRF简介

一.CSRF是什么? CSRF(Cross-site request forgery),中文名称:跨站请求伪造,也被称为:one click attack/session riding,缩写为:CSRF/XSRF。 二.CSRF可以做什么&#xf…

django种表单post出现CSRF verification failed( CSRF验证失败 ) 的两种解决方案

现象 表单界面如下&#xff1a; 在点击提交之后&#xff0c;出现如下错误页面&#xff1a; HTML的代码如下&#xff1a; contact_form.html <!DOCTYPE HTML PUBLIC ><html> <head><title>Contact us</title> </head><body><h1&…

Django CSRF验证失败. 请求被中断.

项目场景&#xff1a; Python版本&#xff1a;3.7 Django版本&#xff1a;3.1.7 问题描述&#xff1a; 出现了CSRF验证失败. 请求被中断. 原因分析&#xff1a; 在Django中有个设定&#xff0c;防止跨域来请求。比如有爬虫&#xff0c;爬虫不是从网站根目录开始搜寻&#x…

detail: “CSRF Failed: CSRF token missing or incorrect 问题解决方法

如果你尝试了所有方法之后还是没用&#xff0c;那定位你的Ajax方法&#xff1a; 1&#xff0c;var $crf_token $(‘[name“csrfmiddlewaretoken”]’).attr(‘value’) 2&#xff0c;headers:{“X-CSRFToken”: $crf_token} 原因分析&#xff1a; 这是由于你的django,有一个…

CSRF防御之token认证

一、CSRF是什么&#xff1f; CSRF&#xff08;Cross-site request forgery&#xff09;&#xff0c;中文名称&#xff1a;跨站请求伪造。攻击者盗用你的身份&#xff0c;以你的名义发送恶意请求。CSRF能够做的事情包括&#xff1a;以你名义发送邮件&#xff0c;发消息&#xf…

禁止访问 (403)CSRF验证失败. 请求被中断.

出现这个问题是因为django在收到表单提交过来的信息时&#xff0c;会检查提交过来的信息中是否有token,并会对token进行校验&#xff0c;如果校验通过&#xff0c;那就继续执行&#xff0c;反之就会认定这次的数据有伪造的风险。 解决方案&#xff1a; 在项目的settings.py文…

禁止访问 (403) CSRF验证失败. 请求被中断.————错误处理(测试接口时遇到的问题)

问题描述 解决措施 在Header参数中添加Content-Type和X-CSRFToken信息&#xff0c;这样就不会报错了。 运行结果

通过验证Referer解决CSRF安全防御问题

一、背景 JAVAWEB 类项目处于客户验收阶段&#xff0c;在安全扫描处出现 CSRF 问题&#xff0c;通过多个博客中解决思路都无法解决。后来通过同事提醒 可以试试判断 Referer页面来源参数&#xff0c;最终使用该方法解决问题。 二、环境 服务器&#xff1a;Linux 前端&#…