图模型-随机游走算法

article/2025/9/11 17:26:41

文章目录

  • 推荐基本概念
  • PageRank
  • PersonalRank
  • TextRank
  • SimRank

推荐基本概念

其中用户user=[A,B,C],物品item=[a,b,c,d],用户和物品有以下的关系

在这里插入图片描述

上述便是一个典型的二分图,我们用G(V,E)来表示,其中V为用户user和物品item组成的顶点集即[A,B,C,a,b,c,d],而E则代表每一个二元组(u,i)之间对应的边e(u,i),我们这里不考虑用户对物品的喜爱程度,即默认喜爱则e=1,不喜爱则e=0。

那么我们如何使用上述的二分图模型进行物品的推荐呢?根据用户与物品的相关性,对于相关性高的顶点有如下的定义:

  • (1)两顶点间的路径数/越多相关性越高
  • (2)两顶点之间的路径长度/越短相关性越高
  • (3)两顶点之间经过的顶点的出度/越小相关性越高

上面有一个概念需要理解,度,顶点的度是指和该顶点相关联的边数。

基于上述的定义,我们这里使用基于随机游走的算法来计算

PageRank

它的基本思想是,假设网页之前通过超链接相互连接,互联网上的所有网页便构成了一张图。用户随机的打开一个网页,并通过超链接跳转到另一个网页。每当用户到达一个网页,他都有两种选择,停留在当前网页或者通过继续访问其他网页。如果用户继续访问网页的概率为d,那么用户停留在当前网页的概率便是1-d。如果用户继续访问其他网页,则会以均匀分布的方式随机访问当前网页指向的另一网页,这是一个随机游走的过程。当用户多次访问网页后,每一个网页被访问到的概率便会收敛到某个值,而计算出来的结果便可以用于网页排名,我们用以下的公式来表示:

在这里插入图片描述

其中PR(i)是网页i被访问到的概率,d代表用户继续访问网页的概率,N为所有网页的数量,in(i)代表所有指向网页i的网页集合,out(j)代表网页j指向的其他网页集合。

接下来我们分析一下这个公式,网页i被访问到的概率由两部分组成:

  • 第一部分是网页i作为起点,第一个被用户点击后停留在当前页面的概率,即:
  • 第二部分是用户点击其他网页后(无论网页i是不是起点),再次跳转回到网页i的概率:

这两部分的和便是网页i被点击到的概率

PersonalRank

pageRank算法中计算出来的是每一个顶点相对其他顶点的相关性,代入到我们的用户物品二分图中,这显然不是我们想要的,我们需要的是所有物品相对于特定某个用户的相关性

将用户行为表示为二分图模型。假设给用户u进行个性化推荐,要计算所有节点相对于用户u的相关度,则PersonalRank从用户u对应的节点开始游走,每到一个节点都以1−d的概率停止游走并从u重新开始,或者以d的概率继续游走,从当前节点指向的节点中按照均匀分布随机选择一个节点往下游走。这样经过很多轮游走之后,每个顶点被访问到的概率也会收敛趋于稳定,这个时候我们就可以用概率来进行排名了。在执行算法之前,我们需要初始化每个节点的初始概率值。如果我们对用户u进行推荐,则令u对应的节点的初始访问概率为1,其他节点的初始访问概率为0,然后再使用迭代公式计算。有公式如下:

在这里插入图片描述

在这里插入图片描述

对比pageRank,不同点只在于r的值不同,u代表根节点,即我们的目标用户节点,意思便是我们每次都是从目标用户节点出发,进行随机游走,而不同于pageRank的起点是随机从所有网页中进行选择,personalRank算法得出的结果便是所有顶点相对于目标用户结点的相关性

TextRank

1. TextRank 算法是一种用于文本的基于图的排序算法,通过把文本分割成若干组成单元(句子),构建节点连接图,用句子之间的相似度作为边的权重,通过循环迭代计算句子的TextRank值,最后抽取排名高的句子组合成文本摘要

  • 抽取型摘要:这种方法依赖于从文本中提取几个部分,例如短语、句子,把它们堆叠起来创建摘要。因此,这种抽取型的方法最重要的是识别出适合总结文本的句子。
  • 抽象型摘要:这种方法应用先进的NLP技术生成一篇全新的总结。可能总结中的文本甚至没有在原文中出现

现在我们已经掌握了PageRank,让我们理解TextRank算法。我列举了以下两种算法的相似之处:

  • 用句子代替网页
  • 任意两个句子的相似性等价于网页转换概率
  • 相似性得分存储在一个方形矩阵中,类似于PageRank的矩阵M

在这里插入图片描述

2. 基于TextRank的文本关键词抽取是利用局部词汇关系,即共现窗口,对候选关键词进行排序,该方法的步骤如下:

  • (1) 对于给定的文本D进行分词、词性标注和去除停用词等数据预处理操作。本分采用结巴分词,保留'n','nz','v','vd','vn','l','a','d'这几个词性的词语,最终得到n个候选关键词,即D=[t1,t2,…,tn] ;
  • (2) 构建候选关键词图G=(V,E),其中V为节点集,由候选关键词组成,并采用共现关系构造任两点之间的边,两个节点之间仅当它们对应的词汇在长度为K的窗口中共现则存在边,K表示窗口大小即最多共现K个词汇;
  • (3) 根据公式迭代计算各节点的权重,直至收敛;
  • (4) 对节点权重进行倒序排列,得到排名前TopN个词汇作为文本关键词。

 

SimRank

解决数据稀疏性的问题
Ref:https://blog.csdn.net/qq_34219959/article/details/101456105

 

 

 

 

 

 

 

 


http://chatgpt.dhexx.cn/article/J6cV9DY1.shtml

相关文章

链接分析之随机游走模型和子集传播模型

两个web页面通过hyperlink连接,可以认为这两个页面具有某种关系,在科学文献中这种关系很大程度上可以认为是引用文献与被引用文献在内容、主题上有很多的相似性,并且利用这种引用关系在信息计量学领域可以计算期刊的影响因子。互联网包含了浩…

【蚊子无人机】基于matlab随机游走模型无人机消除蚊子路径规划【含Matlab源码 2433期】

⛄一、随机游走模型 随机游走模型是通过随机选取某一文献作为起点,随机游走所有的文献,根据信息特征相似性对游走线路作加权处理,查阅所有文献后完成聚类。 随机游走算法通过对数据集进行统一的定义,把给定的数据集合作为固定数…

Meta Path Based Random Walk复现思路【基于元路径的随机游走模型】

title: Meta Path Based Random Walk date: 2022-02-13 00:43:08 tags: NLP的一些收获 课题原因需要复现ARNN模型。即“An Attentional Recurrent Neural Networkfor Personalized Next Location Recommendation”这篇论文,早就听说随机游走模型以及PageRank之类的…

随机游走模型(Random Surfer Model)

《这就是搜索引擎:核心技术详解》第6章链接分析,本章主要介绍一些著名的链接分析方法。本节为大家介绍随机游走模型(Random Surfer Model)。 互联网用户在上网时,往往有类似的网络行为:输入网址&#xff0c…

R语言模拟和预测ARIMA模型、随机游走模型RW时间序列趋势可视化

最近我们被客户要求撰写关于​​​​​​​时间序列的研究报告,包括一些图形和统计输出。 当一个序列遵循随机游走模型时,就说它是非平稳的。我们可以通过对时间序列进行一阶差分来对其进行平稳化,这将产生一个平稳序列,即零均值…

高斯消元配合概率dp-图上随机游走模型

2023大厂真题提交网址(含题解): www.CodeFun2000.com(http://101.43.147.120/) 最近我们一直在将收集到的机试真题制作数据并搬运到自己的OJ上,供大家免费练习,体会真题难度。现在OJ已录入50道2023年最新大厂真题,同时在不断的更…

ARIMA模型、随机游走模型RW模拟和预测时间序列趋势可视化

原文链接:http://tecdat.cn/?p25122 当一个序列遵循随机游走模型时,就说它是非平稳的。我们可以通过对时间序列进行一阶差分来对其进行平稳化,这将产生一个平稳序列,即零均值白噪声序列。例如,股票的股价遵循随机游走…

随机游走(Random Walk)模型

Random Walk Model 1 模型及性质简介 给定一随机变量 u ( i ) { 1 , − 1 } u(i){\{1, -1\}} u(i){1,−1} 随机游走模型可表示为随时间 t t t变化的函数 y ( t ) ∑ i 1 t u ( i ) y(t)\sum_{i1}^{t} u(i) y(t)i1∑t​u(i) 几条随机游走可视化路线如下 性质一:…

读《PROSOSPEECH: ENHANCING PROSODY WITH QUANTIZED VECTOR PRE-TRAINING IN TEXT-TO-SPEECH》

当下韵律建模存在的问题: 1 提取的基音pitch信息存在误差,导致韵律合成出现问题 2 对韵律生成的相关要素 如基频 时长 能量等相互依存(dependent on each other) 共同产生了韵律相关的特征 3 韵律信息较高的可变性和高质量数据数目较少 导致不能完全学习…

UE4官方文档_Light Propagation Volumes_LPV方案

光线传播体积(Light Propagation Volumes)功能仍在开发中,不适用于生产。 本页面的内容: 启用光线传播体积基础场景设置光线传播体积设置 调整外观和性能 定向光源设置查看全局照明显示光线传播体积GI 替换材质切换其他注意事项 启…

Ue4 使用lpv快速增强间接光照效果

LPV缩写Light Propagation VolumesUe4自带,效果还可以,能快速在项目中实现不需要烘焙的间接光照效果主要原理使用光照生成点云进行对物体表面间接光进行计算测试版本4.16.3如何开启把r.LightPropagation1 加入到 consolevariables.ini 文件最后 &#…

实时GI方案概述

LPV CryTek原创的,但是貌似因为漏光的问题,没有广泛应用起来。 SVO VXGI Enlighten Enlighten的实时GI解决方案用的时预计算实时全局照明 (Precomputed Realtime GI),这是一种允许交互式更新场景照明的技术,采用的是辐射度算…

IPVLAN

IPVLAN 一、拓扑图二、实验内容三、配置信息 一、拓扑图 二、实验内容 假设S1交换机由于某种原因无法配置,利用IP地址划分在S3做相应配置使得PC能供与服务器正常通信 三、配置信息 1、接口信息配置 S1的0/0/1和0/0/2接口无任何配置,0/0/3接口配置了a…

LPI

概述 LPI全称是Locality-specific Peripheral Interrupts(LPIs),GICv3有两种方式支持LPIs: 1)使用ITS把从设备发送的EventID转换成LPI INTID 2)直接转发LPI INTID到Redistributors(GICR_SETL…

系统辨识和自适应控制

系统辨识知识要点 1.为什么采用负反馈技术 2.什么是自适应控制,为什么采用自适应控制,指出自适应控制的使用场合 3.学习了什么辨识方法,这些方法之间的联系 4.最小二乘中的无偏性和一致性指的是什么 5.什么是白噪声 白噪声是一种具有…

【状态估计】用于描述符 LTI 和 LPV 系统的分析、状态估计和故障检测的算法(Matlab代码实现)

💥 💥 💞 💞 欢迎来到本博客 ❤️ ❤️ 💥 💥 🏆 博主优势: 🌞 🌞 🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 …

Global Illumination_Light Propagation Volumes (LPV)

文章具体参照 https://ericpolman.com/ 本方法的思想就是把场景分成很多的小格子,然后计算每一个小格子里面的光照(LPV)。如果直接计算每个格子里面的光照那代价也是不可接受的,因此本算法用了一种很巧妙的方式来处理&#xff1…

LPV(Light Propagation Volumes)

lpv 测试了Light Propagation Volumes,全实时没有任何预处理的GI,而且可以适用任意场景。 文档很长,不过基本原理还是比较直白的: 生成reflect shadow map(rsm)。 将rsm信息用SH系数方式注入一个volumetexture中。 …

【GAMES-202实时渲染】4、3D空间全局光照(RSM、LPV、VXGI)

Lec7~8 1、Reflective Shadow Maps(RSM)2、Light Propagation Volumes(LPV)3、Voxel Global Illumination(VXGI) 1、Reflective Shadow Maps(RSM) RSM是一个特别经典的计算全局光照…

lpv

测试了Light Propagation Volumes,全实时没有任何预处理的GI,而且可以适用任意场景。 文档很长,不过基本原理还是比较直白的: 生成reflect shadow map(rsm)。 将rsm信息用SH系数方式注入一个volumetexture中。 在vol…