浅谈PageRank算法

article/2025/9/25 19:25:55

@TOC[目录]
PageRank 是 由佩奇(Larry Page)等人提出 的 Google 最为有名的技术之一

PageRank 是一种基于随机游走 的 评价网站权值的算法

总之, PageRank 是一种十分重要的算法 不管在学术界 还是在产业界

Node Similarity(节点相似度)

假设在一个图G(V,E)中研究两个节点u,v之间的相关性
在这里插入图片描述
直观上,u,v之间的相似度高于u,w之间的相似度

可以按计算时用到部分点还是全部点来进行分类

local

Common Neighbors(CN), Jaccard, Adamic-Adar Index

grobal

Personalized PageRank(PPR), SimRank, Katz

事实上 节点相似度在生产过程中有极强的落地场景,尤其是和社交网络分析相关的好友推荐
,另外 还可以运用在 Top-k 的关系发现当中。
在这里插入图片描述

local

CN 算法(common neighbor)

一个节点的邻居集合可以表征这个节点的周围结构

规定:
在这里插入图片描述

Jaccard

单一的数值对于衡量一个节点的相似度, 可能存在尺度标准不统一的情况

故 jaccard 在 CN 的基础上进行了一个归一化的处理

得到
在这里插入图片描述

Adamic-Adar Index

是一种基于节点之间共同邻居的亲密度测算方法。2003年由 Lada Adamic 和 Eytan Adart在 predict links in a social network中提出的,计算亲密度的公式如下:
在这里插入图片描述

global

Naive PageRank

PageRank 的核心思想

  1. 如果一个网页被很多其他网页链接到的话,说明这个网页比较重要,也就是 PageRank 值会相对较高。(很多人推荐你)
  2. 如果一个 PageRank 值很高的网页链接到一个其他的网页,那么链接到的网页的 PageRank 值也会相应地提高。(大佬推荐你的作用更大)

对应PageRank 背后的两个基本假设:

数量假设:更重要的网页可能被更多的网页链接到。
质量假设:有更高的 PageRank 的网页将会传递更高的权重。

PageRank 算法计算每一个网页的 PageRank 值,然后根据这个值的大小对网页的重要性进行排序。它的思想是模拟一个悠闲的上网者,上网者首先随机选择一个网页打开,然后在这个网页上呆了几分钟,跳转到该网页所指向的链接,这样无所事事、漫无目的地在网页上跳来跳去,PageRank 就是估计这个悠闲的上网者分布在各个网页上的概率

PageRank 模型

将整个 Web 被抽象为一张有向图
在这里插入图片描述

转移矩阵

用**转移矩阵(Transition Matrix)**来表示页面以及页面间的连接关系:
在这里插入图片描述
性质:

  • 矩阵的每一列代表一个具体网页的出链,简单地说就是当前网页向其他网页的链接;
  • 矩阵的每一代表一个具体网页的入链,简单地说就是其他网页向当前网页的链接。

在这里插入图片描述

Naive PageRank 计算

在这里插入图片描述
在这里插入图片描述

陷阱问题

在这里插入图片描述
上图中 5、6、7 三个页面构成一个闭环,它们紧密链接成环而没有外出的链接,最终也会导致上网者“深陷于此”。同样的,经过多次跳转,陷阱网页的概率值之和为 1,而其他正常网页的概率值为 0。

随机浏览模型

假定一个上网者从一个随机的网页开始浏览,此时有两种选择:

通过点击当前页面的其他链接开始下一次浏览;
通过在浏览器的地址栏输入新的地址以开启一个新的网页。
其中,上网者通过点击链接开启新页面的概率为 d(d 也称阻尼系数,通常取 0.85)。

此时,PageRank 模型变为:在每一个页面,用户都有 d 的概率通过点击链接进入下一个页面;此外,还有 1 - d 的概率随机跳转,此时跳转到其他页面的概率为 1 / N(当前页面的其他链接数)

参考:

  • 如何一口气理解PageRank
  • 大图中如何快速计算PPR
  • PageRank 笔记

http://chatgpt.dhexx.cn/article/7w7Zyk1x.shtml

相关文章

PageRank算法 到 textRank

1. PageRank算法概述 PageRank,即网页排名,又称网页级别、Google左侧排名或佩奇排名。 是Google创始人拉里佩奇和谢尔盖布林于1997年构建早期的搜索系统原型时提出的链接分析算法,自从Google在商业上获得空前的成功后,该 算法也成为其他搜索引…

PageRank算法浅析

转载请注明出处!!!http://blog.csdn.net/zhonghuan1992 本文是根据 Topic-Sensitive PageRank Google’s PageRank:The Math Behind the Search Engine http://blog.csdn.net/hguisu/article/details/7996185 http://blog.codinglabs.…

PageRank 算法详解

转载自:https://blog.csdn.net/m0_37786726/article/details/79864012 参考文献:https://blog.csdn.net/androidlushangderen/article/details/43311943 链接分析 在链接分析中有2个经典的算法,1个是PageRank算法,还有1个是HITS…

数据挖掘十大算法:PageRank算法原理及实现

一、PageRank的概念 PageRank,网页排名, 是一种由根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一, 它由Larry Page 和 Sergey Brin在20世纪90年代后期发明,并以拉里佩吉(Larry Page&#xf…

PageRank 算法及实例分析

本文一部分是针对图的PageRank 的实现,以及具体数据集的分析过程的记录。 另一部分是BFS的实现,并记录每一层的节点数。 数据集下载地址 soc-Slashdot0811 、 roadNet-CA 、 soc-LiveJournal1 1. java 实现代码 Main.java import java.util.List;pu…

PageRank算法(二)

原文地址:https://blog.csdn.net/monkey_d_meng/article/details/6556295 说明:这是我学习过程中看到对PageRank来龙去脉解释非常清晰的博客,博主很厉害,大家可以关注一下原创作者! 一、PageRank算法的简单举例 Goo…

PageRank 算法实现

大数据管理与分析实验报告 实验一 大数据系统基本实验 实验二 文档倒排索引算法实现 实验三 PageRank 算法实现 实验目的 PageRank 网页排名的算法,曾是Google 发家致富的法宝。用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。通过对PageRank 的…

(简单介绍)PageRank算法

文章目录 前言引入形式化PageRank 前言 这个是一个经典算法,还是有必要了解的,这里由于讲得不会很详细,所以要求你有一点数学知识,如果有,看完这篇就大概明白PageRank是个啥了。本篇不涉及证明之类的,而是…

算法--PageRank

概念 PageRank是Google提出的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。是Google创始人拉里佩奇和谢尔盖布林于1997年创造的PageRank实现了将链接价值概念作为排名因素。 GOOGLE PageRank并不是唯一的链接相关的排名算法,而…

pagerank以及个性化的pagerank算法

pagerank以及个性化的pagerank算法 pagerank最开始是Google提出来用来衡量网页重要度排行的算法。 她的思想是基于网页之间互相的链接作为加权投票。假如网页a指向b, 那么网页b的重要程度受网页a的影响,a越重要,则b就越重要。假如网页c也指…

PageRank算法原理详解

 转自:http://blog.csdn.net/hguisu/article/details/7996185 1. PageRank算法概述 PageRank,即网页排名,又称网页级别、Google左侧排名或佩奇排名。 是Google创始人拉里佩奇和谢尔盖布林于1997年构建早期的搜索系统原型时提出…

PageRank算法改进

PageRank算法的应用 PageRank 算法是 Google 搜索引擎进行网页排名的一种算法,那么它如何映射到其他领域? 比如,我们如何在文献排名中应用PageRank算法呢? 对文献的质量进行排序是对文献价值进行评估的一种重要手段&#xff0c…

什么是Pagerank?Pagerank算法介绍与计算公式

一、什么是Pagerank? PageRank,网页排名,又称网页级别、Google左侧排名或佩奇排名,是一种由根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,而我们SEO简称为PR,以Google公司创办…

PageRank算法 -- 从原理到实现

本文整理自博文PageRank算法 – 从原理到实现 1. 算法来源 这个要从搜索引擎的发展讲起。最早的搜索引擎采用的是 分类目录1的方法,即通过人工进行网页分类并整理出高质量的网站。那时 Yahoo 和国内的 hao123 就是使用的这种方法。 后来网页越来越多,人工分类已经不现实了…

第4关: 网页排序——PageRank算法

要求:编写实现网页数据集PageRank算法的程序,对网页数据集进行处理得到网页权重排序。 ####相关知识 ######PageRank算法原理 1.基本思想: 如果网页T存在一个指向网页A的连接,则表明T的所有者认为A比较重要,从而把T的一…

PageRank算法--从原理到实现

本文将介绍PageRank算法的相关内容,具体如下: 算法来源算法原理算法证明PR值计算方法 1 幂迭代法2 特征值法3 代数法 算法实现 1 基于迭代法的简单实现2 MapReduce实现 PageRank算法的缺点写在最后参考资料 1. 算法来源 这个要从搜索引擎的发展讲起。最…

PageRank算法原理与实现

正文共835个字,8张图,预计阅读时间6分钟。 1、PageRank 1.1.简介 PageRank,又称网页排名、谷歌左侧排名,是一种由搜索引擎根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google公司创办人…

PageRank算法原理及代码

本文内容出自帅器学习的课程内容,讲得原理清晰,概念深入,链接: PANKRANK算法视频 另有一篇知乎文章,PAGERANK讲得系统透彻,链接在此:关键词提取和摘要算法TextRank详解与实战 PAGERANK算法是一…

PageRank算法 -- 图算法

一、简述: PageRank算法是一个迭代求解算法,可以处理网页排名(根据网页的重要性进行排序)、社会影响力分析、文本摘要 等问题。 PageRank算法在1996年由Page和Brin提出 PageRank适用于解决用有向图表示的图数据 二、各节点重要性…

PageRank算法

一、算法原理: 1、如果一个网页被很多其他网页链接到的话说明这个网页比较重要,也就是PageRank值会相对较高 2、如果一个PageRank值很高的网页链接到一个其他的网页,那么被链接到的网页PageRank值也会相应提高。 例子: 如果一…