PageRank算法浅析

article/2025/9/25 19:20:21

转载请注明出处!!!http://blog.csdn.net/zhonghuan1992

本文是根据 Topic-Sensitive PageRank 

Google’s PageRank:The Math Behind the Search Engine  

http://blog.csdn.net/hguisu/article/details/7996185

http://blog.codinglabs.org/articles/intro-to-pagerank.html

前两篇是关于pagerank的两篇超赞的论文和后两个博客的关于pagerank的理解,然后我总结了一下,再加上一些自己的理解。真诚感谢上面的作者。

1. PageRank提出背景

      PageRank,即网页排名,又称网页级别、Google左侧排名或佩奇排名。

PageRank,网页排名,又称网页级别、Google左侧排名或佩奇排名,是一种由搜索引擎根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google公司创办人拉里·佩奇(Larry Page)之姓来命名。Google用它来体现网页的相关性和重要性,在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。Google的创始人拉里·佩奇和谢尔盖·布林于1998年在斯坦福大学发明了这项技术。(摘自维基百科)

先说一下PageRank提出的背景吧,一开始搜索引擎出来的时候,可不是像现在我们看到的这样神奇,大部分的搜索,我们都可以在前几页找到我们想要的网页。不过等一下,不要我说到这里,大家就觉得PageRank如此神奇,就是它帮助我们搜到自己想要的东西的,回答是,当然不完全是,如今的搜索结果是经过很多加权得来的,pageRank肯定是起到作用的,究竟多少,这就不得而知了。pageRank当时提出来,一是为了提高搜索结果的正确性(这是大头),而是可以应对那个时候网站为了提高自己在某些关键词的排名而做出的一些不好的举措。在pageRank出来前,网络上的排名很大程度上依靠关键词的出现的次数,这就导致了一些问题,你懂得。只要网页关键词多点,那么就。。。当然,pageRank并非万能,但是却是结果优化了很多。

google的两个创世人,就想如何能够将重要的网址,人们想要的网址排在前面。他们从论文索引次数得到了启发,好的论文,引用次数肯定是高的。就这样,pageRank就被创建了。当然正如很多注明历史一样,我们说得轻巧,其实过程是不容易的。

2. PageRank算法

pageRank算法上面已经介绍了是从论文引用次数得到启发,那么具体是怎么样呢?其实聪明的你应该能够有所思考这样的方式了(maybe you are next page)一个网页,大都在页面上有转向其它页面的链接,就想本文开头就有四个链接一样,大多数页面也是有转进来的。其实,就可以将网页之间的关系,转向成为一个有向图,有向图的基本概念是阅读下文的前提,如果你还没有接触过,那么请自行了解。

- ---- 图 1

1是一个有向图,你也可以看成是网页之间的关系。如果网页A有指向网页B的链接,那么A就有一条指向B的有向边。从图中可以看出,网页A分别有指向B,C,D的边,D会自己指向自己的链接,其它的就不多说啦。

好滴,模型转化完毕,接下来就是如何得到我们的结果,pageRank算法,将每一个网页根据链接关系来进行分级,越重要的网页,越多网页会链接到它,那么他的评分必定更高,可是pageRank是如何来利用有向图的拓扑结构计算网页的重要分数的呢?

从图1可以看出,c的概率等于1/3A+1/2 B,(由指向它的边决定)

那么我们的每个页面的概率,就可以用上面指向它的边的概率进行推导得出了。

令Wi表示第i个页面,Ni表示Wi页面上的对外连接数,然后我们需要进行推算了,怎么推,其实求网页的重要性的过程就好像一个马尔科夫的过程,我们的重要性,其实可以用用户需要访问Wi的概率进行描述,然后,有两个假设,一:开始所有页面的概率都是相同的;二:用户当前在Wi页面,那么用户访问Wi页面上的外连接网页的概率都是1/Ni。然后概率的转移方式就是这样的:

表示第n次迭代的时候,第i个网页的被访问概率;表示第j个网页是否有转向第i个网页的链接,有为1,没有为0;

上面的公式,如果转化为矩阵运算,会更简单,令H为矩阵,。上面的递推公式转化为:


所以只要给个P(0)就可以算出Pn了,那么P0,根据假设一,是1/(所有网页数),假设所有网页开始的概率相同嘛。然后开始计算,当P趋于稳定时,我们的任务便完成了。

说到这里可能读者会觉得有点模糊。想一下,怎么衡量网页符合用户的需求,自然会想到他访问该网页的概率,概率如何进行好的计算,我们可以用有向图上的关系来进行递推,概率转化关系就是这样进行的。

不过到这里,我们的转移方式还是不完美,为什么呢,因为最后面有一些网页的没有入边,没有出边,还有一些其他问题,比如两个网页,互相连接,那么两个网页的概率不会趋于稳定,反倒是(1,0)-->(0,1)-->(1,0)-->(0,1)这样反复震荡。为了克服这些个问题。引入了修正因子,其实我也并不太了解的数学性质,它存在的意义可以理解为概率。了解更多,可以看这里,原公式就变为了这样了:


G是替代H的新的转移矩阵,这里的a表示网页i是否是孤立的节点(可怜的没有人链接)的,如果i是则ai=1,否则为0;

可以从概率的角度上说,用户有的概率通过网页上的链接访问新的网页,或者的概率通过输入新的网址(而不是点击链接)访问网页。


新的转移方式,可以确保能够得到收敛。

就这样了,如果您发现文章有问题,请留言告诉我






http://chatgpt.dhexx.cn/article/fLU3dk5H.shtml

相关文章

PageRank 算法详解

转载自:https://blog.csdn.net/m0_37786726/article/details/79864012 参考文献:https://blog.csdn.net/androidlushangderen/article/details/43311943 链接分析 在链接分析中有2个经典的算法,1个是PageRank算法,还有1个是HITS…

数据挖掘十大算法:PageRank算法原理及实现

一、PageRank的概念 PageRank,网页排名, 是一种由根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一, 它由Larry Page 和 Sergey Brin在20世纪90年代后期发明,并以拉里佩吉(Larry Page&#xf…

PageRank 算法及实例分析

本文一部分是针对图的PageRank 的实现,以及具体数据集的分析过程的记录。 另一部分是BFS的实现,并记录每一层的节点数。 数据集下载地址 soc-Slashdot0811 、 roadNet-CA 、 soc-LiveJournal1 1. java 实现代码 Main.java import java.util.List;pu…

PageRank算法(二)

原文地址:https://blog.csdn.net/monkey_d_meng/article/details/6556295 说明:这是我学习过程中看到对PageRank来龙去脉解释非常清晰的博客,博主很厉害,大家可以关注一下原创作者! 一、PageRank算法的简单举例 Goo…

PageRank 算法实现

大数据管理与分析实验报告 实验一 大数据系统基本实验 实验二 文档倒排索引算法实现 实验三 PageRank 算法实现 实验目的 PageRank 网页排名的算法,曾是Google 发家致富的法宝。用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。通过对PageRank 的…

(简单介绍)PageRank算法

文章目录 前言引入形式化PageRank 前言 这个是一个经典算法,还是有必要了解的,这里由于讲得不会很详细,所以要求你有一点数学知识,如果有,看完这篇就大概明白PageRank是个啥了。本篇不涉及证明之类的,而是…

算法--PageRank

概念 PageRank是Google提出的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。是Google创始人拉里佩奇和谢尔盖布林于1997年创造的PageRank实现了将链接价值概念作为排名因素。 GOOGLE PageRank并不是唯一的链接相关的排名算法,而…

pagerank以及个性化的pagerank算法

pagerank以及个性化的pagerank算法 pagerank最开始是Google提出来用来衡量网页重要度排行的算法。 她的思想是基于网页之间互相的链接作为加权投票。假如网页a指向b, 那么网页b的重要程度受网页a的影响,a越重要,则b就越重要。假如网页c也指…

PageRank算法原理详解

 转自:http://blog.csdn.net/hguisu/article/details/7996185 1. PageRank算法概述 PageRank,即网页排名,又称网页级别、Google左侧排名或佩奇排名。 是Google创始人拉里佩奇和谢尔盖布林于1997年构建早期的搜索系统原型时提出…

PageRank算法改进

PageRank算法的应用 PageRank 算法是 Google 搜索引擎进行网页排名的一种算法,那么它如何映射到其他领域? 比如,我们如何在文献排名中应用PageRank算法呢? 对文献的质量进行排序是对文献价值进行评估的一种重要手段&#xff0c…

什么是Pagerank?Pagerank算法介绍与计算公式

一、什么是Pagerank? PageRank,网页排名,又称网页级别、Google左侧排名或佩奇排名,是一种由根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,而我们SEO简称为PR,以Google公司创办…

PageRank算法 -- 从原理到实现

本文整理自博文PageRank算法 – 从原理到实现 1. 算法来源 这个要从搜索引擎的发展讲起。最早的搜索引擎采用的是 分类目录1的方法,即通过人工进行网页分类并整理出高质量的网站。那时 Yahoo 和国内的 hao123 就是使用的这种方法。 后来网页越来越多,人工分类已经不现实了…

第4关: 网页排序——PageRank算法

要求:编写实现网页数据集PageRank算法的程序,对网页数据集进行处理得到网页权重排序。 ####相关知识 ######PageRank算法原理 1.基本思想: 如果网页T存在一个指向网页A的连接,则表明T的所有者认为A比较重要,从而把T的一…

PageRank算法--从原理到实现

本文将介绍PageRank算法的相关内容,具体如下: 算法来源算法原理算法证明PR值计算方法 1 幂迭代法2 特征值法3 代数法 算法实现 1 基于迭代法的简单实现2 MapReduce实现 PageRank算法的缺点写在最后参考资料 1. 算法来源 这个要从搜索引擎的发展讲起。最…

PageRank算法原理与实现

正文共835个字,8张图,预计阅读时间6分钟。 1、PageRank 1.1.简介 PageRank,又称网页排名、谷歌左侧排名,是一种由搜索引擎根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google公司创办人…

PageRank算法原理及代码

本文内容出自帅器学习的课程内容,讲得原理清晰,概念深入,链接: PANKRANK算法视频 另有一篇知乎文章,PAGERANK讲得系统透彻,链接在此:关键词提取和摘要算法TextRank详解与实战 PAGERANK算法是一…

PageRank算法 -- 图算法

一、简述: PageRank算法是一个迭代求解算法,可以处理网页排名(根据网页的重要性进行排序)、社会影响力分析、文本摘要 等问题。 PageRank算法在1996年由Page和Brin提出 PageRank适用于解决用有向图表示的图数据 二、各节点重要性…

PageRank算法

一、算法原理: 1、如果一个网页被很多其他网页链接到的话说明这个网页比较重要,也就是PageRank值会相对较高 2、如果一个PageRank值很高的网页链接到一个其他的网页,那么被链接到的网页PageRank值也会相应提高。 例子: 如果一…

pagerank算法详解

目录 一、pagerank简介两个重要假设 二、pagerank算法公式定义计算演示矩阵化计算 三、存在的两个问题问题1.Dead Ends问题2.Spider Traps 一、pagerank简介 PageRank算法的基本想法是在有向图上定义一个随机游走模型,即一阶马尔可夫链,描述随机游走者沿…

整车CAN网络拓扑图

什么是智能硬件与ECU ? 何为智能硬件, 就是包含智能控制单元的硬件, 比如发动机, 发动机上有一块儿专门负责控制发动机进气量, 喷油量, 排气量的控制单元, 这块单元相当于发动机的大脑. 他具有信号发送, 信号接收, 参数存储等基本功能, 这个控制单元就是ECU. ECU(Electronic …