PageRank算法 -- 从原理到实现

article/2025/9/25 20:10:11

本文整理自博文PageRank算法 – 从原理到实现

1. 算法来源

这个要从搜索引擎的发展讲起。最早的搜索引擎采用的是 分类目录¹的方法，即通过人工进行网页分类并整理出高质量的网站。那时 Yahoo 和国内的 hao123 就是使用的这种方法。

后来网页越来越多，人工分类已经不现实了。搜索引擎进入了 文本检索 的时代，即计算用户查询关键词与网页内容的相关程度来返回搜索结果。这种方法突破了数量的限制，但是搜索结果不是很好。因为总有某些网页来回地倒腾某些关键词使自己的搜索排名靠前。

谷歌的两位创始人，当时还是美国斯坦福大学 (Stanford University) 研究生的佩奇 (Larry Page) 和布林 (Sergey Brin) 开始了对网页排序问题的研究。他们的借鉴了学术界评判学术论文重要性的通用方法，那就是看论文的引用次数。由此想到网页的重要性也可以根据这种方法来评价。于是PageRank的核心思想就诞生了²，非常简单：

如果一个网页被很多其他网页链接到的话说明这个网页比较重要，也就是PageRank值会相对较高
如果一个PageRank值很高的网页链接到一个其他的网页，那么被链接到的网页的PageRank值会相应地因此而提高

就如下图所示（一个概念图）:

在这里插入图片描述

2. 算法原理

PageRank算法³简单来说分为两步：

给每个网页一个PR值（下面用PR值指代PageRank值）
通过（投票）算法不断迭代，直至达到平稳分布为止。

互联网中的众多网页可以看作一个有向图。下图是一个简单的例子

图1-1

由于PR值物理意义上为一个网页被访问概率，所以初始值可以假设为 ${1\over N}$ ，其中N为网页总数。一般情况下，所有网页的PR值的总和为1。（如果不为1的话也不是不行，最后算出来的不同网页之间PR值的大小关系仍然是正确的，只是不能直接地反映概率了。而且公式也不再是本文提供的公式了。详情见此博文。）

A、B、C三个页面都链入D页面，则D的PR值将是A、B、C三个页面PR值的总和：

PR(A)=PR(B)+PR(C)+PR(D)

继续上面的假设，A除了链接到D以外，A还链接了C和B，那么当用户访问 A 的时候，就有跳转到 B、C 或者 D 的可能性，跳转概率均为 1/3。在计算D的PR值时，A的PR值只能投出 $1\over 3$ 的票，B的PR值只能投出 $1\over 2$ 的票，而C只链接到D，所以能投出全票，所以A的PR值总和应为：