算法--PageRank

article/2025/9/25 19:25:53

概念

PageRank是Google提出的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。是Google创始人拉里·佩奇和谢尔盖·布林于1997年创造的PageRank实现了将链接价值概念作为排名因素。

GOOGLE PageRank并不是唯一的链接相关的排名算法,而是最为广泛使用的一种。其他算法还有:

  1. Hilltop 算法
  2. ExpertRank
  3. HITS
  4. TrustRank

思考超链接在互联网中的作用

入链 ====投票

PageRank让链接来“投票“,到一个页面的超链接相当于对该页投一票。

入链数量

如果一个页面节点接收到的其他网页指向的入链数量越多,那么这个页面越重要。

入链质量

指向页面A的入链质量不同,质量高的页面会通过链接向其他页面传递更多的权重。所以越是质量高的页面指向页面A,则页面A越重要。

案例分析 pagerank  PR值

站在A的角度

需要将自己的PR值分给B,D

站在B的角度

收到来自A,C,D的PR值

 

迭代计算使PR值收敛于稳定值

 

算法实现

初始值

             Google的每个页面设置相同的PR值

             pagerank算法给每个页面的PR初始值为1。

迭代计算(收敛)

    Google不断的重复计算每个页面的PageRank。那么经过不断的重复计算,这些页面的PR值会趋向于稳定,也就是收敛的状态。

在具体企业应用中怎么样确定收敛标准?

  1. 每个页面的PR值和上一次计算的PR相等
  2. 设定一个差值指标(0.0001)。当所有页面和上一次计算的PR差值平均小于该标准时,则收敛。

PRa - PRa' = |Δ|

  1. 设定一个百分比(99%),当99%的页面和上一次计算的PR相等

算法修正

站在互联网的角度:

        只出,不入:PR会为0

        只入,不出:PR会很高

        直接访问网页

修正PageRank计算公式

增加阻尼系数

在简单公式的基础上增加了阻尼系数(damping factor)d,一般取值d=0.85。
完整PageRank计算公式

        d:阻尼系数

        M(i):指向i的页面集合

        L(j):页面的出链数

        PR(pj):j页面的PR值

        n:所有页面数

数据

A       B       D

B       C

C       A       B

D      B       C

计算ABCD的PR值

B 1/2

D 1/2

A       B       D

分组:所有指向第i个页面的页面的PR值之和。

将所有指向第i个页面的页面分为一组,reduce中迭代计算。

PR初始值是1

L的值

<偏移量,    A        B       D>

A->B

A->D

PRΔB=1/2

PRΔD=1/2

A       B       D

B       C

PRΔC=1

C       A       B

PRΔB=1/2

PRΔA=1/2

D      B       C

PRΔB=1/2

PRΔC=1/2

REDUCE:

PRΔB=1/2

PRΔB=1/2

PRΔB=1/2

PRΔD=1/2

PRΔA=1/2

<A,1/2>

<A,B\tD>

<A,1/2\tB\tD>

PRΔC=1/2

PRΔC=1

<PRA,1/2>

<PRB,3/2>

<PRC,3/2>

<PRD,1/2>

A       1/2   B       D

B       3/2   C

C       3/2   A       B

D      1/2   B       C

输出结果包含:指向关系和PR值

A       1/2   B       D

<B,1/4>

<D,1/4>

<A,1/2      B       D>

解题思路

**MR原语不被破坏

PR计算是一个迭代的过程,首先考虑一次计算

思考:

页面包含超链接

每次迭代将pr值除以链接数后得到的值传递给所链接的页面

so:每次迭代都要包含页面链接关系和该页面的pr值

mr:相同的key为一组的特征

map:

1,读懂数据:第一次附加初始pr值

2,映射k:v

1,传递页面链接关系,key为该页面,value为页面链接关系

2,计算链接的pr值,key为所链接的页面,value为pr值

reduce:

*,按页面分组

1,两类value分别处理

2,最终合并为一条数据输出:key为页面&新的pr值,value为链接关系


http://chatgpt.dhexx.cn/article/s9E0qx72.shtml

相关文章

pagerank以及个性化的pagerank算法

pagerank以及个性化的pagerank算法 pagerank最开始是Google提出来用来衡量网页重要度排行的算法。 她的思想是基于网页之间互相的链接作为加权投票。假如网页a指向b&#xff0c; 那么网页b的重要程度受网页a的影响&#xff0c;a越重要&#xff0c;则b就越重要。假如网页c也指…

PageRank算法原理详解

&#xfeff;&#xfeff; 转自&#xff1a;http://blog.csdn.net/hguisu/article/details/7996185 1. PageRank算法概述 PageRank,即网页排名&#xff0c;又称网页级别、Google左侧排名或佩奇排名。 是Google创始人拉里佩奇和谢尔盖布林于1997年构建早期的搜索系统原型时提出…

PageRank算法改进

PageRank算法的应用 PageRank 算法是 Google 搜索引擎进行网页排名的一种算法&#xff0c;那么它如何映射到其他领域&#xff1f; 比如&#xff0c;我们如何在文献排名中应用PageRank算法呢&#xff1f; 对文献的质量进行排序是对文献价值进行评估的一种重要手段&#xff0c…

什么是Pagerank?Pagerank算法介绍与计算公式

一、什么是Pagerank&#xff1f; PageRank&#xff0c;网页排名&#xff0c;又称网页级别、Google左侧排名或佩奇排名&#xff0c;是一种由根据网页之间相互的超链接计算的技术&#xff0c;而作为网页排名的要素之一&#xff0c;而我们SEO简称为PR&#xff0c;以Google公司创办…

PageRank算法 -- 从原理到实现

本文整理自博文PageRank算法 – 从原理到实现 1. 算法来源 这个要从搜索引擎的发展讲起。最早的搜索引擎采用的是 分类目录1的方法,即通过人工进行网页分类并整理出高质量的网站。那时 Yahoo 和国内的 hao123 就是使用的这种方法。 后来网页越来越多,人工分类已经不现实了…

第4关: 网页排序——PageRank算法

要求&#xff1a;编写实现网页数据集PageRank算法的程序&#xff0c;对网页数据集进行处理得到网页权重排序。 ####相关知识 ######PageRank算法原理 1.基本思想&#xff1a; 如果网页T存在一个指向网页A的连接&#xff0c;则表明T的所有者认为A比较重要&#xff0c;从而把T的一…

PageRank算法--从原理到实现

本文将介绍PageRank算法的相关内容&#xff0c;具体如下&#xff1a; 算法来源算法原理算法证明PR值计算方法 1 幂迭代法2 特征值法3 代数法 算法实现 1 基于迭代法的简单实现2 MapReduce实现 PageRank算法的缺点写在最后参考资料 1. 算法来源 这个要从搜索引擎的发展讲起。最…

PageRank算法原理与实现

正文共835个字&#xff0c;8张图&#xff0c;预计阅读时间6分钟。 1、PageRank 1.1.简介 PageRank&#xff0c;又称网页排名、谷歌左侧排名&#xff0c;是一种由搜索引擎根据网页之间相互的超链接计算的技术&#xff0c;而作为网页排名的要素之一&#xff0c;以Google公司创办人…

PageRank算法原理及代码

本文内容出自帅器学习的课程内容&#xff0c;讲得原理清晰&#xff0c;概念深入&#xff0c;链接&#xff1a; PANKRANK算法视频 另有一篇知乎文章&#xff0c;PAGERANK讲得系统透彻&#xff0c;链接在此&#xff1a;关键词提取和摘要算法TextRank详解与实战 PAGERANK算法是一…

PageRank算法 -- 图算法

一、简述&#xff1a; PageRank算法是一个迭代求解算法&#xff0c;可以处理网页排名&#xff08;根据网页的重要性进行排序&#xff09;、社会影响力分析、文本摘要 等问题。 PageRank算法在1996年由Page和Brin提出 PageRank适用于解决用有向图表示的图数据 二、各节点重要性…

PageRank算法

一、算法原理&#xff1a; 1、如果一个网页被很多其他网页链接到的话说明这个网页比较重要&#xff0c;也就是PageRank值会相对较高 2、如果一个PageRank值很高的网页链接到一个其他的网页&#xff0c;那么被链接到的网页PageRank值也会相应提高。 例子&#xff1a; 如果一…

pagerank算法详解

目录 一、pagerank简介两个重要假设 二、pagerank算法公式定义计算演示矩阵化计算 三、存在的两个问题问题1.Dead Ends问题2.Spider Traps 一、pagerank简介 PageRank算法的基本想法是在有向图上定义一个随机游走模型&#xff0c;即一阶马尔可夫链&#xff0c;描述随机游走者沿…

整车CAN网络拓扑图

什么是智能硬件与ECU ? 何为智能硬件, 就是包含智能控制单元的硬件, 比如发动机, 发动机上有一块儿专门负责控制发动机进气量, 喷油量, 排气量的控制单元, 这块单元相当于发动机的大脑. 他具有信号发送, 信号接收, 参数存储等基本功能, 这个控制单元就是ECU. ECU(Electronic …

如何利用CANoe在两路CAN通道之间创建网关(gateway)

1 目的 利用CANoe在两路CAN通道之间创建一个网关&#xff0c;通过CAPL实现CAN1、CAN2通道间的报文转发&#xff0c;并进行故障注入测试&#xff08;通过改变某些信号的值&#xff09;。 &#xff08;本实例仅用于博主学习记录&#xff09; 2 步骤 创建一个两路通道&#xf…

CANoe-如何模拟CAN总线网关通信(满满都是细节)

网络上有不少的文章介绍使用canoe工具模拟网关把can1总线上的报文转发到can2上,那我为什么要写这篇文章呢?大家知道,我的文章不可能完全照搬别人的内容,肯定要夹带私货,有自己的理解的。所以我会从网关在can总线中的工作方式到所起的作用进行分析,学习如何在canoe中实现模…

CAN/CANopen转PROFINET网关TCO-151

型号&#xff1a;TCO-151 基本说明&#xff1a;TCO-151可实现 PROFINET网络与CANopen或CAN网络之间的数据通信。网关在PROFINET网络作为从站&#xff0c;CANopen端既可以做主站也可以做从站&#xff0c;CAN端支持CAN2.0A/CAN2.0B协议&#xff0c;支持对CAN帧进行过滤处理。 特…

CAN总线网关设备

南京来可电子科有限公司 CAN总线网关设备

嘴哥有料系列-can教程2:CAN网关及CAN信号转发机制

原文章&#xff1a;https://mp.weixin.qq.com/s/qbUcZngSDClx9Ll5aKvlLg 上节课, 我们讲到了CAN网关, 其实准确的说不能叫CAN网关, 应该叫网关或者汽车网关, 因为网关不仅处理CAN网络, 还处理LIN网络. 主要是为了配合本系列教程及区分于以太网网关, 所以才取名叫CAN网关. CAN…

CAN总线车联网透传云网关简介

车联网透传云网关 CANIOT-222W/G车联网透传云网关 功能说明 透传功能&#xff1a;串口透传、网口透传、CAN口透传 云端功能&#xff1a;设备管理、OTA升级、远程调试、远程监控 云平台 主要通过互联网&#xff08;2G/3G/4G&#xff09;将不同区域的车辆或工程机械接入共有…

CAN网关远程OTA升级方案详解(工程机械控制器远程升级)

CAN网关远程OTA升级方案详解 背景&#xff1b; 现今中国基建全面开花&#xff0c;工程车辆的需求量越来越大&#xff0c;工作环境也越来越复杂。工程车辆配置升级需求也越来越多&#xff0c;所需要的的工程师数量也越来越多&#xff0c;导致工程师数量严重不做&#xff0c;影响…