Pregel模型

article/2025/9/7 10:44:18

简介

Hadoop兴起之后,google又发布了三篇研究论文,分别阐述了了Caffeine、Pregel、Dremel三种技术,这三种技术也被成为google的新“三驾马车”,其中的Pregel是google提出的用于大规模分布式图计算框架。主要用于图遍历(BFS)、最短路径(SSSP)、PageRank计算等等计算。
Pregel计算模式中,输入是一个有向图,该有向图的每一个顶点都有一个相应的独一无二的顶点id (vertex identifier)。每一个顶点都有一些属性,这些属性可以被修改,其初始值由用户定义。每一条有向边都和其源顶点关联,并且也拥有一些用户定义的属性和值,并同时还记录了其目的顶点的ID。

一个典型的Pregel计算过程如下:读取输入,初始化该图,当图被初始化好后,运行一系列的supersteps,每一次superstep都在全局的角度上独立运行,直到整个计算结束,输出结果。

pregel中顶点有两种状态:活跃状态(active)和不活跃状态(halt)。如果某一个顶点接收到了消息并且需要执行计算那么它就会将自己设置为活跃状态。如果没有接收到消息或者接收到消息,但是发现自己不需要进行计算,那么就会将自己设置为不活跃状态。这种机制的描述如下图:



计算过程

Pregel中的计算分为一个个“superstep”,这些”superstep”中执行流程如下:
1、 首先输入图数据,并进行初始化。
2、 将每个节点均设置为活跃状态。每个节点根据预先定义好的sendmessage函数,以及方向(边的正向、反向或者双向)向周围的节点发送信息。
3、 每个节点接收信息如果发现需要计算则根据预先定义好的计算函数对接收到的信息进行处理,这个过程可能会更新自己的信息。如果接收到消息但是不需要计算则将自己状态设置为不活跃。
4、 每个活跃节点按照sendmessage函数向周围节点发送消息。
5、 下一个superstep开始,像步骤3一样继续计算,直到所有节点都变成不活跃状态,整个计算过程结束。
下面以一个具体例子来说明这个过程:假设一个图中有4个节点,从左到右依次为第1/2/3/4个节点。圈中的数字为节点的属性值,实线代表节点之间的边,虚线是不同超步之间的信息发送,带阴影的圈是不活跃的节点。我们的目的是让图中所有节点的属性值都变成最大的那个属性值。

 

superstep 0:首先所有节点设置为活跃,并且沿正向边向相邻节点发送自身的属性值。
Superstep 1:所有节点接收到信息,节点1和节点4发现自己接受到的值比自己的大,所以更新自己的节点(这个过程可以看做是计算),并保持活跃。节点23没有接收到比自己大的值,所以不计算、不更新。活跃节点继续向相邻节点发送当前自己的属性值。
Superstep 2:节点3接受信息并计算,其它节点没接收到信息或者接收到但是不计算,所以接下来只有节点3活跃并发送消息。
Superstep 3:节点24接受到消息但是不计算所以不活跃,所有节点均不活跃,所以计算结束。
pregel计算框架中有两个核心的函数:sendmessage函数和F(Vertex)节点计算函数。


过程详解

接下来详解这个过程:
在调用pregel方法时,initialGraph会被隐式转换成GraphOps类,这个类中pregel方法的源码如下:

    def pregel[A: ClassTag](  initialMsg: A,  maxIterations: Int = Int.MaxValue,  activeDirection: EdgeDirection = EdgeDirection.Either)(  vprog: (VertexId, VD, A) => VD,  sendMsg: EdgeTriplet[VD, ED] => Iterator[(VertexId, A)],  mergeMsg: (A, A) => A)  : Graph[VD, ED] = {  Pregel(graph, initialMsg, maxIterations, activeDirection)(vprog, sendMsg, mergeMsg)  }  
这个方法采用的是典型的柯里化定义方式,第一个括号中的参数序列分别为initialMsg、maxIterations、activeDirection。第一个参数initialMsg表示第一次迭代时即superstep 0,每个节点接收到的消息。maxIterations表示迭代的最大次数,activeDirection表示消息发送的方向,该值为EdgeDirection类型,这是一个枚举类型,有三个可能值:EdgeDirection.In/ EdgeDirection.Out/ EdgeDirection.Either.可以看到,第二和第三个参数都有默认值。
第二个括号中参数序列为三个函数,分别为vprog、sendMsg和mergeMsg。
vprog是节点上的用户定义的计算函数,运行在单个节点之上,在superstep 0,这个函数会在每个节点上以初始的initialMsg为参数运行并生成新的节点值。在随后的超步中只有当节点收到信息,该函数才会运行。
sendMsg在当前超步中收到信息的节点用于向相邻节点发送消息,这个消息用于下一个超步的计算。
mergeMsg用于聚合发送到同一节点的消息,这个函数的参数为两个A类型的消息,返回值为一个A类型的消息。
最后调用Pregel对象的apply方法返回一个graph对象。

Apply方法的源码如下,我们可以看到graph和计算的参数都被传过来了:


    def apply[VD: ClassTag, ED: ClassTag, A: ClassTag]  (graph: Graph[VD, ED],  initialMsg: A,  maxIterations: Int = Int.MaxValue,  activeDirection: EdgeDirection = EdgeDirection.Either)  (vprog: (VertexId, VD, A) => VD,  sendMsg: EdgeTriplet[VD, ED] => Iterator[(VertexId, A)],  mergeMsg: (A, A) => A)  : Graph[VD, ED] =  {  //要求最大迭代数大于0,不然报错。  require(maxIterations > 0, s"Maximum number of iterations must be greater than 0," +  s" but got ${maxIterations}")  //第一次迭代,对每个节点用vprog函数计算。  var g = graph.mapVertices((vid, vdata) => vprog(vid, vdata, initialMsg)).cache()  // 根据发送、聚合信息的函数计算下次迭代用的信息。  var messages = GraphXUtils.mapReduceTriplets(g, sendMsg, mergeMsg)  //数一下还有多少节点活跃  var activeMessages = messages.count()  // 下面进入循环迭代  var prevG: Graph[VD, ED] = null  var i = 0  while (activeMessages > 0 && i < maxIterations) {  // 接受消息并更新节点信息  prevG = g  g = g.joinVertices(messages)(vprog).cache()  val oldMessages = messages  // Send new messages, skipping edges where neither side received a message. We must cache  // messages so it can be materialized on the next line, allowing us to uncache the previous  /*iteration这里用mapReduceTriplets实现消息的发送和聚合。mapReduceTriplets的*参数中有一个map方法和一个reduce方法,这里的*sendMsg就是map方法,*mergeMsg就是reduce方法 */  messages = GraphXUtils.mapReduceTriplets(  g, sendMsg, mergeMsg, Some((oldMessages, activeDirection))).cache()  // The call to count() materializes `messages` and the vertices of `g`. This hides oldMessages  // (depended on by the vertices of g) and the vertices of prevG (depended on by oldMessages  // and the vertices of g).  activeMessages = messages.count()  logInfo("Pregel finished iteration " + i)  // Unpersist the RDDs hidden by newly-materialized RDDs  oldMessages.unpersist(blocking = false)  prevG.unpersistVertices(blocking = false)  prevG.edges.unpersist(blocking = false)  // count the iteration  i += 1  }  messages.unpersist(blocking = false)  g  } // end of apply  


GraphX中的单源点最短路径例子,使用的是类Pregel的方式。


核心部分是三个函数:

1.节点处理消息的函数  vprog: (VertexId, VD, A) => VD (节点id,节点属性,消息) => 节点属性

2.节点发送消息的函数 sendMsg: EdgeTriplet[VD, ED] => Iterator[(VertexId,A)]   (边元组) => Iterator[(目标节点id,消息)]

3.消息合并函数 mergeMsg: (A, A) => A)    (消息,消息) => 消息


    package myclass.GraphX  import org.apache.spark.graphx._  import org.apache.spark.SparkContext  // Import random graph generation library  import org.apache.spark.graphx.util.GraphGenerators  /**  * Created by jack on 3/4/14.  */  object Pregel {  def main(args: Array[String]) {  val sc = new SparkContext("local", "pregel test", System.getenv("SPARK_HOME"), SparkContext.jarOfClass(this.getClass))  // A graph with edge attributes containing distances  //初始化一个随机图,节点的度符合对数正态分布,边属性初始化为1  val graph: Graph[Int, Double] =  GraphGenerators.logNormalGraph(sc, numVertices = 10).mapEdges(e => e.attr.toDouble)  graph.edges.foreach(println)  val sourceId: VertexId = 4 // The ultimate source  // Initialize the graph such that all vertices except the root have distance infinity.  //初始化各节点到原点的距离  val initialGraph = graph.mapVertices((id, _) => if (id == sourceId) 0.0 else Double.PositiveInfinity)  val sssp = initialGraph.pregel(Double.PositiveInfinity)(  // Vertex Program,节点处理消息的函数,dist为原节点属性(Double),newDist为消息类型(Double)  (id, dist, newDist) => math.min(dist, newDist),  // Send Message,发送消息函数,返回结果为(目标节点id,消息(即最短距离))  triplet => {  if (triplet.srcAttr + triplet.attr < triplet.dstAttr) {  Iterator((triplet.dstId, triplet.srcAttr + triplet.attr))  } else {  Iterator.empty  }  },  //Merge Message,对消息进行合并的操作,类似于Hadoop中的combiner  (a, b) => math.min(a, b)  )  println(sssp.vertices.collect.mkString("\n"))  }  }  
首先将所有除了源顶点的其它顶点的属性值设置为无穷大,源顶点的属性值设置为0.
Superstep 0:然后对所有顶点用initialmsg进行初始化,实际上这次初始化并没有改变什么。
Superstep 1 :对于每个triplet:计算triplet.srcAttr + triplet.attr 和 triplet.dstAttr比较,以第一次为例:假设有一条边从0到a,这时就满足triplet.srcAttr + triplet.attr < triplet.dstAttr,这个triplet.attr的值实际上为1(没有自己指定,默认值都是1),而0的attr值我们早已初始化为0,0+1<无穷,所以发出的消息就是(a,1)这个在每个triplet中是从src发放dst的。如果某个边是从3到5,那么triplet.srcAttr + triplet.attr < triplet.dstAttr就不成立,因为无穷大加1等于无穷大,这时消息就是空的。Superstep 1就是这样,这一步执行完后图中所有的与0直接相连的点的attr都成了1而且成为获跃节点,其它点的attr不变同时变成不活跃节点。活结点根据triplet.srcAttr + triplet.attr < triplet.dstAttr继续发消息,mergeMsg函数会对发送到同一节点的多个消息进行聚合,聚合的结果就是最小的那个值。
Superstep 2:所有收到消息的节点比较自己的attr和发过来的attr,将较小的值作为自己的attr。然后自己成为活节点继续向周围的节点发送attr+1这个消息,然后再聚合。
直到没有节点的attr被更新,不再满足activeMessages > 0 && i < maxIterations (活跃节点数为大于0且没有达到最大允许迭代次数)。这时就得到节点0到其它节点的最短路径了。这个路径值保存在其它节点的attr中。


 


http://chatgpt.dhexx.cn/article/q59QL01k.shtml

相关文章

Spark Graphx Pregel(pregel参数详解,pregel调用实现过程的详细解释)

Spark Graphx Pregel 一.Pregel概述1.什么是pregel&#xff1f;2.pregel应用场景 二.Pregel源码及参数解释1.源码2.参数详细解释&#xff08;1&#xff09;initialMsg&#xff08;2&#xff09;maxIteration&#xff08;3&#xff09;activeDirection&#xff08;4&#xff09;…

2020.11.26课堂笔记(sparkGraphx算法之pregel)

参考博客&#xff1a;https://blog.csdn.net/hanweileilei/article/details/89764466 大佬博客写的很详细&#xff0c;不用继续看这篇了&#xff0c;随便写一些记录一下。 Pregel框架&#xff1a; Pregel是一种面向图算法的分布式编程框架&#xff0c;采用迭代的计算模型&…

Pregel(图计算)技术原理

图计算简介 图结构数据&#xff1a; 许多大数据都是以大规模图或网络的形式呈现。许多非图结构的大数据&#xff0c;也常常会被转换为图模型后进行分析。图数据结构很好地表达了数据之间的关联性。关联性计算是大数据计算的核心——通过获得数据的关联性&#xff0c;可以从噪…

python bar函数

bar(left, height, width, color, align, yerr)函数&#xff1a;绘制柱形图。left为x轴的位置序列&#xff0c;一般采用arange函数产生一个序列&#xff1b;height为y轴的数值序列&#xff0c;也就是柱形图的高度&#xff0c;一般就是我们需要展示的数据&#xff1b;width为柱形…

C++ 函数模板

函数模板是通用的函数描述&#xff0c;它们使用泛型来定义函数&#xff0c;其中的泛型可用具体的类型替换。通过将类型作为参数传递给模板&#xff0c;可使编译器生成该类型的函数。由于模板允许以泛型&#xff08;而不是具体类型&#xff09;的方式编写程序&#xff0c;因此有…

lead窗口函数

lead函数在Impala中可以配合over使用&#xff0c;lead函数有三个参数 lead(property,num,default) 第一个参数「property」标识想查询的列&#xff0c;「num」标识相对于当前行的第num行&#xff0c;第三个参数是默认值。 举例&#xff1a; -- 建表 CREATE TABLE test(id s…

C++ 仿函数

文章目录 1.由来2.定义3.实例参考文献 1.由来 我们先从一个非常简单的问题入手&#xff0c;来了解为什么要有仿函数。 假设我们现在有一个数组&#xff0c;数组中存有任意数量的数字&#xff0c;我们希望能够统计出这个数组中大于 10 的数字的数量&#xff0c;你的代码很可能…

心形函数的几种表达式

用两个函数表示&#xff1a; f(x)sqrt(1-(abs(x)-1)^2) h(x)-2*sqrt(1-0.5*abs(x)) 也可以根据图中的q(x)画出心形的内部&#xff1a; q(x)(f(x)-h(x))/2*cos(200*x)(f(x)h(x))/2 带入得&#xff1a; 用一个函数表示&#xff0c;我拟合了很久才画出来的&#xff1a; f(x)…

共轭函数

共轭函数在最近火的不行的Gan生成对抗神经网络进阶版本的数学推理中有着神奇的作用&#xff0c;因此在这边记录下。 共轭函数的定义为&#xff1a; f ∗ ( t ) max ⁡ x ∈ dom ⁡ ( f ) { x t − f ( x ) } f ^ { * } ( t ) \max _ { x \in \operatorname { dom } ( f ) }…

高斯函数解析

高斯函数广泛应用于统计学领域&#xff0c;用于表述正态分布&#xff0c;在信号处理领域&#xff0c;用于定义高斯滤波器&#xff0c;在图像处理领域&#xff0c;二维高斯核函数常用于高斯模糊&#xff0c;在数学领域&#xff0c;主要用于解决热力方程和扩散方程。 https://blo…

PostgreSQL 函数

PostgreSQL 函数 函数的定义 使用函数&#xff0c;可以极大的提高用户对数据库的管理效率。函数表示输入参数表示一个具有特定关系的值。 一、数学函数 绝对值函数、三角函数、对数函数、随机函数等&#xff0c;当有错误产生时&#xff0c;数学函数会返回null值。 二、函数…

EXCEL IFS函数简单使用

IFS函数的使用&#xff1a; 在学生成绩以及绩效考核中&#xff0c;我们需要对每个范围的成绩打分。比如【A】,【B】,【C】,【D】。可以使用【IFS()函数】完成操作。 1&#xff1a;选择单元格【C2】&#xff0c;输入【】&#xff0c;点击【fx】&#xff0c;弹出【插入函数】对话…

函数的返回值

1.什么是函数的返回值? print 和 return 的区别,print 仅仅是打印在控制台,而 return 则是将 return 后面的部分作为返回值作为函数的输出 可以用变量接走,继续使用该返回值做其它事 函数需要先定义后调用,函数体中 return 语句的结果就是返回值 如果一个函数没有 reutrn…

反双曲函数

Chapter10&#xff1a;反双曲函数 10.3 反双曲函数10.3.1 反双曲正弦函数【 yarsinh(x) 】反双曲正弦函数图像反双曲正弦函数的指数形式反双曲正弦函数的对数形式推导反双曲正弦函数的导数推导 10.3.2 反双曲余弦函数【 yarcosh(x) 】反双曲余弦函数图像反双曲余弦函数的指数形…

损失函数作用

前言&#xff1a;损失函数是机器学习里最基础也是最为关键的一个要素&#xff0c;通过对损失函数的定义、优化&#xff0c;就可以衍生到我们现在常用的机器学习等算法中 损失函数的作用&#xff1a;衡量模型模型预测的好坏。 正文&#xff1a; 首先我们假设要预测一个公司某商品…

Python自定义函数

一、自定义函数的固定语句 def contrast(a,b) : #使用def来定义一个名称为contrast的方法,a与b的值是两个变量&#xff0c;称为形参if a>b : #使用条件语句进行判定return a #返回a的值elif b>a :return b #返回b的值else:return (ab) …

可测函数

1 定义 可测函数:设是定义在可测集上的实函数,称为上的可测函数,如果满足: a])=b_{a})" class="mathcode" src="https://private.codecogs.com/gif.latex?%5Cforall%20a%5Cin%20R%2C%20%7Ca%7C%20%3C%20&plus;%5Cinfty%2C%5Cexists%20b_%7Ba%7D…

虚函数详解

文章目录 一、多态与重载1、多态的概念2、重载---编译期多态的体现3、虚函数---运行期多态的体现 二、虚函数实例三、虚函数的实现&#xff08;内存布局&#xff09;1、无继承情况2、单继承情况&#xff08;无虚函数覆盖&#xff09;3、单继承情况&#xff08;有虚函数覆盖&…

Java教程之NIO的基本用法

NIO的基本用法 NIO是New I/O的简称&#xff0c;与旧式基于流的I/O相对&#xff0c;从名字上来看&#xff0c;它表示新的一套I/O标准。它是从JDK1.4中被纳入到JDK中的。 与旧式的IO流相比&#xff0c;NIO是基于Block的&#xff0c;它以块为单位来处理数据&#xff0c;最为重要…

关于vp8,vp8与264比较总结

1 Other Codecs l MSN 使用的video codec “x-rtvc1”,09之前的版本使用的ML20.参考网址&#xff1a; http://www.amsn-project.net/forums/index.php?topic6612.0 l Yahoo messenger 使用GIPS的LSVX codec. l 这两个codecs技术保密性强&#xff0c;找不到有用的信息&#xff…