摘要

异构信息网络(HIN)的嵌入，学习多类型节点的低维表示，得到了广泛的应用，并取得了良好的性能。然而，以往的工作大多侧重于静态HINs或特定快照内的学习节点嵌入，很少关注整个演化过程和捕获所有动态。为了弥补多类型节点嵌入在演化过程中考虑所有时间动态的不足，提出了一种新的时域HIN嵌入方法(THINE)。THINE不仅使用注意机制和元路径来保存HIN中的结构和语义，而且结合Hawkes过程来模拟时间网络的演化。我们对各种真实世界时间HINs的广泛评估表明，在静态和动态任务中，包括节点分类、链接预测和时间链接推荐，THINE都实现了SOTA性能。

1 引言

近年来，网络嵌入以其优异的性能受到越来越多的关注。它将节点映射到低维空间，同时保留网络的特征和结构。Deepwalk [Perozzi et al.， 2014]、LINE [Tang et al.， 2015b]等许多优秀算法已成功应用于各种网络相关任务中，如节点分类、节点聚类、链路预测等。
然而，这些方法都侧重于同质网络，而现实世界中的大多数数据都是具有多种类型节点和关系的异构信息网络(HINs)。例如，一个学术网络一般有三种类型的节点:作者(A)，论文§，会议©;以及多种类型的关系:合著关系、参考文献关系、作者与论文的写/写关系、论文与会议的发表/发表关系。在HIN中，不同类型的节点和边可以产生不同的嵌入，包含更复杂的结构和相互关系。因此，越来越多的研究者开始关注HINs，如PTE [Tang et al.， 2015a]、Metapath2V ec [Dong et al.， 2017]、MAGNN [Fu et al.， 2020]等。
尽管如此，目前的大多数工作都是为静态HIN而提出的，这与实际情况形成了对比，实际情况是HIN会随着时间的推移而发展。例如，在学术网络中，作者可能在不同的年份发表不同的论文，在Yelp中，业务等级根据用户的评论随时间的变化而变化。因此，简单地将一个临时HIN视为静态HIN，不可避免地无法在HIN发生变化时准确捕获结构和语义。
因此，越来越需要了解时序HIN。然而，它面临着两个严重的挑战。首先，如何有效地保持时序HINs中的结构和语义的动态性?动态性描述了HINs在演化过程中节点和边的所有变化，包括节点的添加、边的删除等。因此，准确地捕捉动态性是研究时域HIN的关键。然而，以往的大多数工作，如DHNE [Yin et al.， 2019]，通过简单地将时间划分为几个时间段，利用快照对时序HINs进行建模，这些时间段在快照中会失去动态特性。
另一个挑战是如何捕捉异构节点之间的时间影响?与同构网络不同，HINs包含多种类型的节点和边，因此保留了更复杂的语义和结构。例如，在一个学术网络中，我们通常考虑来自相同类型的节点，如作者或论文的时间影响。此外，在HINs中，我们还应考虑不同类型节点的时间效应，如作者论文。但由于模拟异构节点之间的影响较为困难，以往的研究大多只考虑同一类型节点的时间影响，如HDGAN [Li et al.， 2020]、DyHNE [Wang et al.， 2020]等。

为此，我们提出了一种新的时间HIN嵌入模型——THINE，用于捕获所有类型节点之间的动态特性。我们首先定义各种元路径来捕获HIN的语义和结构。然后，对于特定的下游任务，我们生成与该任务相关的候选元路径集。利用Hawkes过程对节点间的时间影响进行建模，得到每个节点的嵌入情况。此外，还应用了两个层次的注意机制来区分各方面的权重。一种是针对不同类型的元路径，另一种是针对相邻节点的距离。在各种真实数据集上的实验表明，与几种SOTA方法相比，我们的THINE在静态和动态任务中都表现得更好。
本文贡献总结如下：

我们通过考虑渐进的动态性研究了时域HIN嵌入问题。
我们提出了一种新的时态HIN嵌入模型，该模型使用元路径捕获HIN的结构和语义信息，利用Hawkes过程建模网络演化，并应用两个层次的注意分别捕获结构和语义差异。
在三个真实数据集上的实验结果表明，THINE方法优于几种SOTA方法。

2 相关定义

3 提出的模型

3.1 模型概览

在本节中，我们将解释我们提出的模型的细节，该模型可以捕获HIN的结构和语义，并同时结合时间动态的影响。如图1所示，THINE通过基于元路径的随机游走获得不同类型节点之间的结构相互作用。然后，我们获得每条边的候选元路径集，用Hawkes过程建模时态HIN的动态结构和语义[Hawkes, 1971]。此外，通过结构层面和语义层面的注意机制来区分不同关系的影响，我们对每个节点的影响进行了优化，以获得多类型的节点嵌入。
在这里插入图片描述

3.2 THINE模型

用元路径捕获语义 THINE首先使用基于元路径的随机游走来提取HIN的信息。元路径的构造决定了我们可以捕获什么样的语义和结构。因此，元路径的选择对HINs的研究至关重要。定义元路径的关键是包含尽可能多的语义。例如，对于学术网络，除了考虑前人模型所考虑的作者-论文关系的mate-path外，我们还考虑了论文-论文关系的meta path，写成APPA。总之，表1列出了我们定义的元路径。有了这些元路径，我们可以很好地保留HINs中的语义。此外，网络中的节点和边还受到节点自身和相关候选元路径集的影响。因此，我们基于节点对的影响，对候选集的影响进行建模，以理解时态HIN。
在这里插入图片描述
建模候选元路径集的动态性 此外，我们利用Hawkes过程对候选元路径集的影响进行建模，以捕获时态HIN的语义和结构。一般来说，霍克斯过程被用来模拟过去事件对现在的影响。显然，越老的事件，对今天的影响就越小。特别地，对于THINE，我们对每一个影响都用霍克斯过程加以关注。

5 相关工作

网络嵌入即图嵌入，其目的是在保持网络性质和结构的同时，在低维空间中表示节点。最初，受自然语言处理的启发[Mikolov et al.， 2013]，很多研究者都关注嵌入在网络上的应用。当时的模型主要是利用邻居节点的信息来表示节点，如Deepwalk [Perozzi et al.， 2014]和LINE [Tang et al.， 2015b]。然而，这些方法主要针对同质网络，且没有考虑时间信息。
此后，网络嵌入有了不同的方向:HIN和时态网络。对于HIN，许多方法基于元路径捕获语义和结构[Sun and Han, 2012]，并具有强大的性能(即Meta-path2vec [Dong et al.， 2017]， Han [Wang et al.， 2019])。在时间网络方面，有一些作品采用矩阵分解(DHPE [Zhu et al.， 2018])，还有一些作品将网络划分为不同的快照子图，然后聚合每个子图的信息，如DySA T [Sankar et al.， 2020]。幸运的是，HTNE [Zuo等人，2018]、M2DNE [Lu等人，2019]和MTNE [Huang等人，2020]等方法模拟了网络的演化。
目前，以时间为重点的HIN嵌入有增加的趋势。这类作品大多使用元路径来捕获HIN中的语义，并将时间划分为快照来获取节点嵌入，如DHNE [Yin等人，2019]、Change2vec [Bian等人，2019]和DyHNE [Wang等人，2020]。此外，HDGAN [Li et al.， 2020]利用时间级注意机制模拟网络演化。此外，针对HIN设计了一些半监督方法，如静态方法MAGNN [Fu et al.， 2020]和动态模型HDGNN [Zhou et al.， 2020]，但对于时域HINs仍然缺乏深度方法。而且，它们都没有同时考虑网络演化的动力学和多类型节点的嵌入。