在这里插入图片描述

文章目录

摘要
1 引言
2 定义
3 所提方法：HeGAN
- 3.1 整体框架
- 3.2 HeGAN中的生成器和鉴别器
4 实验
- 4.1 实验设置
- 4.2 实验分析
5 相关工作
6 结论

论文链接： Adversarial Learning on Heterogeneous Information Networks
代码链接： https://github.com/librahu/HeGAN
作者：北京邮电大学胡斌斌等人

摘要

网络嵌入是分析异构信息网络(HIN)的一种常用方法，其目的是在低维空间中表示网络数据。现有的HIN嵌入方法虽然在一定程度上提高了性能，但仍然存在一些主要的不足。最重要的是，它们通常采用负采样从网络中随机选取节点，并且不学习底层分布以获得更稳健的嵌入。受生成对抗网络(GAN)的启发，我们开发了一种新的HIN嵌入框架HeGAN，该框架在极大极小博弈中同时训练鉴别器和生成器。与现有的HIN嵌入方法相比，我们的生成器将学习节点分布以生成更好的负样本。与同构网络上的GAN相比，我们的鉴别器和生成器设计为关系感知，以捕获HIN上的丰富语义。此外，为了更有效地采样，我们提出了一种广义生成器，它直接从连续分布中采样“潜在”节点，而不像现有方法那样局限于原始网络中的节点。最后，我们在四个真实数据集上进行了广泛的实验。结果表明，在所有数据集和任务中，我们始终显著优于最先进的基线。
关键词：异构信息网络、网络嵌入、生成对抗网络

1 引言

网络结构在现实世界的应用中无处不在，从社会和生物网络到交通和电信系统。因此，网络分析对于解决社交网络[41]的个性化用户推荐、生物网络[2]的疾病基因识别等关键问题变得越来越重要。这些问题通常表现为网络数据上的节点聚类、节点分类和链路预测等问题，这些问题从根本上取决于一个有效的网络表示形式。近年来，网络嵌入[3,8]已成为节点表示的无监督学习的一个有前途的方向，其目的是将网络的节点投射到低维空间，同时保留原始网络的结构属性。
异构信息网络 虽然早期的网络嵌入工作[14,23]取得了相当的成功，但它们只能处理由单一类型的节点和边组成的所谓同构网络。然而，在现实场景中，节点自然地为不同类型的实体建模，这些实体通过多种关系相互交互。这类网络称为异构信息网络(HIN)[28]，如书目数据图1(a)所示。观察玩具HIN包含多种类型的节点(如作者和论文)，节点之间通过各种类型的关系(如作者和论文之间的写/写关系，论文和会议之间的发表/发表关系)连接。
由于其异构性，HIN常常带有极其丰富和复杂的语义。因此，最近的研究转向了HIN嵌入，最显著的是Metapath2vec[11]和HIN2vec[12]。如图1(b-1)所示，现有的HIN嵌入方法基本上归结为两个采样器，分别从网络中选择“上下文”节点作为给定的“中心”节点(如论文p2)的正例(如作者a2)和负例(如阴影圈)。(请注意，每个节点都可以充当中心或类似于Skip-gram模型[21]的上下文。)随后，在这些样本上训练一个损失函数来优化节点表示。尽管这些方法获得了一些性能改进，但它们存在严重的局限性。首先，它们通常利用负采样随机选取网络中存在的节点作为负样本。因此，他们的负样本不仅是任意的，而且局限于原始网络。其次，他们主要关注在HINs上捕获丰富的语义，而不注意节点的底层分布，因此缺乏对现实世界的HINs的鲁棒性，因为现实世界的HINs通常是稀疏的和有噪声的。第三，许多HIN嵌入方法[11,26]依赖适当的元路径来匹配所需的语义，这通常需要领域知识，有时是主观的，通常需要昂贵的获取。
对抗学习 另一方面，生成对抗网络(Generative Adversarial Networks, GAN)[13,25]已被开发出来用于在各种应用中学习鲁棒潜在表示[10,35,37]。GANs基于对抗性学习的思想，其中鉴别器和生成器相互竞争，不仅训练更好的鉴别模型，而且学习底层数据分布。后者使模型对稀疏或有噪声的数据更加鲁棒[13,24]，也提供了更好的样本以减少标注要求。鉴于这些优势，关于基于GAN的网络嵌入已经有一些初步的努力[9,22,33,38]。然而，这些研究只研究同质网络，因此没有考虑节点和边的异质性，导致在语义丰富的HIN上表现不佳。
现有研究和挑战 鉴于当前方法的上述局限性，在本文中，我们利用了对抗设置中的HIN的异构性，以学习语义保持和健壮的节点表示。然而，它的物化是非常重要的，因为现有的基于GAN的同构网络方法没有解决两个主要的挑战。
首先，如何捕获多种类型的节点和关系的语义? 在现有的方法中，实节点(即正节点)和假节点(即负节点)仅根据网络结构来区分。因此，设计新型的判别器和生成器来区分和建模涉及各种关系的真假语义丰富的节点是十分必要的。
第二，如何高效高效地生成假样本?在现有的方法中，生成器学习网络中节点的有限离散分布。因此，他们经常需要计算棘手的softmax函数，并最终诉诸于如负采样[9]或图softmax[33]的近似。此外，它们实际上是根据学习到的分布从原始网络中选择一个现有的节点，而没有能力将其推广到“看不见的”节点。毫不奇怪，他们不会生成最具代表性的假节点，因为这些节点甚至可能不会出现在网络中。因此，设计一种能够有效产生潜在假样本的生成器是非常重要的。

贡献点 为了解决上述挑战，我们提出了HeGAN，一个新的基于GAN对抗学习的用于HIN嵌入的框架。特别地，我们提出了一种新的鉴别器和生成器，如图1(b-2)所示。对于第一个挑战，我们的鉴别器和生成器被设计成关系感知，以便区分由不同关系连接的节点。也就是说，关于任何关系，鉴别器可以分辨一个节点对是真还是假，而生成器可以产生模仿实节点对的假节点对。特别地，只有当(i)它是基于网络拓扑的正节点对时，才被认为是实节点对;(ii)在正确的关系下形成的对偶。对于第二个挑战，我们设计了一个广义生成器，它能够直接从连续分布中取样潜在节点，这样(i)不需要进行softmax计算;(ii)假样本不局限于现有节点。

综上所述，我们做出了以下贡献。(1)为了充分利用HIN上的丰富语义，我们首次采用了对抗性学习方法进行HIN嵌入。由于非均匀性和需要高效、有效的样本生成，解决方案是不简单的。(2)我们提出了一个新的HeGAN框架，该框架不仅具有关系感知来捕获丰富的语义，而且还配备了一个有效的通用生成器。(3)我们在四个公共数据集上对一系列下游任务进行了实验。结果表明，HeGAN持续和显著优于各种先进水平。

2 定义

3 所提方法：HeGAN

在本节中，我们提出了模型HeGAN，一种基于GAN的HIN嵌入新方法。我们从总体框架开始，然后详细说明我们的鉴别器和生成器。最后，我们讨论了我们的框架的优化，以及与其他模型的比较。

3.1 整体框架

在这里插入图片描述
如图1©所示，我们的框架主要由两个竞争对手组成，鉴别器和生成器。给定一个节点，生成器试图生成与给定节点相关联的假样本，以提供给鉴别器，而鉴别器则试图改进其参数化，将假样本与实际连接到给定节点的真实样本分开。训练有素的鉴别器会迫使生成器产生更好的假样本，然后重复这个过程。在这样的迭代过程中，生成器和鉴别器都得到相互的正强化。虽然这种设置可能与基于gan的网络嵌入的研究类似[4,9,22,33,38]，但我们采用了两种主要的创新方法来解决HINs上对抗学习的挑战。

首先，现有的研究只利用GAN来区分一个节点是真实的还是假的w.r.t结构连接到一个给定的节点，而没有考虑HINs中的异质性。例如，给定一篇论文p2，他们认为节点a2、a4是真实的，而根据图1(a)所示HIN的拓扑结构，节点a1、a3是假的。但是，a2和a4由于不同的原因连接到p2: a2写p2, a4只查看p2。因此，它们错过了HINs所承载的有价值的语义，无法区分a2和a4，尽管它们在语义上扮演着不同的角色。在语义保持嵌入方面，我们引入了一种关系感知的判别器和生成器来区分节点之间的各种类型的语义关系。在我们的玩具HIN上，给定一张纸p2和一个关系，比如，写/写，我们的鉴别器能够区分a2和a4，我们的生成器将尝试生产更接近a2而不是a4的假样品。

其次，现有研究在样本生成方面的有效性和效率都存在局限性。他们通常使用某种形式的softmax对原始网络中的所有节点进行节点分布建模。在有效性方面，它们的伪样本被约束在网络中的节点上，而最具代表性的伪样本可能落在嵌入空间中已有节点的“中间”。例如，给定一篇论文p2，他们只能从V中选择假样本，比如a1和a3。然而，两者可能与真实样本(如a2)不够相似。为了更好地生成样本，我们引入了一个广义生成器，它可以生成潜在节点，如图1©所示的a '，其中a '可能< v。例如，a '可以是a1和a3的“平均值”，更类似于真实的样本a2。在效率方面，softmax函数的计算成本很高，必须使用诸如负采样和Graph softmax之类的近似方法。相比之下，我们的生成器可以直接对假节点进行采样，而不需要使用softmax。

3.2 HeGAN中的生成器和鉴别器

4 实验

在本节中，我们评估HeGAN在广泛任务上的有效性，包括节点聚类和分类，以及链接预测和推荐。我们进一步分析了模型的内在机制、效率和参数敏感性。

4.1 实验设置

数据集
在这里插入图片描述

baseline
我们考虑了三种网络嵌入方法:传统的(Deepwalk, LINE)、基于GAN的(GraphGAN, ANE)和HIN (HERec-HNE, HIN2vec, Metapath2vec)嵌入算法。

4.2 实验分析

在这里插入图片描述

5 相关工作

我们回顾了网络嵌入、HIN嵌入和生成对抗网络的相关研究。
网络嵌入 网络嵌入[3,8]显示了其学习保持结构的节点表示的潜力，并已成功地应用于许多数据挖掘任务。当前方法通常将网络拓扑作为上下文信息进行探索，基于随机漫步(如Deepwalk[23]和node2vec[14])、邻域(如LINE[31]和SDNE[32])或高阶邻近性(如GraRep[5]、NEU[36]和AROPE[40])。不幸的是，这些方法只处理同构网络，因此它们不能学习hin中保持语义的表示。与此同时，最近出现的图神经网络(如GCN[18])被提出以端到端方式进行表示学习，并具有特定任务监督。它们的目标与我们的范围不同，我们的范围旨在以无监督的方式学习节点表示，以支持任意下游任务。
HIN嵌入 近年来，异构信息网络(HIN)[28]被提出用于建模各种应用中的复杂实体及其丰富的关系[7,16,17,27,34,39]。为了结合HIN和网络嵌入的优点，许多方法[11,26,29,30]被提出用于HIN中的表示学习。一个主要的工作是利用基于元路径的上下文进行语义保留嵌入，包括基于元路径的相似性[26]和基于元路径的邻居[11]。注意，这些方法依赖于领域知识来选择正确的元路径，然而也有一些方法[6,12,29,30]不需要选择元路径。此外，此外，最近人们也对HIN中的特定任务嵌入学习进行了研究，这偏离了我们学习结构和语义保持表示以支持任意任务的目标。
生成对抗网络 生成对抗网络(GANs)[13]在许多问题中表现出了优越的性能[19,35,37]。它们依赖于对抗性学习的原则，即生成器和鉴别器相互竞争以提高结果。受GANs的启发，一些研究[4,9,22,33,38]利用对抗性原则来学习更稳健的表征。其中一些[4,9,22,38]对嵌入空间施加固定的先验分布，以增强学习表征的鲁棒性。但是，这些方法忽略了节点和关系的异构性，因此无法捕获HIN上的丰富语义。

6 结论

在本文中，我们提出了一种新的基于对抗性原则的HIN嵌入框架HeGAN。我们精心设计了关系感知的鉴别器和生成器，以适应异构设置。具体来说，对于给定的关系，鉴别器可以分辨出节点对是真还是假，而生成器可以产生模仿实节点对的假节点对。为了进一步提高样本生成的有效性和效率，我们提出了一种广义生成器，它能够直接从连续分布中抽取潜在节点。昂贵的实验结果验证了HeGAN在各种任务上的有效性和效率。

一点总结：
首次将GAN应用于HIN嵌入，可以获得更鲁棒的表示
HeGAN 关系感知可以获得更加丰富的语义
不是很理解机制还要补充学习GAN的知识
GAN在同构图中的应用补充：