图卷积神经网络GCN之节点分类

article/2025/9/18 22:38:08

使用pytorch 的相关神经网络库，手动编写图卷积神经网络模型(GCN)，并在相应的图结构数据集上完成节点分类任务。本次实验的内容如下：

实验准备：搭建基于GPU的pytorch实验环境。
数据下载与预处理：使用torch_geometric.datasets、torch_geometric.loader所提供的标准数据接口Planetoid、PPI、DataLoader，将原始数据处理为方便模型训练脚本所使用的数据结构。
图网络模型：手动搭建GCN模型。
节点分类：在给定数据集上按照节点分类任务的需求自行划分训练集、验证集、测试集，并用搭建好的GCN模型进行节点分类。
模型训练：在给定数据集上训练模型并分析结果。

对应的源代码下载链接：

https://download.csdn.net/download/m0_61142248/87657656

1.搭建实验环境

搭建GPU版Pytorch实验环境如下：

名称	版本	备注
Python	3.8
Pytorch	1.12.1
GPU	RTX2060	安装对应版本的cuda

2.图网络模型搭建

参考GCN论文，GCN的核心原理公式为 $H^{l+1}=\sigma\left ( D^{1/2}AD^{-1/2}H^{l}W^{l} \right )$ 。因为邻接矩阵在迭代的每一步都是相同的，可以将上述公式中不变的部分提取出来提前处理，迭代过程中只计算变化部分，从而减少运算量。因此将上述公式分解为两步：

$A=D^{^{1/2}}AdjD^{-1/2}$
$H^{l+1}=AH^{l}W^{l}$

其中， $Adj$ 是图的原始邻接矩阵，D是度矩阵，的运算在网络模型训练前实现，A是经过处理后的邻接矩阵。

在图数据的处理中实现 $A=D^{^{1/2}}AdjD^{-1/2}$ 计算，代码如下：

在网络模型中只实现 $H^{l+1}=AH^{l}W^{l}$ ，另外需要定义模型参数W等初始化参数以及forward函数。本次实验要求对自环、层数、 DropEdge、PairNorm、激活函数等因素分析，因此在模型中加入了这些参数，另外模型中的in_features和out_features分别表示输入特征维度和输出特征维度。代码如下：

子函数reset_parameters代码如下：

forward函数实现 $H^{l+1}=AH^{l}W^{l}$ 计算，其中input为输入特征，adj为输入邻接矩阵（经过运算处理），bias是偏置项，output为输出。具体代码如下：

此外，参考了PairNorm和DropEdge的论文和代码来实现PairNorm和DropEdge函数。具体代码如下：

PairNorm：

DropEdge：

3.节点分类模型搭建

在节点分类任务中搭建了一个由前述GCN网络组成的多层GCN分类网络。节点分类模型初始化函数如下：

其中各参数含义如下：

nfeat为输入特征维度；
nhid为GCN隐藏层维度；
nclass为输出特征维度；
dropout为特征的dropout率；
SelfLoop为是否加自环的标志；
num_layers表示该分类模型的总层数；
norm_mode表示是否使用batchnorm；
use_PairNorm表示是否使用PairNorm；
activation为激活函数的参数，表示使用哪种激活函数。

节点分类模型中间层的激活函数由输入参数‘activation’确定，输出的特征维度为‘nhid’。最后一层也是GCN层，输出维度为‘nclass’，最后的输出增加了log_softmax()函数。

Cora、Citeseer数据集的节点分类模型的forward函数代码如下：

4.Cora、Citeseer数据集预处理

Cora、Citeseer数据集是比较常用的数据集，直接百度即可下载。本文中读入的数据格式如下：

处理代码如下，其中对test_idx进行排序是为了避免邻接矩阵和节点特征矩阵在测试集部分错位。

训练、验证和测试集的划分：

数据集默认划分了训练、验证和测试集，但训练集较小，因此对数据集进行了重新划分。allx、ally和tx、ty可以构成完整的数据集，其中测试集保持不变仍为tx、ty。取allx、ally中的最后500个作为验证集，剩余的都作为训练集。如此，对于cora数据集划分如下训练集（1208）、验证集（500）、测试集（1000）。对于citeseer数据集划分如下训练集（1812）、验证集（500）、测试集（1015）。

图、邻接矩阵、特征和标签的处理以及训练、验证和测试集的划分代码实现如下：

5.训练与分析

依据实验要求对不同参数进行了测试分析。虽然不同参数配置下可以通过调整学习率等超参数来提高性能，但为了便于比较，训练时采取了只变动比较项，其余部分参数固定的方法来分析。其中所有测试下都固定不变的参数如下表所示：

固定不变的训练参数

名称	lr	weight_decay	hidden	lradjust	dropout	epochs
数值	0.01	5e-3	256	Ture	0.8	400

测试了GCN层数为2、4、8、16、32层时图网络模型在Cora、Citeseer和PPI数据集上的分类性能以及自环、batch_norm、PairNorm和激活函数等因素对分类性能的影响。

在Cora数据集和Citeseer数据集的实验中，使用Adam优化器。学习率初始值为0.01，采用了多步衰减策略，参数为“milestones=[150, 250, 350], gamma=0.5”。损失函数使用torch.nn.functional中的nll_loss。性能评价指标为acc。

最终得到的最佳的性能和对应的训练参数如下：

对于数据集cora，在测试集上获得的分类acc指标为0.853，设置训练参数如下：

名称	lr	weight_decay	hidden	lradjust	dropout	epochs
数值	0.01	5e-3	256	Ture	0.8	100
名称	num_layers	add_self_loops	add_bn	use_pairnorm	drop_edge	activation
数值	4	FALSE	FALSE	None	1	linear

对于数据集citeseer，在测试集上获得的分类acc指标为0.783，设置训练参数如下：

名称	lr	weight_decay	hidden	lradjust	dropout	epochs
数值	0.01	5e-3	256	Ture	0.8	100
名称	num_layers	add_self_loops	add_bn	use_pairnorm	drop_edge	activation
数值	4	FALSE	TRUE	None	1	tanh