SRGAN简单了解

article/2025/11/8 22:33:51

超分辨率问题的病态性质尤其表现在取较高的放大因子时，重构的超分辨率图像通常会缺失纹理细节。监督SR算法的优化目标函数通常取重建高分辨率图像和地面真值之间的均方误差，在减小均方误差的同时又可以增大峰值信噪比(PSNR)，PSNR是评价和比较SR算法的常用指标。但是MSE和PSNR值的高低并不能很好的表示视觉效果的好坏。正如Figture2表现出的，PSNR最高并不能反映最好的视觉SR效果。

SRGAN，使用了结合跳跃-连接（skip-connection）的深度残差网络（ResNet）。我们使用VGG网络的高层特征映射定义了新的感知损失，该损失使用的判别器使生成的高分辨率图像与地面真值在视觉上尽量相似。

把生成器看的目标看成是要以次充好,判别器的目标是要明辨真假. 我们可以的看到,在生成器的前6层网络中,我们运用了残差块,为什么要用残差块呢? 因为我们可以从上图看出来,当损失函数从判别器开始反向传播会生成器的时候,实际上进过来很多层,我们知道越深的网络隐藏参数越多,在反向传播的过程中也越容易梯度弥散.而且残差连接的方法,就有效的保证了我们梯度信息能够有效的传递而增强生成对抗网络的鲁棒性

SRGAN这个网络的最大贡献就是使用了生成对抗网络（Generative adversarial network）来训练SRResNet,使其产生的HR图像看起来更加自然,有更好的视觉效果（SRResNet是生成网络，对抗网络是用来区分真实的HR图像和通过SRResNet还原出来的HR图像，SRGAN网络的最终目标就是要让对抗网络无法区分真实的HR图像和SRResNet还原的HR图像）。

通俗来讲：GAN所要完成的工作，原文举了个栗子：

G网是印假钞的人，D网是检测假钞的人。G的工作是让自己印出来的假钞尽量能骗过D，D则要尽可能的分辨自己拿到的钞票是银行中的真票票还是G印出来的假票票。

开始的时候呢，G技术不过关，D能指出这个假钞哪里很假。G每次失败之后都认真总结经验，努力提升自己，每次都进步。直到最后，D无法判断钞票的真假……

SRGAN的工作就是：

G网通过低分辨率的图像生成高分辨率图像，由D网判断拿到的图像是由G网生成的，还是数据库中的原图像。当G网能成功骗过D网的时候，那我们就可以通过这个GAN完成超分了。

首先介绍一下作者为什么要采用GAN来训练SRResNet。因为当前监督SR效果的算法（损失函数）的优化目标是使恢复后的HR图像与ground truth间的均方差（MSE）最小化，因为酱紫可以取得很高的峰值信噪比（PSNR，这也是评价SR算法的效果的最常用指标）。但是由于PSNR是基于像素级图像（pixel-wise image）的差异来定义的，因此PSNR捕捉到和人的感官非常密切的差异（纹理细节）的能力十分有限，因此最高的PSNR不一定能反映人感官上最好的结果

作者所选择的是基于VGG的内容损失。先基于预训练的19层VGG网络的ReLU激活层来定义损失函数。这部分的理论来源于” Very deep convolutional networks for large-scale image recognition”这篇论文。在这篇论文里面，作者创建了一个从VGG19网络里提取的特征图之间欧式距离的损失函数，无论是超分辨率还是艺术风格的转移，效果都非常好。SRGAN的作者直接使用了这个作为损失函数的一部分。

因为上文已经讲过基于最小化MSE的损失函数虽然可以获得很高的PSNR,但是高放大倍数下视觉效果并不好。因此采用作者选择的是基于VGG的内容损失。先基于预训练的19层VGG网络的ReLU激活层来定义损失函数。

作者的主要创新点抛弃了MSE转而用基于VGG的内容损失定义损失函数。并且使用了GAN对抗网络来分辨自然HR图像和重建出来的HR图像，并且把分类网络的结果引入生成网络的损失函数，将使得训练出来的结果从视觉上来说更接近自然HR图像。虽然这样做会降低峰值信噪比，因为放大倍数越大，越不平滑的情况下PSNR越低。不过从视觉上说最为真实，因为过于平滑会使得图像内部物体的边缘看起来模糊。