BigGAN高保真自然图像合成的大规模GAN训练

article/2025/11/9 22:13:39

2019-02-24 22:23:17

BigGAN-LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS

原文:https://arxiv.org/abs/1809.11096

作者:来自DeepMind & Heriot-Watt University

译者:Tony

时长:3K字,约10分钟


摘要

作者提出了一种大规模GAN(参数大、批量大),即BigGAN,分析了大规模GAN训练不稳定因素,通过正交正则化平衡保真度和多样性。在类条件图像合生中取得了最先进水平:ImageNet中128*128像素的图像上,IS(越大越好)从52.52提高到166.3,FID(越小越好)从18.65下降到9.6。

1 引言

GAN首次是在2014年提出来的,目前最好的GAN是2018年提出的SAGAN,其IS是52.5,但相比真实图像的IS 233,差距还是很大。为了进一步提高保真度和多样性,作者做了三个项工作:

一是通过将模型参数扩大2-4倍、将批量大小扩大8倍、以及修改正则方案来提高模型性能。

二是通过Truncation Trick技术平衡样本的多样性和保真度。

三是发现了大规模GAN的不稳定因素,通过新颖的和现有的技术减少不稳定性,但是保证模型的训练稳定性会给模型的性能带来损失。

2 背景

GAN包含一个Generator (G)网络和一个Discriminator (D) 网络,其目标是一个纳什均衡:

BigGAN高保真自然图像合成的大规模GAN训练

 

其中,z来自p(z)分布,通常是正态分布N(0, I)或均衡分布U[-1, 1],G和D通常是卷积神经网络。若没有辅助的稳定性技术,训练过程是不稳定的,则需要微调超参和架构来保证模型正常工作。

许多近期研究聚焦在调整vanilla GAN,以便获取稳定性:一部分工作是调整目标函数,以便加速收敛;另一部分工作是通过归一化或梯度惩罚来限制D。

与BigGAN相关的工作有两个:一是谱归一化(Spectral Normalization);二是架构选择,例如SA-GAN、ProGAN、Conditional GAN。

BigGAN使用IS和FID评估GAN网络性能。

模型架构如下图15所示:

BigGAN高保真自然图像合成的大规模GAN训练

 

3 SCALING UP GANS

作者通过如下方法扩大GAN网络:

使用SA-GAN作为基准模型,SA-GAN采用hinge loss目标函数。通过类条件批归一化(BatchNorm)将类信息输入到G中,通过投影(Projection )将类信息输入到D中。在G中引入谱范数(Spectral Norm),将学习率降半,每G步两D步。为了评估,G权重采用滑动平均,衰减系数为0.9999。使用正交初始化,而不是正态分布N(0, 0.02I)。每个模型在Google TPU v3 Pod上训练,并计算G上所有设备上批归一化(BatchNorm)。

作者增大基准模型的batch大小,效果明显,扩大8倍后,IS提升了46%,如表1第1-4行所示。作者推测,这是因为每个batch覆盖了更多modes,为G和D提供了更好的梯度。但是存在一个问题,模型训练变得不稳定,会出现爆炸,在第4节中,作者分析了原因并给出了解决方案。

作者在每层中增加了50%的通道数,即大约增加了2倍参数,效果也很明显,IS提升了21%。作者推测是因为增加模型容量,模拟更复杂情况。

作者将模型深度加深2倍,性能却在降低。

作者在所有的conditional BatchNorm 层中使用一个共享嵌入(shared embedding),线性投影到每层。这样可以减少参数,降低计算和内存消耗,将训练速度提升37%。另外,引入hierarchical latent spaces,噪声向量z输入到G中多层,而不是初始层,将性能提升了4%,训练速度提升了18%。

BigGAN高保真自然图像合成的大规模GAN训练

 

3.1 通过TRUNCATION TRICK权衡多样性和保真度

GAN的p(z)可以选择任何先验概率分布,BigGAN作者通过一些列比较,最终选择了基于标准正态分布N(0, I)的截断正态分布(Truncated Normal),称作Truncation Trick,可以提升IS和FID。随着截断正态分布的阈值越来越小,G生成的图像的保真度越来越好,但多样性越来越差,如图2(a)所示。

BigGAN高保真自然图像合成的大规模GAN训练

 

作者认为可以选择适当的截断阈值,在保真度和多样性之间取得平衡,但通过多样性-保证度曲线图可知,多样性在开始时缓慢上升,然后急速下降,如果要保证一定的多样性,饱和度会很差,如图2(b)和图16所示。

BigGAN高保真自然图像合成的大规模GAN训练

 

为了解决这个问题,作者增加了一个正交正则化,使得模型平滑。

BigGAN高保真自然图像合成的大规模GAN训练

 

其中,W为权重矩阵、 β是超参,1为全1矩阵。结果如表1所示,没有正交正则化,16%的模型服从截断,有了正交正则化,60%的模型服从截断。

3.2 总结

作者发现,现有的GAN技术不适合大模型和大批量训练,BigGAN可以取得最先进水平,即使是在512*512像素的图像上。尽管如此,作者指出BigGAN中还出现训练爆炸问题,在后续章节进行分析。

4 分析

4.1 解决G的不稳定性

为了找出训练爆炸的原因,作者监控训练过程中的权重、梯度、以及损失,发现权重矩阵最重要的三个奇异值σ0、σ1、σ2影响最大。如图3所示,G的绝大部分层具有良好的谱范数(Spectral Norm),但一些层在训练中出现爆炸。

BigGAN高保真自然图像合成的大规模GAN训练

 

为了确认这是不是训练爆炸的原因,作者在G上利用额外的条件来消除谱爆炸:首先,正则第一个奇异值σ0,其中σclamp是σreg或者sg(σ1);其次,使用部分奇异值分解代替σ0。

BigGAN高保真自然图像合成的大规模GAN训练

 

结论是,谱归一化可以提高性能,但是不能阻止训练爆炸。

4.2 解决D的不稳定性

不同于G,D的权重谱有很多噪声,σ0/σ1表现良好,随着训练,奇异值坍塌,而不是爆炸。D的权重谱显示,D周期性地收到了大梯度,但弗罗贝尼乌斯范数(Frobenius Norm) 是平滑的,这种影响集中在顶层少量的奇异方向。作者假设,这些噪声是训练过程中优化带来的影响,G周期性地产生的批量对D有影响。如果谱噪声与不稳定性有影响,我们可以采用梯度惩罚,在D的Jacobian矩阵中加入正则项:

BigGAN高保真自然图像合成的大规模GAN训练

 

Γ=10时,G和D训练过程变得稳定,谱变得平滑,但是性严重下降:IS减少了45%。即使Γ=1,未出现爆炸,IS也减少20%。使用其他的正则项也是一样效果,例如正交正则化、DropOut、L2。

作者也发现,在训练过程中D的Loss接近0,但在坍塌处出现急速向上跳跃。一种解释是,D已经过拟合训练数据集。

4.3 总结

不稳定性不是单独来自G或D,而是来自G和D的交互对抗过程。严格限制D可以提高训练稳定性,但是会降低性能。利用现有技术,放松条件可以获得好性能,允许在后面阶段出现训练爆炸。

5 实验

5.1 ImageNet评估

结果如表2所示:

BigGAN高保真自然图像合成的大规模GAN训练

 

5.2 JFT-300M评估

结果如表3所示:

BigGAN高保真自然图像合成的大规模GAN训练

 

6 总结

作者发现:1、增大GAN模型的规模,可以提高生成图像的保真度和多样性,取得了最先进水平;2、分析大规模GAN的训练行为,通过权重矩阵的奇异值标识模型稳定性,并讨论稳定性和性能相互作用。


http://chatgpt.dhexx.cn/article/xOqQwhe6.shtml

相关文章

BigGAN、BiGAN、BigBiGAN简单介绍

介绍 上一篇文章在介绍GAN的评价标准的时候提到了 BigGAN 在Inception Score上取得了巨大的进步,而最近 DeepMind 又基于 BiGAN 提出了 BigBiGAN,它在 ImageNet 上的无监督表示学习和无条件图像生成方面都取得了极为优秀的成绩。 本文主要对BigGAN和BiG…

【GANs学习笔记】(十三)BIGGAN

完整笔记:http://www.gwylab.com/note-gans.html ——————————————————————— 原paper及译文: http://www.gwylab.com/paper-biggan.html 4. BigGAN 4.1 BigGAN解决的问题 我们知道,GANs的终极目标是生成让人无法辨别真…

Paper Reading:BigGAN

URL: https://arxiv.org/pdf/1809.11096.pdf code: https://github.com/AaronLeong/BigGAN-pytorch https://tfhub.dev/s?qbiggan TL;DR 号称具有划时代意义的BigGAN,由DeepMind团队在ICLR2019上发表,将精度作出了跨越式提升。 将Inception Score (IS…

BigGAN论文解读

论文:https://arxiv.org/pdf/1809.11096.pdf 源码:https://github.com/ajbrock/BigGAN-PyTorch 用于高保真自然图像合成的大规模GAN训练 摘要 尽管最近在生成图像建模方面取得了进展,但是从像ImageNet这样的复杂数据集中成功生成高分辨率、…

Big GAN

参考文献: •https://github.com/kayamin/DR-GAN •https://www.jianshu.com/p/4ee8f9284b81 •http://cvlab.cse.msu.edu/pdfs/Tran_Yin_Liu_CVPR2017.pdf •https://arxiv.org/abs/1809.11096 •https://juejin.im/entry/5c05e76c51882539c60cf2d5 •https:…

BigGAN

1、BIGGAN 解读 1.1、作者 Andrew Brock、Jeff Donahue、Karen Simonyan 1.2、摘要 尽管最近在生成图像建模方面取得了进展,但从 ImageNet 等复杂数据集中 成功生成高分辨率、多样化的样本仍然是一个难以实现的目标。为此,我们以迄 今为止最大的规模训…

BigGAN(2019)

论文引入 我们来看一下由 BigGAN 生成的图像: 随着 GAN、VAE 等一众生成模型的发展,图像生成在这几年是突飞猛进,14 年还在生成手写数字集,到 18 年已经将 ImageNet 生成的如此逼真了。 这中间最大的贡献者应该就是 GAN 了&…

BigGAN_用于高保真自然图像合成的大规模 GAN 训练

【飞桨】【Paddlepaddle】【论文复现】BigGAN 用于高保真自然图像合成的大规模 GAN 训练LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS1、BiagGAN的贡献2.1背景2.2具体措施与改变2.2.1规模(scaling up)2.2.2截断技巧(…

环形链表之快慢指针

环形链表 前言一、案例1、环形链表2、环形链表II 二、题解1、环形链表2、环形链表II3、源码4、寻找入环点的数学解法 总结参考文献 前言 对于环形链表,通过快慢指针,如果存在环,这这两个指针一定会相遇,这是一种经典的判断环或是应…

快慢指针判断链表中是否存在环以及查找环的起始位置

判断链表中是否有环? 使用快慢指针, 慢指针一次走一步, 快指针一次走两步, 当快慢指针相遇时,说明链表存在环 为什么快指针每次走两步而慢指针每次走一步呢? 因为slow指针和fast指针都会进入环内, 就像在环形跑道内不同位置的两个人;slow指针在后面, fast指针在前面, 但…

链表-快慢指针(C++)

一、链表 链表是由一组在内存中不必相连(不必相连:可以连续也可以不连续)的内存结构Node,按特定的顺序链接在一起的抽象数据类型。 我们常见的链表结构有单链表和双向链表。 单链表,保存了下一个结点的指针&#xf…

面试题 02.08. 环路检测-快慢指针+如何找到环的入口?(证明)Java

1.题目 2.思路 方法一——哈希表记录节点 思路很简单,记录一下每个节点出现的次数,如果某个节点出现了两次,代表此时有环,并且是环的入口,直接返回即可。 时间复杂度O(N) 空间复杂度O(N) public class Solution {…

链表中快慢指针的应用

目录 一、链表的中间结点 二、回文链表 三、链表中倒数第K个结点 四、删除链表的倒数第n个结点 五、环形链表 六、环形链表Ⅱ 一、链表的中间结点 给定一个头结点为 head 的非空单链表,返回链表的中间结点。 如果有两个中间结点,则返回第二个中间…

快慢指针思想

快慢指针思想 在做题当中经常会用到快慢指针,快慢指针就是定义两根指针,移动的速度一快一慢,从而创造出自己想要指针的差值。这个差值可以让我们找到链表上相应的节点。 参考链接:https://www.jianshu.com/p/21b4b8d7d31b 应用 …

指针的运用——快慢指针

快慢指针是指针的一种类型,在这里我们来了解下快慢指针 让我们来看一道题 一、题目 876. 链表的中间结点 首先我们对这道题进行分析,最容易让人想到的方法是直接使用n/2找到中点,如果我们不对链表进行遍历,我们该怎么做呢&…

浅谈快慢指针

快慢指针 快慢指针 快慢指针1.快慢指针的概念:2.快慢指针的应用:1. 判断单链表是否为循环链表2. 在有序链表中寻找中位数3.链表中倒数第k个节点 1.快慢指针的概念: 快慢指针就是存在两个指针,一个快指针,一个慢指针&a…

快慢指针应用总结

快慢指针 快慢指针中的快慢指的是移动的步长,即每次向前移动速度的快慢。例如可以让快指针每次沿链表向前移动2,慢指针每次向前移动1次。 快慢指针的应用 (1)判断单链表是否存在环 如果链表存在环,就好像操场的跑道是…

十大常用经典排序算法总结!!!

爆肝整理!堪称全网最详细的十大常用经典排序算法总结!!! 写在开头,本文经过参考多方资料整理而成,全部参考目录会附在文章末尾。很多略有争议性的细节都是在不断查阅相关资料后总结的,具有一定…

经典五大算法思想-------入门浅析

算法:求解具体问题的步骤描述,代码上表现出来是解决特定问题的一组有限的指令序列。 1、分治: 算法思想:规模为n的原问题的解无法直接求出,进行问题规模缩减,划分子问题(这里子问题相互独立而且…

算法设计经典算法

一、贪婪算法 1、概述 贪婪法又称贪心算法,是当追求的目标是一个问题的最优解时,设法把对整个问题的求解工作分成若干步骤来完成,是寻找最优解问题的常用方法。 贪婪法的特点是一般可以快速得到满意的解,因为它省去了为找最优解…