BigGAN_用于高保真自然图像合成的大规模 GAN 训练

article/2025/11/9 23:09:32

【飞桨】【Paddlepaddle】【论文复现】BigGAN

    • 用于高保真自然图像合成的大规模 GAN 训练
    • LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS
    • 1、BiagGAN的贡献
    • 2.1背景
    • 2.2具体措施与改变
      • 2.2.1规模(scaling up)
      • 2.2.2截断技巧(Truncation)
    • 3、不稳定性分析
    • 4、结论
    • Reference:

用于高保真自然图像合成的大规模 GAN 训练

LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS

生成对抗网络(GANs, Goodfellow et al. (2014))能够训练输入的图片生成出新的样本图片(Generator),但传统的GANs在生成图片是会出现一些问题,例如模式崩塌,难以收敛等。并且传统GANs生成的图片不具备足够的精度和分辨率。BigGAN(A.Brock, et al 2018) 以最大规模培训了生成对抗网络,并研究了这种规模所特有的不稳定性。它将正交正则化应用于生成器使得它适用于简单的“截断技巧”,允许通过截断潜在空间来精确控制样本保真度和变化之间的权衡。BigGAN的 Inception Score(IS)为 166.3,Fréchet Inception Distance(FID)为 9.6,相比之前的最佳 (指论文发表时)IS 为 52.52,FID 为 18.65。
Paper链接:BigGAN.
Github:BigGAN-Pytorch.
在这里插入图片描述
Alt

1、BiagGAN的贡献

  1. 证明了 GAN 从缩放中获益匪浅,并且与现有技术相比,训练模型的参数为 2 到 4 倍,batch size达到 8 倍。 我们介绍了两种简单的通用体系结构更改,可以提高可伸缩性,并修改正则化方案不断调节,从而显著提升性能;
  2. 作为我们修改的副作用,BIgGAn模型变得适合“截断技巧”,这是一种简单的采样技术,可以对样本种类和保真度之间的权衡进行明确、细粒度的控制;
  3. 我们发现特定于大规模 GAN 的不稳定性,并根据经验表征它们。 利用此分析的见解,我们证明新颖技术和现有技术的结合可以减少这些不稳定性,但完全的训练稳定性只能以极高的性能成本实现。

2.1背景

生成对抗网络(GAN)涉及生成器(G)和鉴别器(D)网络,其目的分别是将随机噪声映射到样本并区分实际和生成的样本。正式地,GAN 目标,其原始形式表述为以下两个玩家最小 - 最大问题(minmax-game)找到纳什均衡的问题:
minmax-game

2.2具体措施与改变

BigGAN对batch_size(批量大小)、channels(通道数)、shared(是否加入共享嵌入)、Hier.(hierarchie latent space即分层潜在空间)、orthogonal(是否正交化)进行改变调优。

2.2.1规模(scaling up)

diffrent parameters

1、首先增加baseline(基线GANs)的batch_size。表 1 的第 1-4 行表明,简单地将批量大小增加 8 倍,使现有技术 IS 提高了 46%。我们推测这是每批次覆盖更多模式的结果,为两个网络提供更好的梯度。这种缩放的一个值得注意的副作用是我们的模型在更少的迭代中达到更好
的最终性能,但变得不稳定并且经历完全的训练崩溃。
2、将每层中的宽度(通道数)增加 50%,大约两倍于两个模型中的参数数量。这导致IS 进一步提高 21%,我们认为这是由于模型的容量相对于数据集的复杂性而增加。加倍深度似乎不会对 ImageNet 模型产生相同的影响,反而会降低性能。
3.用于 G 中的条件 BatchNorm 图层的类嵌入 c 包含大量权重。我们选择使用共享嵌入,而不是为每个嵌入分别设置一个层,这个嵌入会线性投影到每个层的增益和偏差(Perez et al.2018)。这降低了计算和内存成本,并将训练速度(达到给定性能所需的迭代次数)提高了 37%。接下来,我们采用分层潜在空间的变体,其中噪声向量 z 被馈送到 G 的多个层而不仅仅是初始层。这种设计背后的直觉是允许 G 使用潜在空间直接影响不同分辨率和层次结构级别的特征。对于我们的架构,通过将 z 分成每个分辨率的一个块,并将每个块连接到条件向量 c,可以很容易地实现这一
点,条件向量 c 被投射到 BatchNorm 的增益和偏差。以前的工作(Goodfellow et al.2014; Denton et al.2015)已经考虑了这个概念的变体;我们的贡献是对此设计的一个小修改。分层延迟可以提高内存和计算成本(主要通过降低第一个线性层的参数预算),提供约 4%的适度性能提升,
并将训练速度提高 18%。

2.2.2截断技巧(Truncation)

与需要通过其潜在反向传播的模型不同,GAN 可以使用任意先验 p(z),但绝大多数先前的工作选择从 N(0,I)或 U[-1,1]。我们质疑这种选择的最优性,并探索了不同的替代方案。值得注意的是,我们的最佳结果来自于使用与训练中使用的不同的潜在分布进行抽样。采用用z~N(0,I)训练的模型和从截断的正常值(其中超出范围的值被重新采样以落入该范围内)的样本 z 立即实现对 IS 和 FID(两个针对生成图片质量的评价指标) 的提升。我们将其称为截断技巧:通过重新调整幅度高于所选阈值的值来截断 z矢量导致单个样品质量的改善,但代价是整体样品品种的减少。
对于许多模型而言,由不同采样引起的分布,相比在训练中看到的会不一样,很容易造成一些麻烦。我们的一些较大模型不适合截断,在馈送截断噪声时会产生饱和伪影。为了抵消这种情况,我们试图通过将 G 调节为平滑来强制实现截断的适应性,以便 z 的整个空间映射到良好的输出样本。为此,我们转向正交正则化(Brock et al.2017),它直接强制正交性条件,我们发现最好的版本从正则化中删除了对角项,并且目标是最小化滤波器之间的成对余弦相似性,但不限制它们的范数:

在这里插入图片描述
其中 1 表示一个矩阵,其中所有元素都设置为 1。我们扫描β值并选择为 1e-4,从而找到足够小的额外正则化,以提高我们的模型易于截断的可能性。 在表 1 中,我们观察到没有正交正则化时,只有 16%的模型适合截断,而有正交正则化训练时则有 60%。

3、不稳定性分析

稳定性不仅仅来自 G 或 D,而是来自他们通过对抗性训练过程的相互作用。 虽然他们的不良症状调节可用于追踪和识别不稳定性,但确保合理的调节是训练所必需的,但不足以防止最终的训练崩溃。 可以通过强烈约束 D 来强制实现稳定性,但这样做会导致性能上的巨大成本。 使用现有技术,可以通过放松这种调节并允许在训练的后期阶段发生塌陷来实现更好的最终性能,此时模型经过充分训练以获得良好的结果。

4、结论

BigGAN已经证明,对于多个类别的自然图像进行训练而训练的生成对抗网络在保真度和生成样本的多样性方面都非常有利于扩大规模。 因此,我们的模型在 ImageNet GAN 模型中创造了新的性能水平,大大提高了现有技术水平。 我们还对大规模 GAN 的训练行为进行了分析,并根据其权重的奇异值表征了它们的稳定性,并讨论了稳定性和性能之间的相互作用。

Reference:

1、本文摘自G-lab.
2、百度AIstudio的课程非常棒!百度AI复现论文课程连接.


http://chatgpt.dhexx.cn/article/SDU2LJLc.shtml

相关文章

环形链表之快慢指针

环形链表 前言一、案例1、环形链表2、环形链表II 二、题解1、环形链表2、环形链表II3、源码4、寻找入环点的数学解法 总结参考文献 前言 对于环形链表,通过快慢指针,如果存在环,这这两个指针一定会相遇,这是一种经典的判断环或是应…

快慢指针判断链表中是否存在环以及查找环的起始位置

判断链表中是否有环? 使用快慢指针, 慢指针一次走一步, 快指针一次走两步, 当快慢指针相遇时,说明链表存在环 为什么快指针每次走两步而慢指针每次走一步呢? 因为slow指针和fast指针都会进入环内, 就像在环形跑道内不同位置的两个人;slow指针在后面, fast指针在前面, 但…

链表-快慢指针(C++)

一、链表 链表是由一组在内存中不必相连(不必相连:可以连续也可以不连续)的内存结构Node,按特定的顺序链接在一起的抽象数据类型。 我们常见的链表结构有单链表和双向链表。 单链表,保存了下一个结点的指针&#xf…

面试题 02.08. 环路检测-快慢指针+如何找到环的入口?(证明)Java

1.题目 2.思路 方法一——哈希表记录节点 思路很简单,记录一下每个节点出现的次数,如果某个节点出现了两次,代表此时有环,并且是环的入口,直接返回即可。 时间复杂度O(N) 空间复杂度O(N) public class Solution {…

链表中快慢指针的应用

目录 一、链表的中间结点 二、回文链表 三、链表中倒数第K个结点 四、删除链表的倒数第n个结点 五、环形链表 六、环形链表Ⅱ 一、链表的中间结点 给定一个头结点为 head 的非空单链表,返回链表的中间结点。 如果有两个中间结点,则返回第二个中间…

快慢指针思想

快慢指针思想 在做题当中经常会用到快慢指针,快慢指针就是定义两根指针,移动的速度一快一慢,从而创造出自己想要指针的差值。这个差值可以让我们找到链表上相应的节点。 参考链接:https://www.jianshu.com/p/21b4b8d7d31b 应用 …

指针的运用——快慢指针

快慢指针是指针的一种类型,在这里我们来了解下快慢指针 让我们来看一道题 一、题目 876. 链表的中间结点 首先我们对这道题进行分析,最容易让人想到的方法是直接使用n/2找到中点,如果我们不对链表进行遍历,我们该怎么做呢&…

浅谈快慢指针

快慢指针 快慢指针 快慢指针1.快慢指针的概念:2.快慢指针的应用:1. 判断单链表是否为循环链表2. 在有序链表中寻找中位数3.链表中倒数第k个节点 1.快慢指针的概念: 快慢指针就是存在两个指针,一个快指针,一个慢指针&a…

快慢指针应用总结

快慢指针 快慢指针中的快慢指的是移动的步长,即每次向前移动速度的快慢。例如可以让快指针每次沿链表向前移动2,慢指针每次向前移动1次。 快慢指针的应用 (1)判断单链表是否存在环 如果链表存在环,就好像操场的跑道是…

十大常用经典排序算法总结!!!

爆肝整理!堪称全网最详细的十大常用经典排序算法总结!!! 写在开头,本文经过参考多方资料整理而成,全部参考目录会附在文章末尾。很多略有争议性的细节都是在不断查阅相关资料后总结的,具有一定…

经典五大算法思想-------入门浅析

算法:求解具体问题的步骤描述,代码上表现出来是解决特定问题的一组有限的指令序列。 1、分治: 算法思想:规模为n的原问题的解无法直接求出,进行问题规模缩减,划分子问题(这里子问题相互独立而且…

算法设计经典算法

一、贪婪算法 1、概述 贪婪法又称贪心算法,是当追求的目标是一个问题的最优解时,设法把对整个问题的求解工作分成若干步骤来完成,是寻找最优解问题的常用方法。 贪婪法的特点是一般可以快速得到满意的解,因为它省去了为找最优解…

算法之经典图算法

图介绍表示图的数据结构图的两种搜索方式DFS可以处理问题BFS可以处理问题有向图最小生成树最短路径 图介绍 图:是一个顶点集合加上一个连接不同顶点对的边的集合组成。定义规定不允许出现重复边(平行边)、连接到顶点自身的边(自环…

计算机10大经典算法

算法一:快速排序法 快速排序是由东尼霍尔所发展的一种排序算法。在平均状况下,排序 n 个项目要Ο(n log n)次比较。在最坏状况下则需要Ο(n2)次比较,但这种状况并不常见。事实上,快速排序通常明显比其…

算法设计——五大算法总结

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 算法设计总结 一、【分治法】二、【动态规划法】三、【贪心算法】四、【回溯法】五、【分支限界法】 一、【分治法】 在计算机科学中,分治法是一种很重要的算法。…

十大经典算法总结

正文 排序算法说明 &#xff08;1&#xff09;排序的定义&#xff1a;对一序列对象根据某个关键字进行排序&#xff1b; 输入&#xff1a;n个数&#xff1a;a1,a2,a3,...,an 输出&#xff1a;n个数的排列:a1,a2,a3,...,an&#xff0c;使得a1<a2<a3<...<an。 再…

九大经典算法

1. 冒泡排序&#xff08;Bubble Sort&#xff09; 两个数比较大小&#xff0c;通过两两交换&#xff0c;像水中的泡泡一样&#xff0c;较大的数下沉&#xff0c;较小的数冒起来。 算法描述&#xff1a; 1.比较相邻的元素。如果第一个比第二个大&#xff0c;就交换它们两个&a…

最常用的五大算法

一、贪心算法 贪心算法&#xff08;又称贪婪算法&#xff09;是指&#xff0c;在对问题求解时&#xff0c;总是做出在当前看来是最好的选择。也就是说&#xff0c;不从整体最优上加以考虑&#xff0c;他所做出的仅是在某种意义上的局部最优解。贪心算法不是对所有问题都能得到整…

几种经典算法

1.分治法 分治法也叫做分而治之法。核心思想是将一个难以直接解决的大问题依照相同的概念分割成两个或者多个相同的小问题&#xff0c;以便各个击破。 如图所示&#xff1a; 2.递归法 递归法和分而治之法像一对孪生兄弟&#xff0c;都是将一个复杂的算法问题进行分解&#x…

五大常用经典算法—分治算法

原文作者&#xff1a;bigsai 原文地址&#xff1a;五大常用算法&#xff1a;一文搞懂分治算法 目录 前言 分治算法介绍 分治算法经典问题 二分搜索 快速排序 归并排序(逆序数) 最大子序列和 最近点对 结语 前言 分治算法&#xff08;divide and conquer&#xff09;是…