Paper Reading:BigGAN

article/2025/11/9 23:07:36

URL:
https://arxiv.org/pdf/1809.11096.pdf
code:
https://github.com/AaronLeong/BigGAN-pytorch
https://tfhub.dev/s?q=biggan

TL;DR

号称具有划时代意义的BigGAN,由DeepMind团队在ICLR2019上发表,将精度作出了跨越式提升。
将Inception Score (IS,越大越好) 由之前最好的52.52提升到166.3,Frechet Inception Distance (FID,越小越好) 由之前最好的18.65提升到9.6。生成图例:
[外链图片转存失败(img-OkJYVt6Y-1562840306406)(upload://8OhHtH2NbtQy0I6MTFn6GwEjJku.jpeg)]

Contribution

  1. 简单地使用了2-4倍参数量的参数,8倍的batchsize,就能够得到很大的性能提升。(对比于SAGAN)
  2. 通过设置truncation trick的不同阈值能够使生成器在多样性和稳定性之间作调整。
  3. 将现有的技术整合能够很好地提高模型稳定性,但是会降低性能。

Algorithm

[外链图片转存失败(img-ZqqKUClo-1562840306409)(upload://j1CFXOrQFF5Fv6hghE43mJkEElH.png)]
从上面可以看到,仅提高batchsize和参数量(※处),也会有较明显的精度提升。
另外,上表中三个作者用到的能够进一步提升模型效能的方法:
① Shared:使用共享嵌入(shared embeddings ),在生成器的BN层中加入类别信息嵌入,将会大大的增加参数量,因此选择共享嵌入,也就是对每层的weighs和bias做投影,这样将会减少计算和内存的开销,将训练速度提升37%。
② Hier:使用分层的潜在空间(hierarchical latent space ),也就是在生成器网络的每一层都会被喂入噪声向量。分层空间增加了计算量和内存消耗,但是可以使得精度提升4%,训练速度加快18%。
③ Ortho:使用正交正则化(Orthogonal Regularization ),为了能够抵消过饱和问题(如下图),本文采用了约束生成器使其平滑的策略。
[外链图片转存失败(img-iqKyj0gf-1562840306419)(upload://fr0tF5ex9vy8PF9CwwhwHVU4gAu.png)]
传统正交正则方法(Brock et al., 2017)已经被证明了有其局限性 (Miyato et al., 2018):
[外链图片转存失败(img-rwAFZZFD-1562840306426)(upload://6ZoWL6V15KjBQcCopTB8TJCOOs1.png)]
作者提出了另一种方法:
[外链图片转存失败(img-wHKLPzSy-1562840306427)(upload://pdXaFddhFAaFJjcSOdkRG3ntYPy.png)]
即把对角减1直接换成了消去,即放松了对截断的限制,提高了平滑性。实验证明在不使用该方法只有16%的模型能够适应截断,而加入了后这个数值达到了60%。

Model

[外链图片转存失败(img-gRprpLG7-1562840306429)(upload://okRp25HBH3s5XywHCXylcYE2qxJ.png)]
上图a是模型生成器框架,其中的ResBlock如b所示。c是判别器的ResBlock。模型框架本身并没有很特殊的点。

※Negative Results (相当于发现的一些问题)

  1. double网络深度会影响精度。
  2. 在判别器上使用嵌入参数的方法,对参数的选择非常敏感,刚开始有助于训练,后续则很难优化。
  3. 使用WeightNorm替换BatchNorm会使得训练难以收敛,去掉BatchNorm只有Spectral Normalization也会使得难以收敛(BatchNorm在生成器里还是一个必要的存在)。
  4. 判别器中增加BatchNorm会使得训练难以收敛(一般用InstanceNorm)。
  5. 在128128的输入情况下,改变attention block对精度没提升,在256256输入的情况下,将attention block上移一级,会对精度有提升。
  6. 相比采用33的卷积核,采用55的卷积核会使精度有略微提升,而7*7则不会。
  7. 使用膨胀卷积会降低精度。
  8. 将生成器中的最近邻插值换为双线性插值会使得精度降低。
  9. 在共享嵌入中使用权值衰减(weight decay),当该衰减值较大(10-6 )会损失精度,较小(10-8 )会起不到作用,不能阻止梯度爆炸。
  10. 在类别嵌入中,使用多层感知机(MLP)并不比线性投影(linear projections)好。
  11. 梯度归一化截断会使得训练不平稳。

Thoughts

本文可以说是对以往关于GAN工作的一个大型总结,并提出了一些优化模型的算法(如共享嵌入等)。这些总结出来的trick都可能在未来GAN的发展中祈祷标杆的作用。
另外,能够将BatchSize随便调到2048也是需要一定实力基础才能做出来的操作,github上一些其他人的实现都是将BatchSize调回了64。


http://chatgpt.dhexx.cn/article/7ofyKFxV.shtml

相关文章

BigGAN论文解读

论文:https://arxiv.org/pdf/1809.11096.pdf 源码:https://github.com/ajbrock/BigGAN-PyTorch 用于高保真自然图像合成的大规模GAN训练 摘要 尽管最近在生成图像建模方面取得了进展,但是从像ImageNet这样的复杂数据集中成功生成高分辨率、…

Big GAN

参考文献: •https://github.com/kayamin/DR-GAN •https://www.jianshu.com/p/4ee8f9284b81 •http://cvlab.cse.msu.edu/pdfs/Tran_Yin_Liu_CVPR2017.pdf •https://arxiv.org/abs/1809.11096 •https://juejin.im/entry/5c05e76c51882539c60cf2d5 •https:…

BigGAN

1、BIGGAN 解读 1.1、作者 Andrew Brock、Jeff Donahue、Karen Simonyan 1.2、摘要 尽管最近在生成图像建模方面取得了进展,但从 ImageNet 等复杂数据集中 成功生成高分辨率、多样化的样本仍然是一个难以实现的目标。为此,我们以迄 今为止最大的规模训…

BigGAN(2019)

论文引入 我们来看一下由 BigGAN 生成的图像: 随着 GAN、VAE 等一众生成模型的发展,图像生成在这几年是突飞猛进,14 年还在生成手写数字集,到 18 年已经将 ImageNet 生成的如此逼真了。 这中间最大的贡献者应该就是 GAN 了&…

BigGAN_用于高保真自然图像合成的大规模 GAN 训练

【飞桨】【Paddlepaddle】【论文复现】BigGAN 用于高保真自然图像合成的大规模 GAN 训练LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS1、BiagGAN的贡献2.1背景2.2具体措施与改变2.2.1规模(scaling up)2.2.2截断技巧(…

环形链表之快慢指针

环形链表 前言一、案例1、环形链表2、环形链表II 二、题解1、环形链表2、环形链表II3、源码4、寻找入环点的数学解法 总结参考文献 前言 对于环形链表,通过快慢指针,如果存在环,这这两个指针一定会相遇,这是一种经典的判断环或是应…

快慢指针判断链表中是否存在环以及查找环的起始位置

判断链表中是否有环? 使用快慢指针, 慢指针一次走一步, 快指针一次走两步, 当快慢指针相遇时,说明链表存在环 为什么快指针每次走两步而慢指针每次走一步呢? 因为slow指针和fast指针都会进入环内, 就像在环形跑道内不同位置的两个人;slow指针在后面, fast指针在前面, 但…

链表-快慢指针(C++)

一、链表 链表是由一组在内存中不必相连(不必相连:可以连续也可以不连续)的内存结构Node,按特定的顺序链接在一起的抽象数据类型。 我们常见的链表结构有单链表和双向链表。 单链表,保存了下一个结点的指针&#xf…

面试题 02.08. 环路检测-快慢指针+如何找到环的入口?(证明)Java

1.题目 2.思路 方法一——哈希表记录节点 思路很简单,记录一下每个节点出现的次数,如果某个节点出现了两次,代表此时有环,并且是环的入口,直接返回即可。 时间复杂度O(N) 空间复杂度O(N) public class Solution {…

链表中快慢指针的应用

目录 一、链表的中间结点 二、回文链表 三、链表中倒数第K个结点 四、删除链表的倒数第n个结点 五、环形链表 六、环形链表Ⅱ 一、链表的中间结点 给定一个头结点为 head 的非空单链表,返回链表的中间结点。 如果有两个中间结点,则返回第二个中间…

快慢指针思想

快慢指针思想 在做题当中经常会用到快慢指针,快慢指针就是定义两根指针,移动的速度一快一慢,从而创造出自己想要指针的差值。这个差值可以让我们找到链表上相应的节点。 参考链接:https://www.jianshu.com/p/21b4b8d7d31b 应用 …

指针的运用——快慢指针

快慢指针是指针的一种类型,在这里我们来了解下快慢指针 让我们来看一道题 一、题目 876. 链表的中间结点 首先我们对这道题进行分析,最容易让人想到的方法是直接使用n/2找到中点,如果我们不对链表进行遍历,我们该怎么做呢&…

浅谈快慢指针

快慢指针 快慢指针 快慢指针1.快慢指针的概念:2.快慢指针的应用:1. 判断单链表是否为循环链表2. 在有序链表中寻找中位数3.链表中倒数第k个节点 1.快慢指针的概念: 快慢指针就是存在两个指针,一个快指针,一个慢指针&a…

快慢指针应用总结

快慢指针 快慢指针中的快慢指的是移动的步长,即每次向前移动速度的快慢。例如可以让快指针每次沿链表向前移动2,慢指针每次向前移动1次。 快慢指针的应用 (1)判断单链表是否存在环 如果链表存在环,就好像操场的跑道是…

十大常用经典排序算法总结!!!

爆肝整理!堪称全网最详细的十大常用经典排序算法总结!!! 写在开头,本文经过参考多方资料整理而成,全部参考目录会附在文章末尾。很多略有争议性的细节都是在不断查阅相关资料后总结的,具有一定…

经典五大算法思想-------入门浅析

算法:求解具体问题的步骤描述,代码上表现出来是解决特定问题的一组有限的指令序列。 1、分治: 算法思想:规模为n的原问题的解无法直接求出,进行问题规模缩减,划分子问题(这里子问题相互独立而且…

算法设计经典算法

一、贪婪算法 1、概述 贪婪法又称贪心算法,是当追求的目标是一个问题的最优解时,设法把对整个问题的求解工作分成若干步骤来完成,是寻找最优解问题的常用方法。 贪婪法的特点是一般可以快速得到满意的解,因为它省去了为找最优解…

算法之经典图算法

图介绍表示图的数据结构图的两种搜索方式DFS可以处理问题BFS可以处理问题有向图最小生成树最短路径 图介绍 图:是一个顶点集合加上一个连接不同顶点对的边的集合组成。定义规定不允许出现重复边(平行边)、连接到顶点自身的边(自环…

计算机10大经典算法

算法一:快速排序法 快速排序是由东尼霍尔所发展的一种排序算法。在平均状况下,排序 n 个项目要Ο(n log n)次比较。在最坏状况下则需要Ο(n2)次比较,但这种状况并不常见。事实上,快速排序通常明显比其…

算法设计——五大算法总结

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 算法设计总结 一、【分治法】二、【动态规划法】三、【贪心算法】四、【回溯法】五、【分支限界法】 一、【分治法】 在计算机科学中,分治法是一种很重要的算法。…