WGAN、WGAN-GP、BigGAN

article/2025/11/9 21:03:40

一、WGAN概述

WGAN论文地址:https://arxiv.org/abs/1701.07875

在这篇论文中,作者研究了不同的测量方法,来描述模型生成样本和证实样本之间分布差距,或者说,不同的散度定义,在对比之后,认为EM是比较适用于GAN的,然后对EM定义了优化方法,文章重点如下:

  • 第二节,用综合利理论分析,对比了EM(Earth Mover)距离,与之前流行的概率距离(log(p)形式)的表现。
  • 第三节,定义了Wasserstein-GAN,用来合理、高效地最小化EM距离,并理论性描述了对应的优化问题。
  • 第四节,展示WGAN解决了GAN的主要训练问题。WGAN不需要在训练前确保,判别器和生成器的网络结构已经平衡。另外,模式坍塌也被减轻。

 整个WGAN的算法如下:

二、 WGAN-GP

 WGAN-GP论文地址:https://arxiv.org/abs/1704.00028

 这篇论文的作者,发现WGAN有时候会产生很差的样本,或者收敛失败。他们发现主要原因来自判别器的权重剪枝(Weight Clipping),这本是用来加强Lipschitz约束的。为了改善这个问题,提出了另一种权重剪枝方法——对每一个输入,惩罚对应的判别器的正则后的梯度。

主要内容如下:

  • 1、在玩具数据集上,证明了判别器权重剪枝导致的问题。
  • 2、提出了梯度惩罚(WGAN-GP),可以解决1中的问题。
  • 3、我们证实了这种改进带来的以下进步:(a).能稳定的训练用不同的GAN结构;(b).有高于权重剪枝的性能提升;(c).能生成高质量的图;(d).一个不使用离散采样的字符级GAN语言模型。

WGAN -GP的算法如下,与WGAN对比一下,就可以看出区别了:

三、BigGAN

BigGAN论文地址: https://arxiv.org/abs/1809.11096

 目前,从复杂的数据集(如ImageNet)中,生成高分辨率、多种多样的样本依然是一个难题。这篇论文就是在大尺寸图片上尝试训练GAN,研究改善稳定性的办法。摘要中只提了一个方法——正交正则化,采用正交正则化后,通过降低生成器输入z的方差,可以平衡生成样本的多样性和逼真度。以下D为判别器,G为生成器。

最近的一些论文旨在提高稳定性,一种思路是改进目标函数来促进收敛,另一种是通过约束D或者正则化,来弥补无边界的loss函数带来的负面影响,确保D在任何情况下都能给G提供梯度。

第三节,作者探索了大尺寸GAN训练的方法,获取大模型和大batch带来的性能提升。baseline使用SAGAN,给G的输入附加分类信息,使用的hinge loss函数,优化器设置是G、D学习率一致,每优化两次D优化一次G。详细信息在论文的附件C 。采用两个评价指标:Inception Score (IS),越大越好;Frechet Inception Distance (FID),越小越好。

研究发现以下改进:

  1. batchsize提高八倍,就有显著提升,IS分数提高46%。副作用是,在几次迭代后,生成图就有很好的细节,但是,最终变得不稳定,产生模式坍塌。原因会在第四节讨论。
  2. 提升了宽度(通道数)50%,参数大约翻倍了,这个是IS提高了约21%。猜测是相对于复杂的数据集,小模型容量是瓶颈,现在提升了容量。翻倍深度在初始并没有引起提升。这个问题会在后续的BigGAN-deep中探讨。
  3. 在提供给G的信息中,将类别c嵌入到条件(conditional)BN层会包含大量权重。我们使用了共享的嵌入,线性的把类别信息投射到每层的gains和bias里,这比之前的每次嵌入都用一个独立的层要快很多。
  4. G输入噪声z时,我们从简单的用z初始化层,改成了用z跳跃连接到之后的层。在BigGan里,是把z分成一个分辨率(?)一个块,然后每个块和c串联(concatenating)起来。在BigGan-deep里,就更简单了,直接把z和c串连起来了。
  5. 截断z向量,把超过设定阈值的值重采样,会提高单个样本的质量,但是会减小整体的样本多样性,见后面的图。(个人理解,阈值越小,截断后z的分布越相似。输入差异越小,收敛越好,但是多样性小了,)。但是训练大模型时,截断z向量可能会引起某些过饱和数据,模型不能完全符合截断。为了解决这个问题,提出了正交正则化,来使模型更符合截断,G更平顺,这样z就能很好的映射到输出样本。

 正交正则化的公式如下(ps本文中正态分布写为N(0,i),i 应该是自己定义的一个数):

 作者做了对比实验,结果如下表,上文提到的改进都有所体现:

另外, 上文第5点中的z截断阈值的影响,则在下图可以看出:

还有一些没看,未完待续。。。


http://chatgpt.dhexx.cn/article/J8WcSySd.shtml

相关文章

tf hub bigGan 猫变狗

原文链接: tf hub bigGan 猫变狗 上一篇: tf hub mobile_net 使用 下一篇: tf hub 使用缓存 数据 根据输入的标签和噪声生成指定类别的图片,类似infogan 每次向着目标前进一小步,将其中的过程变化记录下来 import tensorflow as tf import n…

(2018, BigGAN)用于高保真自然图像合成的大规模 GAN 训练

Large scale gan training for high fidelity natural image synthesis 公众号:EDPJ 目录 0. 摘要 1. 简介 2. 背景 3. 扩展 GAN 3.1 使用截断技巧权衡多样性和保真度 3.2 总结 4. 分析 4.1 表征不稳定性:生成器 4.2 表征不稳定性&#xff1…

深度解读DeepMind新作:史上最强GAN图像生成器—BigGAN

在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考。 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果。 点击本文底部的「阅读原文」即刻加入社区,查看更多最新论文推荐。 这…

基于飞桨实现BigGAN生成动漫图像——为艺术创作赋能

点击左上方蓝字关注我们 【飞桨开发者说】艾梦,深度学习业余选手,热衷于用AI创造新的可能性,努力探索发现未知的神奇世界。玩AI,我是认真的。 作为学力不足、码力有余的深度学习业余玩家,笔者在工作中忙里偷闲&#xf…

GAN变种介绍 - DCGAN、InfoGAN、CycleGAN、WGAN、Self-Attention GAN、BigGAN

GAN变种介绍 - DCGAN、InfoGAN、CycleGAN、WGAN、Self-Attention GAN、BigGAN 一、DCGAN二、InfoGAN三、CycleGAN四、WGAN五、Self-Attention GAN六、BigGAN 在原始的 GAN 论文中,Ian Goodfellow 从理论层面分析了 GAN 网络的收敛性,并且在多个经典图片数…

基于飞桨PaddlePaddle实现BigGAN生成动漫图像——为艺术创作赋能

作为学力不足、码力有余的深度学习业余玩家,笔者在工作中忙里偷闲,借助AI Studio的免费GPU继续自己对于生成对抗网络落地应用的相关研究。尽管深度学习已在工业生成中广泛应用,但作为研究重头的视觉效果极佳的GAN的图像生成,却在应…

深度学习(四十六)——StarGAN, InfoGAN, ProGAN, StyleGAN, BigGAN, FUNIT, CVAE

StarGAN 论文: 《StarGAN: Unified Generative Adversarial Networksfor Multi-Domain Image-to-Image Translation》 CycleGAN的局限在于:对于两个Domain之间的变换,需要两个G网络。可以想象,当Domain的数量上升时,…

biggan:large scale gan training for high fidelity natural image synthesis

深度解读DeepMind新作:史上最强GAN图像生成器—BigGAN - 知乎本期推荐的论文笔记来自 PaperWeekly 社区用户 TwistedW。由 DeepMind 带来的 BigGAN 可谓是笔者见过最好的 GAN 模型了,这里的 Big 不单单是指模型参数和 Batch 的大,似乎还在暗示…

飞桨PaddlePaddle(论文复现)-BigGAN解读

飞桨PaddlePaddle(论文复现)-BigGAN解读 先来看看效果(左上脚为生成的图像) 论文在现有GAN的基础上对生成样本的保真度与多样性之间的权衡进行改进 在ImageNet的128*128分辨率下训练,我们的模型(BigGANs)得到了166…

深度学习系列43:引入注意力的SAGAN/BigGAN和big_sleep

1. 从SAGAN到BigGAN sa_gan是Self-Attention Generative Adversarial Networks的缩写。 动机:一般的dc_gan(deep convolution)模型擅长处理含有大量纹理的类型,比如天空、风景等,但在结构上的表现比较差,比如不能正确生成人脸、四…

【Large Scale Adversarial Representation Learning 大规模对抗学习(BigGAN) 】学习笔记

目录 1.背景 2.特点 3.BigGAN详细介绍 ①Batch size的增大------以提升IS ②增加网络深度,即增加每层的通道数------以提升IS ③BatchNorm共享嵌入条件标签c------增加参数,提升训练速度 ④将噪声向量 z 送到 G 的多个层而不仅仅是初始层-----提升…

ICLR 2019 Oral 论文 BigGAN 解读及源代码拆解

简称:BigGAN 全称:Large Scale GAN Training for High Fidelity Natural Image Synthesis 来源:ICLR 2019 Oral 一、概述 (一)概要说一下 BigGAN 的研究背景: 到 BigGAN 提出为止,虽然 GANs…

BigGAN-论文阅读笔记

BigGAN-论文阅读笔记 论文地址:Large Scale GAN Training for High Fidelity Natural Image Synthesis-ReadPaper论文阅读平台 文章目录 BigGAN-论文阅读笔记论文结构摘要原文核心 研究背景谱归一化(Spectral Normalization)条件判别 研究意…

BigGAN高保真自然图像合成的大规模GAN训练

2019-02-24 22:23:17 BigGAN-LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS 原文:https://arxiv.org/abs/1809.11096 作者:来自DeepMind & Heriot-Watt University 译者:Tony 时长:3K字&#xff…

BigGAN、BiGAN、BigBiGAN简单介绍

介绍 上一篇文章在介绍GAN的评价标准的时候提到了 BigGAN 在Inception Score上取得了巨大的进步,而最近 DeepMind 又基于 BiGAN 提出了 BigBiGAN,它在 ImageNet 上的无监督表示学习和无条件图像生成方面都取得了极为优秀的成绩。 本文主要对BigGAN和BiG…

【GANs学习笔记】(十三)BIGGAN

完整笔记:http://www.gwylab.com/note-gans.html ——————————————————————— 原paper及译文: http://www.gwylab.com/paper-biggan.html 4. BigGAN 4.1 BigGAN解决的问题 我们知道,GANs的终极目标是生成让人无法辨别真…

Paper Reading:BigGAN

URL: https://arxiv.org/pdf/1809.11096.pdf code: https://github.com/AaronLeong/BigGAN-pytorch https://tfhub.dev/s?qbiggan TL;DR 号称具有划时代意义的BigGAN,由DeepMind团队在ICLR2019上发表,将精度作出了跨越式提升。 将Inception Score (IS…

BigGAN论文解读

论文:https://arxiv.org/pdf/1809.11096.pdf 源码:https://github.com/ajbrock/BigGAN-PyTorch 用于高保真自然图像合成的大规模GAN训练 摘要 尽管最近在生成图像建模方面取得了进展,但是从像ImageNet这样的复杂数据集中成功生成高分辨率、…

Big GAN

参考文献: •https://github.com/kayamin/DR-GAN •https://www.jianshu.com/p/4ee8f9284b81 •http://cvlab.cse.msu.edu/pdfs/Tran_Yin_Liu_CVPR2017.pdf •https://arxiv.org/abs/1809.11096 •https://juejin.im/entry/5c05e76c51882539c60cf2d5 •https:…

BigGAN

1、BIGGAN 解读 1.1、作者 Andrew Brock、Jeff Donahue、Karen Simonyan 1.2、摘要 尽管最近在生成图像建模方面取得了进展,但从 ImageNet 等复杂数据集中 成功生成高分辨率、多样化的样本仍然是一个难以实现的目标。为此,我们以迄 今为止最大的规模训…