GAN——对抗生成网络

article/2025/9/24 18:17:54

GAN的基本思想

作为现在最火的深度学习模型之一，GAN全称对抗生成网络，顾名思义是生成模型的一种，而他的训练则是处于一种对抗博弈状态中的。它使用两个神经网络，将一个神经网络与另一个神经网络进行对抗。
基本思想：（摘自某*乎）
假如你是一名篮球运动员，你想在下次比赛中得到上场机会。
于是在每一次训练赛之后你跟教练进行沟通：

你：教练，我想打球
教练：（评估你的训练赛表现之后）… 算了吧
（你通过跟其他人比较，发现自己的运球很差，于是你苦练了一段时间）

你：教练，我想打球
教练：… 嗯还不行
（你发现大家投篮都很准，于是你苦练了一段时间的投篮）

你：教练，我想打球
教练： … 嗯还有所欠缺
（你发现你的身体不够壮，被人一碰就倒，于是你去泡健身房）

…

通过这样不断的努力和被拒绝，你最终在某一次训练赛之后得到教练的赞赏，获得了上场的机会。
值得一提的是在这个过程中，所有的候选球员都在不断地进步和提升。因而教练也要不断地通过对比场上球员和候补球员来学习分辨哪些球员是真正可以上场的，并且要“观察”得比球员更频繁。随着大家的成长教练也会会变得越来越严格。

基本结构：

GAN的主要结构包括一个生成器G（Generator）和一个判别器D（Discriminator）。

判别器的任务是判断输入图像是源自数据集中还是由机器生成的。判别器一般使用二分类的神经网络来构建，一般将取自数据集的样本视为正样本，而生成的样本标注为负样本。生成器的任务是接收随机噪声，然后使用反卷积网络来创建一个图像。生成器的随机输入可以看做一个种子，相同的种子会得到相同的生成图像，不同的种子则得到的图像不同，大量种子的作用是保证生成图像的多样性。

在上面的例子中的球员就相当于生成器，我们需要他在球场上能有好的表现。而球员一开始都是初学者，这个时候就需要一个教练员来指导他们训练，告诉他们训练得怎么样，直到真的能够达到上场的标准。而这个教练就相当于判别器。

GAN的双系统的目的是让生成器尽量去迷惑判别器，同时让判别器尽可能的对输入图像的来源进行判断。两个模型之间是互相对抗的关系，它们都会通过试图击败对方来使自己变得更好。生成器可以通过判别器得到它生成的图像和数据集图像分布是否一致的反馈，而判别器则可以通过生成器得到更多的训练样本。

举个例子：
我们现在拥有大量的手写数字的数据集，我们希望通过GAN生成一些能够以假乱真的手写字图片。
在这里插入图片描述

定义一个模型来作为生成器（图三中蓝色部分Generator），能够输入一个向量，输出手写数字大小的像素图像。
定义一个分类器来作为判别器（图三中红色部分Discriminator）用来判别图片是真的还是假的（或者说是来自数据集中的还是生成器中生成的），输入为手写图片，输出为判别图片的标签。

训练过程是什么？

前面已经定义了好了
一个生成器（Generator）来生成手写数字，
一个判别器（Discrimnator）来判别手写数字是否是真实的，和一些真实的手写数字数据集。

训练的基本过程（重难点）：

初始化判别器D的参数和生成器G的参数。
从真实样本中采样 m 个样本
从先验分布噪声中采样 m 个噪声样本
并通过生成器获取 m 个生成样本

固定生成器G，训练判别器D尽可能好地准确判别真实样本和生成样本，尽可能大地区分正确样本和生成的样本。

循环k次更新判别器之后，使用较小的学习率来更新一次生成器的参数，训练生成器使其尽可能能够减小生成样本与真实样本之间的差距，也相当于尽量使得判别器判别错误。
多次更新迭代之后，最终理想情况是使得判别器判别不出样本来自于生成器的输出还是真实的输出。亦即最终样本判别概率均为0.5。

注：图中的黑色虚线表示真实的样本的分布情况，蓝色虚线表示判别器判别概率的分布情况，绿色实线表示生成样本的分布。表示噪声，到表示通过生成器之后的分布的映射情况。

我们的目标是使用生成样本分布（绿色实线）去拟合真实的样本分布（黑色虚线），来达到生成以假乱真样本的目的。

可以看到在（a）状态处于最初始的状态的时候，生成器生成的分布和真实分布区别较大，并且判别器判别出样本的概率不是很稳定，因此会先训练判别器来更好地分辨样本。
通过多次训练判别器来达到（b）样本状态，此时判别样本区分得非常显著和良好。然后再对生成器进行训练。
训练生成器之后达到（c）样本状态，此时生成器分布相比之前，逼近了真实样本分布。
经过多次反复训练迭代之后，最终希望能够达到（d）状态，生成样本分布拟合于真实样本分布，并且判别器分辨不出样本是生成的还是真实的（判别概率均为0.5）。也就是说我们这个时候就可以生成出非常真实的样本啦，目的达到。