简单理解Pix2Pix

article/2025/8/27 1:31:13

论文名：Image-to-Image Translation with Conditional Adversarial Networks
论文地址：https://arxiv.org/abs/1611.07004
代码链接：https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix

Pix2Pix是做什么的

图像风格迁移，一个例子如下所示：
在这里插入图片描述

即，输入一张图像，输出一张风格改变后的图像。

Pix2Pix的网络结构

在这里插入图片描述
在训练的时候，输入为一个图像对，包含待变换的原始图像 $x$ ，以及相应的变换后的真值 $y$ 。实际使用中可能还会有一个额外的噪声输入 $z$ ，以提升输出结果的多样性。

Pix2Pix的一个关键思想是，判别器在输入时不仅只包含生成器的预测结果 $G (x)$ ，而且包含原始图像 $x$ ，这样就可以限制生成器的预测结果应与原始图像的内容相匹配(而不是随便生成张"看起来真实"的图像来欺骗判别器)。从这里可以看到，Pix2Pix属于一种条件GAN，其中的条件是原始图像 $x$ 自身。

至于网络的具体结构，生成器采用的是UNet，而判别器采用的是PatchGAN。

Pix2Pix的损失函数

总的损失函数如下所示： $G^{*}=\arg \min _{G} \max _{D} \mathcal{L}_{c G A N}(G, D)+\lambda \mathcal{L}_{L 1}(G)$ 可以发现包含两个部分，条件GAN损失 $\mathcal{L}_{c G A N}(G, D)$ 与L1损失 $\mathcal{L}_{L 1}(G)$ 。

先看简单的 $\mathcal{L}_{L 1}(G)$ 。该损失函数只作用在生成器上，用于约束生成图像与真实图像 $y$ 之间的差异，具体来说的话可以简单理解为边缘对齐与颜色还原 $\mathcal{L}_{L 1}(G)=\mathbb{E}_{x, y, z}\left[\|y-G(x, z)\|_{1}\right]$ 再看 $\mathcal{L}_{c G A N}(G, D)$ ，这个的作用就是进行对抗训练了： $\mathcal{L}_{c G A N}(G, D)= \mathbb{E}_{x, y}[\log D(x, y)]+\mathbb{E}_{x, z}[\log (1-D(x, G(x, z))]$