Pix2Pix

article/2025/8/27 1:26:53

1. 概述

很多的图像处理问题可以转换成图像到图像(Image-to-Image)的转换,即将一个输入图像翻译成另外一个对应的图像。通常直接学习这种转换,需要事先定义好损失函数,然而对于不同的转换任务,需要设计的损失函数也不尽相同。得益于生成对抗网络GAN的提出,尤其是条件生成对抗网络cGAN[1](conditional GAN),可以直接学习这种映射关系,同时不需要人工定义该映射的损失函数,可以通过自动的学习得到。基于cGAN的基本原理,Pix2Pix[2]提出了一种图像转图像的通用框架。Pix2Pix网络不仅能够学习到从输入图像到输出图像的映射,还能学习到用于训练该映射的损失函数。

2. 算法原理

2.1. Pix2Pix的原理

与GAN,cGAN的结构一致,在Pix2Pix中包括两个部分,即生成器 G G G和判别器 D D D,对于cGAN的结构,可以由下图表示:

在这里插入图片描述

其中, z \boldsymbol{z} z为随机噪音, x \boldsymbol{x} x为条件变量,对于基本的cGAN,将随机噪音 z \boldsymbol{z} z和随机变量 x \boldsymbol{x} x两者concat后输入到生成器 G G G中,得到生成结果 G ( x , z ) G\left ( \boldsymbol{x},\boldsymbol{z} \right ) G(x,z);将生成的结果 G ( x , z ) G\left ( \boldsymbol{x},\boldsymbol{z} \right ) G(x,z)或者真实数据 y \boldsymbol{y} y与随机变量 x \boldsymbol{x} x两者concat后输入到判别器 D D D中,判断该输入是来自真实的,还是生成的。而Pix2Pix的结构如下图所示:

在这里插入图片描述

其中生成器 G G G将输入的轮廓图 x \boldsymbol{x} x映射成图片 G ( x ) G\left ( \boldsymbol{x} \right ) G(x),判别器 D D D在轮廓图 x \boldsymbol{x} x的条件下,对于生成的图片 G ( x ) G\left ( \boldsymbol{x} \right ) G(x)和真实图片 y \boldsymbol{y} y判断是否是真实图片。与cGAN相比,有四点不一致:

差异cGANPix2Pix
生成器 G G G的输入concat( z \boldsymbol{z} z, x \boldsymbol{x} x) x \boldsymbol{x} x
生成器 G G GMLPU-Net
判别器 G G G的输入concat( G ( x , z ) G\left ( \boldsymbol{x},\boldsymbol{z} \right ) G(x,z), x \boldsymbol{x} x)concat( G ( x ) G\left ( \boldsymbol{x} \right ) G(x), x \boldsymbol{x} x)
判别器 D D DMLPPatchGAN

对于cGAN,其目标函数为:

L c G A N ( G , D ) = E x , y [ l o g D ( x , y ) ] + E x , z [ l o g ( 1 − D ( x , G ( x , z ) ) ) ] L_{cGAN}\left ( G,D \right )=\mathbb{E}_{\boldsymbol{x},\boldsymbol{y}}\left [ log\; D\left ( \boldsymbol{x},\boldsymbol{y} \right ) \right ]+\mathbb{E}_{\boldsymbol{x},\boldsymbol{z}}\left [ log\; \left ( 1-D\left ( \boldsymbol{x},G\left ( \boldsymbol{x},\boldsymbol{z} \right ) \right ) \right ) \right ] LcGAN(G,D)=Ex,y[logD(x,y)]+Ex,z[log(1D(x,G(x,z)))]

最优的生成器 G ∗ G^{\ast} G为:

G ∗ = a r g m i n G m a x D L c G A N ( G , D ) G^{\ast}=argmin_{G}max_{D}L_{cGAN}\left ( G,D \right ) G=argminGmaxDLcGAN(G,D)

Pix2Pix在cGAN目标函数的基础上,增加了 L 1 L_1 L1正则:

L L 1 ( G ) = E x , y , z [ ∥ y − G ( x , z ) ∥ 1 ] L_{L_1}\left ( G \right )=\mathbb{E}_{\boldsymbol{x},\boldsymbol{y},\boldsymbol{z}}\left [ \left \| \boldsymbol{y}-G\left ( \boldsymbol{x},\boldsymbol{z} \right ) \right \|_1 \right ] LL1(G)=Ex,y,z[yG(x,z)1]

最终,最优的生成器 G ∗ G^{\ast} G为:

G ∗ = a r g m i n G m a x D L c G A N ( G , D ) + λ L L 1 ( G ) G^{\ast}=arg\; \underset{G}{min}\; \underset{D}{max}L_{cGAN}\left ( G,D \right )+\lambda L_{L_1}\left ( G \right ) G=argGminDmaxLcGAN(G,D)+λLL1(G)

在Pix2Pix中,设计了专门的生成器 G G G和判别器 D D D

2.2. 生成器U-Net

在Pix2Pix中的生成器 G G G采用了U-Net结构,U-Net[3]是2015年提出用于处理生物医学图像分割的卷积网络,U-Net的网络结构如下图所示:

在这里插入图片描述

如上图,U-Net网络是一个对称的结构,因为形似英文字母“U”所以也被称为U-Net。在上图中,蓝色和白色的框表示的是 feature map,蓝色箭头表示的是 3 × 3 3\times 3 3×3的卷积,用于特征提取,灰色箭头表示的是skip-connection,用于特征融合,红色箭头表示的是pooling,用于降低维度,绿色箭头表示的是上采样upsample,用于恢复维度,青色箭头表示的是 1 × 1 1\times 1 1×1的卷积,用于输出结果。

U-Net网络是一个典型的Encoder-Decoder结构,与一般的Encoder-Decoder结构不同的是在Encoder和Decoder之间增加了skip connection。其中Encoder是由卷积操作和下采样操作组成,用于特征提取;Decoder是由卷积操作和upsampling操作组成。其与encoder-decoder架构的关系如下图所示:

在这里插入图片描述

2.3. 判别器PatchGAN

判别器PatchGAN的思路也比较直接,对比原先一个CNN模型对整个图片进行卷积和pooling的操作,在PatchGAN中,模型对每一个 N × N N\times N N×N的patch进行操作,最终将所有的patch块的结果做平均,作为最终的判别器 D D D的输出。

3. 总结

Pix2Pix借鉴cGAN的基本原理,并对其中的损失函数,生成器 G G G,判别器 D D D分别做了优化,从而实现了图像到图像的转换。

参考文献

[1] Mirza M, Osindero S. Conditional generative adversarial nets[J]. arXiv preprint arXiv:1411.1784, 2014.

[2] Isola, Phillip, Jun-Yan Zhu, Tinghui Zhou, and Alexei A. Efros. “Image-to-image translation with conditional adversarial networks.” In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 1125-1134. 2017.

[3] Ronneberger O , Fischer P , Brox T . U-Net: Convolutional Networks for Biomedical Image Segmentation[J]. Springer International Publishing, 2015.

[4] Pix2Pix图图转换网络原理分析与pytorch实现

[5] U-Net原理分析与代码解读


http://chatgpt.dhexx.cn/article/G24AZCTd.shtml

相关文章

pix2pix的简介

概念: 给定一个输入数据和噪声数据生成目标图像,在pix2pix中判别器的输入是生成图像和源图像,而生成器的输入是源图像和随机噪声(使生成模型具有一定的随机性),pix2pix是通过在生成器的模型层加入Dropout来…

AI修图!pix2pix网络介绍

语言翻译是大家都知道的应用。但图像作为一种交流媒介,也有很多种表达方式,比如灰度图、彩色图、梯度图甚至人的各种标记等。在这些图像之间的转换称之为图像翻译,是一个图像生成任务。 多年来,这些任务都需要用不同的模型去生成…

pix2pix论文详解

pix2pix论文详解 – 潘登同学的对抗神经网络笔记 文章目录 pix2pix论文详解 -- 潘登同学的对抗神经网络笔记 pix2pix简介模型输入与GAN的区别Loss函数的选取conditional GAN的loss 生成器网络结构判别器网络结构训练过程生成器G的训练技巧将dropout用在预测 评估指标 艺术欣赏 …

对于pix2pix的介绍以及实现

最近读了pix2pix的相关文章,也是关于对抗生成的。它与之前接触的GAN有挺大的不同。比如从训练集来说,它是进行成对的训练(接下来会介绍),损失函数的不同比如加入了L1损失,以及生成器的输入,以及…

GAN系列之 pix2pixGAN 网络原理介绍以及论文解读

一、什么是pix2pix GAN 论文:《Image-to-Image Translation with Conditional Adversarial Networks》 pix2pix GAN主要用于图像之间的转换,又称图像翻译。图像处理的很多问题都是将一张输入的图片转变为一张对应的输出图片,端到端的训练。 …

pix2pix算法原理与实现

一、算法名称 Pix2pix算法(Image-to-Image Translation,图像翻译) 来源于论文:Image-to-Image Translation with Conditional Adversarial Networks 二、算法简要介绍、研究背景与意义 2.1介绍 图像处理、图形学和视觉中的许多问题都涉及到将输入图像转换为相应…

Java字符串按照字节数进行截取

本文为joshua317原创文章,转载请注明:转载自joshua317博客 Java字符串按照字节数进行截取 - joshua317的博客 一、问题 编写一个截取字符串的函数,输入为一个字符串和字节数,输出为按字节截取的字符串。但是要保证汉字不被截半个&#xff0…

JAVA中截取字符串中指定字符串

JAVA中截取指定字符串 举个例子,需要截取“abcdef”中的“cde”。 场景1:获取该字符串的下标。输出“cde”。 public static void main(String[] args) {// TODO Auto-generated method stubString data "abcdef";String out data.substri…

Java字符串截取 方法

在 String 中提供了两个截取字符串的方法,一个是从指定位置截取到字符串结尾,另一个是截取指定范围的内容。 方法的重载: public String substring(int beginIndex) {}public String substring(int beginIndex, int endIndex) {}例子演示&am…

java截取某个字符之前的字符串

1.截取"-"之前字符串 代码如下(示例): //java截取某个字符之前的字符串 public static void substringTest01(){String str "1627579713907351556-202302200018";//截取-之前字符串String str1 str.substring(0, str.…

java中字符串截取,调用substring()方法

substring() 方法返回字符串的子字符串。在java中 substring()方法有两种用法, 第一种 public String substring(int beginIndex) 第二种 public String substring(int beginIndex, int endIndex) 参数的意思 beginIndex -- 起始索引(包括&#xff09…

java截取指定字符串中的某段字符

利用字符串的substring函数来进行截取。 其中,substring函数有两个参数: 1、第一个参数是开始截取的字符位置。(从0开始) 2、第二个参数是结束字符的位置1。(从0开始) indexof函数的作用是查找该字符串中…

Java截取某个特殊字符前后的字符串

思路:想要根据某个特殊字符进行截取字符串,最终是要用到substring()函数,那么关键,是要找到特殊字符所在的位置,也就是要用到函数indexOf()和laseIndexOf()两个函数。 举例: String str "abc_def_gh…

java字符串截取后几位

字符串中截取后几位,或从后面数第几位到第几位! public class demo4 {public static void main(String[] args) {String str "(P)UA000110222(S)4123222200005";//截取后四位String substring str.substring(str.length() - 4);System.out.…

Java字符串截取,截取某个字符之前或者之后的字符串

提示:java截取某个字符之前或者之后的字符串 文章目录 一、java截取某个字符之前或者之后的字符串:1. 截取"_"之前字符串2. 截取"_"之后字符串 二、截取正数第二个"_"后面的内容 一、java截取某个字符之前或者之后的字符串: 1. 截取…

java实现爬虫_手把手教你从零开始用Java写爬虫

本文将手把手地教大家从零开始用Java写一个简单地爬虫! 目标 爬取全景网图片,并下载到本地 收获 通过本文,你将复习到: IDEA创建工程IDEA导入jar包爬虫的基本原理Jsoup的基本使用File的基本使用FileOutputStream的基本使用ArrayLi…

java爬虫 webcollector_Java爬虫-WebCollector | 学步园

爬虫简介: WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。 爬虫内核: WebCollector致力于维护一个稳定、可扩的爬虫内核,便于开发者进行…

Java爬虫高级教程-动力节点

作为网络爬虫的入门采用Java开发语言,内容涵盖了网络爬虫的原理以及开发逻辑,Java网络爬虫基础知识,网络抓包介绍,jsoup的介绍与使用,HttpClient的介绍与使用等内容。本课程在介绍网络爬虫基本原理的同时,注…

java 爬虫处理数据_Java语言实现爬虫实战

引言 网络上有许多信息,我们如何自动的获取这些信息呢?没错,网页爬虫~! 在这篇博文中,我将会使用java语言一步一步的编写一个原型的网页爬虫,其实网页爬虫并没有它听起来那么难。 紧跟我的教程,我相信你会在…

2021年Java爬虫技术教程(一小时实现)

Java爬虫开发 操作要点 正则表达式 Java网络通信:URL IO流 Map—HashMap 字符串操作 异常处理 项目已上传本人码云(gitee)传送门 如果这篇博客对你有一点点小帮助,希望您能给我来波一键三连; 前言 python优点&am…