pix2pix论文详解

article/2025/8/27 4:15:08

pix2pix论文详解 – 潘登同学的对抗神经网络笔记

文章目录

    • pix2pix论文详解 -- 潘登同学的对抗神经网络笔记
  • pix2pix简介
    • 模型输入
    • 与GAN的区别
    • Loss函数的选取
      • conditional GAN的loss
    • 生成器网络结构
    • 判别器网络结构
    • 训练过程
      • 生成器G的训练技巧
      • 将dropout用在预测
    • 评估指标
  • 艺术欣赏

pix2pix在语义标签图转真实照片、简笔画转真图、黑白图像上色、卫星航拍图转地图等图像转译任务上表现优秀

pix2pix简介

pix2pix是Conditional GAN的一个变体,能够实现从图像到图像的映射,在从标签映射合成照片、从边缘映射重建对象、图片上色等多类人物的表现较好。它比较适合于监督学习,即图像的输入和它的输出是相互匹配的。所谓匹配数据集是指在训练集中两个互相转换的领域之间有明确的一一对应数据。在工程实践中研究者需要自己收集这些匹配数据,但有时同时采集两个不同领域的匹配数据是麻烦的,通常采用的方案是从更完整的数据中还原简单数据。比如直接将彩色图片通过图像处理的方法转为黑白图片。

模型输入

下图展示了Pix2Pix使用Conditional GAN训练生成对抗网络的思路,这里是手绘鞋和真实鞋子图像的一组配对数据,生成器通过作为条件的手绘数据生成了左图中的鞋子,然后我们将两者放入判别器中,判别器应该判断为假,而当我们将真实的配对数据输入时,判别器应该判断为真。

在这里插入图片描述

与GAN的区别

对于图像翻译任务来说,pix2pix对传统的GAN做了个小改动,它不再输入随机噪声,而是输入用户给的图片。它的G输入显然应该是一张图 x x x,输出当然也是一张图 y y y。但是D的输入却应该发生一些变化,因为除了要生成真实图像之外,还要保证生成的图像和输入图像是匹配的。于是D的输入就做了一些变动,如下图所示:

Loss函数的选取

在这里插入图片描述

在这里插入图片描述

conditional GAN的loss

x是输入图像,y是真实图像,z是噪声; 判别器G想让Loss最大化,而生成器D则想让Loss最小化
L c G A N ( G , D ) = E x , y [ log ⁡ D ( x , y ) ] + E x , z [ log ⁡ ( 1 − D ( x , G ( x , z ) ) ) ] L_{cGAN}(G,D) = E_{x,y}[\log{D(x,y)}] + E_{x,z}[\log(1-D(x,G(x,z)))] LcGAN(G,D)=Ex,y[logD(x,y)]+Ex,z[log(1D(x,G(x,z)))]

作为对比,以下列一个普通GAN的loss函数
L G A N ( G , D ) = E y [ log ⁡ D ( y ) ] + E x , z [ log ⁡ ( 1 − D ( G ( x , z ) ) ) ] L_{GAN}(G,D) = E_y[\log{D(y)}] + E_{x,z}[\log(1-D(G(x,z)))] LGAN(G,D)=Ey[logD(y)]+Ex,z[log(1D(G(x,z)))]

同时,一般的conditional GAN会给loss加上一个l2 loss,但是pix2pix实验过后,选择了l1 loss(这两者都会使得图像变得模糊)
L L 1 ( G ) = E x , y , z [ ∣ ∣ y − G ( x , z ) ∣ ∣ 1 ] L_{L1}(G) = E_{x,y,z}[||y - G(x,z)||_{1}] LL1(G)=Ex,y,z[yG(x,z)1]

总的来说,pix2pix的目标函数就是
G ∗ = arg min ⁡ G m a x D L c G A N ( G , D ) + λ L L 1 ( G ) G^* = \argmin_{G}max_{D} L_{cGAN}(G,D) + \lambda L_{L1}(G) G=GargminmaxDLcGAN(G,D)+λLL1(G)

注意 这里之所以加噪声的原因是: 如果不加噪声的话,会导致网络总是生成确定性的结果(对于cGAN);就是所谓的delta functiion. delta function就是在x为零的时候,输出的y不为零,当x不为零的时候,输出的y一直为零; (但是在pix2pix中,没有发现这个现象,而且pix2pix是通过dropout来增加爱随机性的)

在这里插入图片描述

生成器网络结构

网络采用的是U-Net的FCN全卷积网络

在这里插入图片描述

之前在讲语义分割的时候,也讲过U-Net,重新回顾一下;

整个 U-Net 网络结构如图,类似于一个大大的 U 字母:首先进行 Conv+Pooling 下采样;然后 Deconv 反卷积进行上采样,crop 之前的低层 feature map,进行融合;然后再次上采样。重复这个过程,直到获得输出 388x388x2 的 feature map,最后经过 softmax 获得 output segment map。总体来说与 FCN 思路非常类似;

判别器网络结构

判别器网络结构采用的是PatchGAN, Patch是小图块的意思; 作者给他起了个名字叫做Markovian discriminator 马尔科夫是一个假设,假设状态与状态之间独立,而PatchGAN的思路也是 Patch与Patch之间独立;

前面的L1 和 L2 Loss都会导致判别器只捕获到了低频的颜色渐变信息而不是高频的边缘信息;而设计判别器的初衷只是为了捕捉高频信息,让l1 loss去捕捉低频信息; 所以PatchGAN将图片划分成了 N ∗ N N*N NN个网格,对每个网格做二分类,最后将 N ∗ N N*N NN的结果加起来求平均,得到最终的判别结果;

在这里插入图片描述

训练过程

生成器G的训练技巧

与GAN一样,对G和D采取了交替训练的技巧

对于生成器 G G G,最小化 log ⁡ ( 1 − D ( x , G ( x , z ) ) ) \log(1-D(x,G(x,z))) log(1D(x,G(x,z))),在刚开始的时候 G G G生成的图片非常假,判别器很容易判别出来,对应函数 log ⁡ ( 1 − D ( x , G ( x , z ) ) ) \log(1-D(x,G(x,z))) log(1D(x,G(x,z)))很接近0,导致梯度很小,基本调不动;所以在训练的时候最大化 D ( x , G ( x , z ) ) D(x,G(x,z)) D(x,G(x,z))

将dropout用在预测

过往的dropout都是只用在训练而不用在预测,pix2pix为了给生成的图像增加随机性,在测试过程中也使用的dropout;

除此之外,在BN层的时候, 过往的都是通过train data来训练BN,而pix2pix在test的时候的BN则是采用输入图像来做; (贴一个BN的复习图)

在这里插入图片描述

评估指标

评估方法与CycleGAN基本一样,要么AMT众包平台,要么给语言分割模型,将生成的图输入给语言分割,结果是否与真正表达的语义信息相等;

艺术欣赏

剩下就是欣赏pix2pix的神奇了…

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述


http://chatgpt.dhexx.cn/article/FnQ6C3Co.shtml

相关文章

对于pix2pix的介绍以及实现

最近读了pix2pix的相关文章,也是关于对抗生成的。它与之前接触的GAN有挺大的不同。比如从训练集来说,它是进行成对的训练(接下来会介绍),损失函数的不同比如加入了L1损失,以及生成器的输入,以及…

GAN系列之 pix2pixGAN 网络原理介绍以及论文解读

一、什么是pix2pix GAN 论文:《Image-to-Image Translation with Conditional Adversarial Networks》 pix2pix GAN主要用于图像之间的转换,又称图像翻译。图像处理的很多问题都是将一张输入的图片转变为一张对应的输出图片,端到端的训练。 …

pix2pix算法原理与实现

一、算法名称 Pix2pix算法(Image-to-Image Translation,图像翻译) 来源于论文:Image-to-Image Translation with Conditional Adversarial Networks 二、算法简要介绍、研究背景与意义 2.1介绍 图像处理、图形学和视觉中的许多问题都涉及到将输入图像转换为相应…

Java字符串按照字节数进行截取

本文为joshua317原创文章,转载请注明:转载自joshua317博客 Java字符串按照字节数进行截取 - joshua317的博客 一、问题 编写一个截取字符串的函数,输入为一个字符串和字节数,输出为按字节截取的字符串。但是要保证汉字不被截半个&#xff0…

JAVA中截取字符串中指定字符串

JAVA中截取指定字符串 举个例子,需要截取“abcdef”中的“cde”。 场景1:获取该字符串的下标。输出“cde”。 public static void main(String[] args) {// TODO Auto-generated method stubString data "abcdef";String out data.substri…

Java字符串截取 方法

在 String 中提供了两个截取字符串的方法,一个是从指定位置截取到字符串结尾,另一个是截取指定范围的内容。 方法的重载: public String substring(int beginIndex) {}public String substring(int beginIndex, int endIndex) {}例子演示&am…

java截取某个字符之前的字符串

1.截取"-"之前字符串 代码如下(示例): //java截取某个字符之前的字符串 public static void substringTest01(){String str "1627579713907351556-202302200018";//截取-之前字符串String str1 str.substring(0, str.…

java中字符串截取,调用substring()方法

substring() 方法返回字符串的子字符串。在java中 substring()方法有两种用法, 第一种 public String substring(int beginIndex) 第二种 public String substring(int beginIndex, int endIndex) 参数的意思 beginIndex -- 起始索引(包括&#xff09…

java截取指定字符串中的某段字符

利用字符串的substring函数来进行截取。 其中,substring函数有两个参数: 1、第一个参数是开始截取的字符位置。(从0开始) 2、第二个参数是结束字符的位置1。(从0开始) indexof函数的作用是查找该字符串中…

Java截取某个特殊字符前后的字符串

思路:想要根据某个特殊字符进行截取字符串,最终是要用到substring()函数,那么关键,是要找到特殊字符所在的位置,也就是要用到函数indexOf()和laseIndexOf()两个函数。 举例: String str "abc_def_gh…

java字符串截取后几位

字符串中截取后几位,或从后面数第几位到第几位! public class demo4 {public static void main(String[] args) {String str "(P)UA000110222(S)4123222200005";//截取后四位String substring str.substring(str.length() - 4);System.out.…

Java字符串截取,截取某个字符之前或者之后的字符串

提示:java截取某个字符之前或者之后的字符串 文章目录 一、java截取某个字符之前或者之后的字符串:1. 截取"_"之前字符串2. 截取"_"之后字符串 二、截取正数第二个"_"后面的内容 一、java截取某个字符之前或者之后的字符串: 1. 截取…

java实现爬虫_手把手教你从零开始用Java写爬虫

本文将手把手地教大家从零开始用Java写一个简单地爬虫! 目标 爬取全景网图片,并下载到本地 收获 通过本文,你将复习到: IDEA创建工程IDEA导入jar包爬虫的基本原理Jsoup的基本使用File的基本使用FileOutputStream的基本使用ArrayLi…

java爬虫 webcollector_Java爬虫-WebCollector | 学步园

爬虫简介: WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。 爬虫内核: WebCollector致力于维护一个稳定、可扩的爬虫内核,便于开发者进行…

Java爬虫高级教程-动力节点

作为网络爬虫的入门采用Java开发语言,内容涵盖了网络爬虫的原理以及开发逻辑,Java网络爬虫基础知识,网络抓包介绍,jsoup的介绍与使用,HttpClient的介绍与使用等内容。本课程在介绍网络爬虫基本原理的同时,注…

java 爬虫处理数据_Java语言实现爬虫实战

引言 网络上有许多信息,我们如何自动的获取这些信息呢?没错,网页爬虫~! 在这篇博文中,我将会使用java语言一步一步的编写一个原型的网页爬虫,其实网页爬虫并没有它听起来那么难。 紧跟我的教程,我相信你会在…

2021年Java爬虫技术教程(一小时实现)

Java爬虫开发 操作要点 正则表达式 Java网络通信:URL IO流 Map—HashMap 字符串操作 异常处理 项目已上传本人码云(gitee)传送门 如果这篇博客对你有一点点小帮助,希望您能给我来波一键三连; 前言 python优点&am…

java 爬虫大型教程(一)

java 爬虫大型教程(一) 写在开始前,既然是大型教程,那就从最初始的环境变量开始搭建说起。 电脑环境:我的电脑是macbook pro,因此系统环境变量配置是和Windows不一样的,如果你的电脑是Windows系统&#x…

java 爬虫 sessionid_java爬虫实战之模拟登陆

使用jsoup工具可以解析某个URL地址、HTML文本内容,是java爬虫很好的优势,也是我们在网络爬虫不可缺少的工具。本文小编带领大家使用jsoup 实现java爬虫模拟登陆,通过省力的API,很好的实现java爬虫模拟登陆。 一、使用工具&#xf…

java爬虫框架视频_Java爬虫博客采集系统视频教程

资源介绍 教程名称:Java爬虫博客采集系统视频教程xa0 教程目录: 【java爬虫博客采集系统】视频教程第00讲[20分钟] - 系统演示xa0 【java爬虫博客采集系统】视频教程第01讲[08分钟] - 博客爬虫模块Axa0 【java爬虫博客采集系统】视频教程第02讲[21分钟] …