Deep Image Prior

摘要

深度卷积网络已经成为图像生成和重建的常用工具。人们猜想，他们优秀的表现是归功于他们能够从大量图像样本中学习到真实图像先验的能力。而相反，本文中作者展示生成网络在经过任何学习之前就能够捕获大量的低级图像统计信息，也就是说，这些信息可能并不是通过大量的数据集学习得来。文中具体的实验方法，就是用一个随机初始化的生成网络，仅通过给定的图像就能得到重建后的图像，这种方法在去噪、超分辨、修补等人物上都有优异的表现。它也连接了两个非常流行的图像重建方法派别：基于学习的方法和基于非学习方法（例如self-similarity）。

简介

深度卷积神经网络（ConvNets）在图像去噪、超分辨等重建任务上达到了 state-of-the-art。相似结构的ConvNets更普遍地用在生成图像上，例如GAN、variational autoencoders、direct pixelwise error minimization。

这些 ConvNets 几乎都是基于大量图像数据集的训练，因此有一种假设说他们优异的表现由于它们从数据中学习真实图像先验的能力。然而单单学习还不足以解释深度网络的优异表现。例如，在文章 [Understanding deep learning requires rethinking generalization] 中，即使将标签随机打乱，同样泛化性能好的图像分类网络也可以很好地拟合这些数据。因此，泛化要求网络结构与数据结构“共鸣”。然而它们相互作用的机理，尤其是图像生成的，还尚不清楚。

在本文中，作者展示了一个与期望相反的现象，大量图像统计信息是由卷积生成网络的结构捕获的，而非任何学习能力。这对于解决各种图像恢复问题所需的图像统计信息尤其如此，在这些图像恢复问题中，我们需要图像先验来整理退化过程中丢失的信息。

为了展示这些，作者使用一个未训练的网络，来解决上述的重建问题，做法是让这个网络去拟合该张退化的图像，再无别的数据。在这个框架中，网络的权重就像是恢复的图像的参数化。给定一个退化的图像和对应的观测模型，网络的权重随机初始化，并且被拟合以最大化它们的似然性。

这个简单的构想在图像重建任务重很具竞争性。网络中没有任何一层面是从数据学习来的，而且网络的权重总是随机初始化，因此唯一的先验信息就是网络结构本身。这可能是第一次直接研究由卷积生成网络捕获的先验，而不依赖于从图像学习网络参数。

方法

图像生成的网络，大都是通过公式 $x=f_\theta(z)$ 的形式，把随机编码 $z$ 映射到图像 $x$ 。这个方法可以用来从随机分布中采样真实图像，另外这个随机分布也可以被定为坍塌的图像 $x_0$ ，以用来解决图像重建逆问题。

作者把神经网络翻译为参数化过程： $x=f_\theta(z)$ 。其中 $x$ 是图像， $z$ 是随机向量， $\theta$ 是网络参数。为了展示参数化的效果，作者考虑图像逆问题，他们可以表示为能量最小化问题：

image_1cakjb65urm7rh679s5gm12bu9.png-5.9kB

其中 $E(x;x_0)$ 由任务决定， $R(x)$ 是正则项。 $E(x;x_0)$ 项暂且不提。正则项通常能捕获自然图像一般的先验，它的选择更加困难，也是许多研究的一大主题。例如， $R(x)$ 可能是Total Variation（TV），which encourages solutions to contain uniform regions. 在这里，作者把 $R(x)$ 替换为神经网络捕获到的隐含的先验：

$\theta^*=argmin_\theta E(f_\theta(z); x_0)， x^*=f_{\theta^*}(z)$

即让网络学习从随机向量到退化的图像的映射，再把学到的参数 $\theta^*$ 直接用来重建得到 $x^*$ 。

就公式（1）而言，由（2）定义的先验 $R(x)$ 是一个指示函数：对所有能从 $z$ 生成的图像 $R(x)=0$ ；而对其他信号 $R(x)=+\infty$ 。既然网络没有任何一部分是从数据训练得来的，这样的 deep image prior 是像TV一样 effectively handcrafted 的。

A parametrization with high noise impedance.

人们可能会想为什么一个高容量的网络可以被用来当做先验。事实上，人们可能会期望找到一组能够恢复任何可能的图像 $x$ 的参数 $\theta$ ，包括随机噪声，所以网络不应对生成的图像施加任何限制。虽然几乎所有图像都能被拟合，但网络体系结构的选择对解空间内搜索最小值具有重大影响。在看起来自然的图像面前，网络能避免“坏”的解，并且优化地更快。结果就是最小化公式（2）能得到看起来不错的局部最优解，或者至少是靠近最优解的优化轨迹上的一个点。

为了量化地研究这个效果，作者考虑重建的一个基本情况：给一个目标图像 $x_0$ ，尝试找到 $\theta^*$ 来重建这个图像。它的优化项为：

Snipaste_2018-04-09_15-20-22.png-3.3kB

把公式（3）套进公式（2）中，就变成了要解决如下优化问题：

image_1cakkftge109h3231eilkf5d93v.png-5kB

于是，下图展示了目标图像为不同类型时，能量 $E(x;x_0)$ 的梯度下降过程。可以看到，当 $x_0$ 是自然图像或者加一些噪声时下降的最快，后面两种情况有明显的“惰性”。

image_1cakkkin4nalv5k1po41h3kob64c.png-32.8kB

因此，即使在极限情况下网络也可以拟合无结构的噪声，网络的拟合过程显得很“不情愿”，即参数化对噪声具有高阻抗，而对（自然的）信号具有低阻抗。在大多数应用下，作者把公式（2）的优化限制在某个迭代次数中，得到的先验可以将 $z$ 映射到减少的图像集中，这时的网络参数离初始随机化的参数不会太远。

应用

超分辨

超分辨的任务是从一个低分辨率图像LR增采样t倍，恢复到高分辨率图像HR。为了解决这个逆问题，数据项可以设置为：

image_1caklnntj1g9mg0jde01ah1bnn5p.png-5.3kB

其中 $d(.)$ 是降采样操作，把一个图像降采样t倍。正则化就是为了从无限的可能的HR中找到一个最好的解。优化器使用的是 gradient descent，它基于神经网络和例如Lanczos的降采样操作都是可微的事实。

在实验中，使用set5和set14数据集，与其他方法比较4倍升采样的效果，每张图像的优化次数都是相等的。至于PSNR，作者的方法在两个数据集上达到了27.95和35.06，双三次插值为26.70和33
78，SRResNet为30.09和37.23。作者的方法虽然还是被基于学习的方法超过了，但它优于同样非学习的双三次插值。

image_1cakm6vtbsrgt8oi4vj13f76.png-799.4kB