TPAMI 2022|基于最优传输理论的无监督图像重建学习

article/2025/4/19 11:54:03

作者丨王炜

来源丨上海交通大学类脑智能应用与技术中心

编辑丨极市平台

22cb07cefa6985f6726f9456287039bb.png

论文地址:https://ieeexplore.ieee.org/document/9763342

开源地址代码:https://github.com/wangweiSJTU/OTUR

图像重建是底层计算机视觉中的一个基本问题,对于后续的许多高层任务至关重要。在过去的几年里,随着卷积神经网络的发展和大量成对训练数据集的构建,图像重建任务取得了长足的进展。然而,在许多实际应用中,难以收集足够的干净图像进行监督学习,虽然可以使用合成数据进行代替,但真实数据与合成数据之间的差异将从根本上限制重建模型在真实场景上的性能。如图1所示,ToF深度相机采集的原始深度图像包含大量复杂噪声,如图中红色部分为无效值,同时真实场景的高质量3D成像难以获得。在此类复杂噪声的真实场景下,监督学习方法无法适用。

eb5c5533f22ec8bcb9f459fbf51c8c01.png
图1 真实原始ToF深度图像

近年来,自监督和无监督图像重建学习取得了很大进展。然而,现有的方法或多或少地依赖于对图像和退化模型的一些先验假设,这限制了它们在真实数据上的表现。如何在没有任何退化模型先验知识的情况下构造无监督重建学习的最优准则仍然是一个悬而未决的问题。为了回答这个问题,上海交通大学类脑智能应用技术研究中心团队最近提出了一种基于最优传输理论的无监督重建学习框架。其将图像重建视为从真实带噪分布到干净分布的一个传输问题,基于最优传输理论,在实现高感知质量重建的同时,可以最大限度地保留信号的信息。在多种仿真和真实场景下的实验表明,该方法在取得接近有监督学习方法的峰值信噪比的同时,可以获得更好的感知质量。

本项工作的主要贡献有:

  1. 提出一种基于最优传输理论的无监督重建学习准则,在重建输出与干净自然样本具有相同分布的约束下,最小化输入和重建输出之间的传输成本。

  2. 将该准则与理想有监督准则进行了对比分析,表明该准则在实现高感知质量重建的同时,能够最大程度地保留原始图像的信息。

  3. 在实际训练实现中需要把该带约束的最优传输准则松弛为无约束的形式,以方便基于对抗训练进行学习。本文在理论上证明了:对于Wasserstein-1距离,该松弛不影响最有传输的最优解,即松弛后与原始准则具有相同的最优解。

  4. 将新方法应用于多种去噪应用,包括不同仿真噪声下的合成图像,以及真实世界的手机摄影、显微镜、深度图像。结果表明,新方法在取得逼近有监督学习方法的失真度量(PSNR,SSIM)的同时,具有更好的重建感知质量。特别地,在去除带有复杂噪声的原始深度图像实验中,新方法表现出了非常大的优越性。

理论和方法介绍

理想的有监督学习准则

图像的退化和重建过程如图 3 所示,其中  为干净图像,  为退化后的图像,  为网络重 建后的图像,  为重建的网络模型。

b96f842534d57896266f3e90c3c6199d.png
图3 图像重建问题

对于去噪任务而言,退化模型可以表示为

4994fae6891c2c82dea1a26c8a5fdf42.png

其中  为噪声。该加性噪声模型会在之后的信息论相关分析中会用到,但本文所提方法并不假设噪声为加性模型。

一般来说,图像重建的理想目标有以下三个:

  1. 噪声抑制:尽可能抑制  中的噪声;

  2. 最大信息保留: 尽可能保留  中包含的原始信号的信息;

  3. 高感知质量重建:在重建中实现高感知质量,图像感知质量是指从人的主观视觉判断重建图像看起来像干净自然图像的程度,根据现有研究,失真度量(如PSNR、SSIM)与感知质量之间存在一个权衡取舍,即提升感知质量会导致重建失真的上升。

因此有监督学习下图像重建的理想准则可以表示为:

4af266da720131703223c13903681ff1.png

其中  表示分布间的散度。该准则在约束重建图像  与干净图像  间分布相同的条件 下,最大化保留重建图像  和  之间的互信息。

基于最优传输理论的无监督图像去噪最优准则

最优传输问题旨在找到将一种质量分布转换为另一种质量分布的最有效传输映射,同时最小化传输成本,其在信号处理、图像处理和机器学习中有着广泛的应用。

假设  和  是  和  上的两组概率测度,设  是一个代价函数,衡量将  传输到  的代价。最优传输问题的目标就是寻找将  传输到  代价最小的传输映射。

其中传输映射(transport map)的定义如下:

45100348326ce343e960231f4e7ed33c.png

Monge在1781年提出的最优传输问题定义如下:

b3cef1d09e7cbf4d9deec13e10cff087.png

本质上,图像重建问题可以视为一个最优传输问题,即寻找带噪图像分布到干净图像分布的最优传输函数。因此,提出无监督下的重建学习准则:

c0cfc69ae19c1d88a618ccf284328d0f.png

其中,可以发现问题(7)是上述最优传输问题的一种实现。

看似准则(7)违背直觉,因为它将重建目标推向了带噪输入,但是深入分析后会发现,该问题旨在寻找一个满足以下条件的重建映射  :

  1. 高感知质量重建: 约束  ,确保重建图像  与干净样本  有相同的分布,因此可以保证生成图像具有良好的感知质量。

  2. 最小传输成本:问题(7)中使用观测值  来确保重建的保真度,具有最小传输特性,之后会证明该特性使重建映射实现了对  中包含的  的信息的最大保留。

为了便于实现,我们将带约束问题(7)松弛为无约束的形式:

e72d6511fbd18661e58f140636a87702.png

虽然进行了松弛,本文证明了:当  为 Wasserstein-1 距离,且  时,问题  和  有相同的最优解,具体定理如下:

ace411d7edbf32be0bcbf7cbce74d2fa.png

该定理的具体证明过程可以在原论文中找到。

从信息论角度看所提出准则

这一部分,将从信息论角度出发,来证明所提出的准则(7)找到的重构映射  可以近似地最大限度保留  中包含的  的信息。

首先,(2)给出了理想的有监督学习准则,该准则在最大化  和  之间互信息的同时实现了感知重建。在实际应用中,除了某些简单的特定数据分布,互信息难以显式计算,因此 MSE 被广泛用作重建损失,其中有监督准则(2)的实现可以写成:

7f38538c3cefc01e6f304ec7b05baab5.png

当  和  为高斯分布时, 等价于最大化  和  的互信息,因此当  时,所提出的无监督学习准则(7)可以视为高斯分布下无监督学习的信息论准则的特例。

7a699d3efe57b23ef05e7275a5a0ca43.png

同时我们证明了,当  和  与噪声无关,  和  均为高斯分布时,(16)则等价于(2),  时(7)等价于(15),即所提出无监督学习准则在特定条件下等价于监督学习准则。

f5fc6e10cefd427d59aea09f0030fe27.png

具体证明过程请参考原论文。

需要注意的是,从马尔科夫链  可以得到不等式:  ,此时  是  的上界。如果重建映射  能够完美地抑制噪声  (即  与  无关),则可以通过最大化互信息  来最大限度地保留  中包含的  的信息。在大多数应用中,干净数据  与噪声  无关的假设是合理的。然而,重建  和噪声  之间独立的假设是不切实际的,因为不能保证观测  中的噪声分量被完全抑制。实际上,当去噪过程  能够在很大程度上抑制  中的噪声分量时,  和  之间的相关性将很弱。在这种情况下,无监督准则(16)可以被视为理想的有监督准则(2)的近似。

实验

本节中使用WGAN-gp对所提出准则进行实现,其中生成器结构如图3所示,鉴别器结构如图4所示。其中生成器主体结构为U-Net架构,它由编码器中的两个下采样CNN层和解码器中的两个上采样CNN层组成。残差通道注意力模块(RCAB)被用于每个下采样和上采样层来增强网络的生成能力。我们在仿真RGB图像、仿真深度图像、真实显微镜图像、真实手机摄影图像、真实深度图像和真实原始深度图像上均进行了实验测试,并与当前最佳的一些监督学习、自监督和无监督学习方法进行了对比,此处因篇幅限制仅挑选部分进行展示,具体内容可参考原论文。

测试中使用了PSNR和SSIM作为失真度量指标,Perception Index (PI)和Learned Perceptual Image Patch Similarity (LPIPS)作为感知质量指标。

649f5022ef57fcdf758ebba26885ba7e.png
图3 生成器结构
d439671e5dbe59b550bb3968e4da8797.png
图4 鉴别器结构

1.仿真噪声下RGB图像降噪

首先是仿真噪声去除实验,所测试的合成噪声类型包括加性高斯噪声、泊松噪声和布朗高斯噪声,其中布朗高斯噪声是使用一个核大小为5*5的高斯滤波器过滤标准差为50的高斯噪声得到的。使用了BSDS500作为训练数据集,KODAK24作为测试数据集,表1和表2分别为失真度量和感知质量测试结果,对于空间独立的高斯噪声和泊松噪声,所提出方法比监督学习方法PSNR低1dB左右,而在空间相关的布朗高斯噪声中,所提出方法取得了最佳的PSNR,此外在所有噪声中,所提出方法均获得了最佳的PI/LPIPS分数,这表明其可以得到最佳的感知质量。如图5所示,所提出方法比DnCNN、N2C、N2N、N2V和BM3D具有更好的感知质量,因为它保留了更多的细节信息。

3662156707e1cdea2eb2f48e60f188ef.png
表1 失真度量(PSNR/SSIM)测试结果
41e216004186a872942772ab2ba17857.png
表2 感知质量(PI/LPIPS)测试结果
964cb9090786f9b9ce164aaab170fd7f.png
图5 不同仿真噪声下图像去噪的视觉比较,括号中为图像的PSNR/PI/LPIPS分数

2.真实显微镜图像

显微镜图像是生物学和医学研究的重要数据来源,然而,由于采集过程中的照明和设备等因素,显微镜图像不可避免地会受到噪声的破坏,从而影响后续的高精度分析。此外,由于没有干净的参考图像,因此需要无监督或自监督的方法。该测试中使用了真实荧光镜图像数据集FMD进行训练和测试。其中使用平均的方法获取近似的Ground Truth。表3展示了真实显微镜图像上的定量比较,所提出方法获得了最高的PSNR、最佳PI和LPIPS分数,如图6所示,所提出方法可以获得比其他方法更清晰的重建结果,这表明了其更好的感知质量。

c9d738ca45ffc0d38bf682249409c75d.png
表3 真实显微镜图像定量比较
b97304e1f1a2f32a6cbc04c67f1852a5.png
图6 真实显微镜图像去噪的视觉比较,括号中为图像的PSNR/PI/LPIPS分数

3.真实深度图像

最近,深度相机变得越来越流行,而由于成像机理的不同,深度图像的噪声比RGB图像大得多。此外,由于场景中对象的反射率和透明度较低,深度图像中通常存在空洞(无效像素)。该实验中使用了一台ToF深度相机采集了1430张原始深度图像作为训练和测试集,并使用仿真的SUNCG数据集作为参考的干净图像。图7展示了重建结果的视觉比较,所提出方法可以取得最佳的去噪结果。

915e24b8fcd8463697bf797671a2692d.png
图7 原始深度图修复效果比较
444889f27d8ec097891f813c4faa73dd.png
图8 原始深度图修复效果,清晰视频demo请见https://ieeexplore.ieee.org/ielx7/34/4359286/9763342/supp1-3170155.mp4?arnumber=9763342

结论

本项工作在不对退化模型做任何先验假设的条件下,提出了一种基于最优传输理论的无监督图像重建学习准则。该准则可在实现高感知质量重建的同时,最大程度保留原始图像信息。此外,我们在理论上证明了,实际应用中使用的该准则的松弛形式与原始准则具有相同的最优解。大量仿真和真实数据上的实验结果表明,该方法甚至可以与有监督方法相媲美。该方法在具有复杂噪声的深度图像重建上具有非常显著的优越性。此外,虽然本文主要测试了所提框架在降噪任务上的表现,但该框架理论上适用于更广泛的图像重建任务,如超分辨、去雨、去雾等。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊精品课程官网:3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

15.国内首个3D缺陷检测教程:理论、源码与实战

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

e4c7ed21d919a52bc22b2f3506a8441e.png

▲长按加微信群或投稿

99f8acb3f4331dcace884f52623d6c59.png

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

59a4c2b25eb7991c88b0e0050f8f594f.png

 圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  


http://chatgpt.dhexx.cn/article/p3p6n2US.shtml

相关文章

LDCT图像重建论文——Eformer: Edge Enhancement based Transformer for Medical Image Denoising

Eformer是进行低剂量CT图像重建的工作,它第一次将Transformer用在医学图像去噪上,值得一读。 知乎同名账号同步发布。 目录 一、架构和贡献二、主要细节2.1,Sobel Convolution2.2, 下采样和上采样2.3,损失函数 三、实验 一、架构…

图像重建中常用的滤波器的设计

在医学图像重建的过程中,如果不使用滤波器,重建出来的图像与使用滤波器重建出来的图像的质量相差甚远,效果如下图所示: 由上图我们可以看出,使用滤波器能极大的提高重建图像的质量,其中最为常见的就是RL滤波…

【CV】CVPR2021高光谱图像重建论文笔记

论文名称:Deep Gaussian Scale Mixture Prior for Spectral Compressive Imaging 论文下载:link 论文年份:CVPR 2021 论文被引:18(2022/04/17) 论文代码:https://github.com/TaoHuang95/DGSMP A…

【图像处理】基于ART算法实现图像重建matlab源码

1 简介 ART算法是一个不断迭代的图像重建方法,提高该算法的重建速度一直是研究的重要方面.针对ART算法简化权因子重建模型,提出了一种快速网格遍历算法,通过简单的加减法和比较运算,即可确定射束穿过的网格编号.由于权因子在迭代过程中实时计算,节省了大量的存储空间,大大…

CT图像重建的演变——从滤波反投影到人工智能(Martin J. Willemink和Peter B. Noël)

摘要 在20世纪70年代初,第一台CT扫描仪就已经采用了迭代重建算法,然而由于当时的硬件计算能力不足,并没有实现真正的临场应用。事实上直到2009年,第一代迭代重建算法才真正的实现商业化,并取代了传统的滤波反投影算法…

基于图像重建损失的无监督变化检测

阅读翻译:Unsupervised Change Detection Based on Image Reconstruction Loss Abstract: 为了训练变化检测器,使用在同一区域的不同时间拍摄的双时图像。然而,收集标记的双时相图像既昂贵又耗时。为了解决这个问题,已经提出了各…

数字图像处理之雷登变换与图像重建(MATLAB)

1.问题要求 画出下列图像的雷登变换正弦图,标出坐标和重要特性,假设使用平行射线束几何理论。然后重建图像,比较不同参数的选择对重建图像的影响。 2.实现步骤 (1)雷登变换 srcImageimread(use_photos/work7_photos…

图像超分辨率重建(pytorch)

本文代码 本文代码主体来自CVPR2020论文《Closed-loop matters: Dual regression networks for single image super-resolution》,但原作者并未提供论文亮点--如何使用unpair数据进行训练的代码,所以我在其基础上补齐了该过程的代码。 代码仓库:https://…

第五章 图像复原与重建

第五章 图像复原与重建 文章目录 第五章 图像复原与重建5.1图像复原与增强的概念5.2噪声5.3空间滤波5.4频率域滤波5.5图象复原相关技术5.6由投影重建图像 5.1图像复原与增强的概念 图像增强:是一个主观过程,我们根据自己的需求增强图片的某一部分内容图…

CT图像重建算法------迭代投影模型之距离驱动算法(Distance-Driven Model,DDM)

一、图像重建算法分类 CT图像重建算法主要有3类:1、反投影法;2、迭代重建算法;3、解析法:包括滤波反投影法和傅里叶变换法 二、迭代重建算法分类 迭代重建算法在求解的过程中需要不断地求解矩阵元素,目前系统矩阵的建模方式主要…

图像复原和重建技术

1、常见的图像噪声模型  图像复原是将图像退化的过程加以估计,并补偿退化过程造成的失真,以便获得未经干扰退化的原始图像或原始图像的最优估值,从而改善图像质量的一种方法。  典型的图像复原方法是根据图像退化的先验知识建立一个退化模型,以此模…

数字图像处理——第五章 图像复原与重建

数字图像处理——第五章 图像复原与重建 文章目录 数字图像处理——第五章 图像复原与重建写在前面1 图像退化/复原过程的模型2 噪声模型2.1 高斯噪声2.2 椒盐噪声 3 仅有噪声的复原——空间滤波3.1 均值滤波器3.2 统计排序滤波器3.3 自适应滤波器 4 用频率域滤波消除周期噪声5…

机器人群控避障算法ORCA

最优互补避碰ORCA算法 建议参考资料 ORCA-有关机器人群碰撞避免算法解读(柳朦朦) 导航动态避让算法RVO的优化ORCA(Optimal Reciprocal Collision Avoidance)-漫漫之间n Reciprocal n-body Collision Avoidance英文PDF 避障算法-VO、RVO 以及 ORCA&a…

限流算法的原理

计数器算法 在一定时间内,对处理的请求数进行计数,每次到达时间临界点则计数器清零。在一定时间间隔内,若计数器数字超限,则进行限流。 该算法的问题是,在两端临界点附加可能出现两倍的流速。 滑动窗口算法 基于计…

A*算法图解

A*(A-star)算法是一种静态网路中求解最短路径最有效的直接搜索算法。在电子游戏中最主要的应用是寻找地图上两点间的最佳路线。在机器人领域中,A*算法常用于移动机器人路径规划。 为了便于理解,本文将以正方形网格地图为例进行讲解…

a 算法原理 java_最短路径A*算法原理及java代码实现(看不懂是我的失败)

算法只要懂原理了,代码都是小问题,先看下面理论,尤其是红色标注的(要源码请留下邮箱,有测试用例,直接运行即可)A*算法百度上的解释:A*[1](A-Star)算法是 算法只要懂原理了,代码都是小问题&#…

A*算法原理简析

引言 。 A算法是一种启发式的搜索算法,它是基于深度优先算法和广度优先算法的一种融合算法,按照一定规则确定如何选取下一个节点。在介绍A算法之前,需要了解一下什么是启发式搜索算法,深度优先算法以及广度优先算法。 启发式搜…

A*算法原理

A* 算法 概述 虽然掌握了 A* 算法的人认为它容易,但是对于初学者来说, A* 算法还是很复杂的。 搜索区域(The Search Area) 我们假设某人要从 A 点移动到 B 点,但是这两点之间被一堵墙隔开。如图 1 ,绿色是 A ,红色是 B…

A Star算法原理及其实现

A -Star算法 A*(A-Star)算法是一种求解最短路径最有效的直接搜索方法,也是许多其他问题的常用启发式算法。 一、简介 二、寻路方式 三、运行机制 四、常用估价算法 五、示例 一、简介 A*(A-Star)算法是一种求解最短路径最有…

sift算法原理,按步骤记录

sitf算法是一种描述图像特征的,重要的,基础的方法。主要由以下几个步骤构成: 0.尺度空间理论 尺度空间理论认为,人眼在认知画面时,在不同的尺度上使用的是不同特征,例如观察树叶时使用的是小尺度特征&…