RIDCP: Revitalizing Real Image Dehazing via High-Quality Codebook Priors（CVPR2023）论文记录

article/2025/11/11 11:07:46

通过高质量码本先验重塑真实图像去雾（CVPR2023）

RIDCP: Revitalizing Real Image Dehazing via High-Quality Codebook Priors
通过高质量码本先验重塑真实图像去雾（CVPR2023）
摘要
一、数据合成流程
二、VQGAN 预训练：构建高质量先验码本
三、构建 RIDCP 去雾网络
三、可控的高质量先验（HQPs）匹配操作
四、实验结果

RIDCP: Revitalizing Real Image Dehazing via High-Quality Codebook Priors

通过高质量码本先验重塑真实图像去雾（CVPR2023）

原文链接：https://openaccess.thecvf.com/content/CVPR2023/papers/Wu_RIDCP_Revitalizing_Real_Image_Dehazing_via_High-Quality_Codebook_Priors_CVPR_2023_paper.pdf

摘要

目前合成雾图像与真实雾图像差距较大，作者提出了一种考虑多种退化类型的现象学数据合成流程，以缩小合成数据和真实数据之间的域差距。包括以下 4 个部分：① 弱光环境；② 透射率图；③ 彩色雾；④ JPEG压缩。
目前图像去雾领域缺乏强大的先验知识，作者提出在 VQGAN¹使用大规模高质量数据集，预训练出一个离散码本，封装高质量先验（HQPs）；并且引入了一种提取特征能力较强的编码器 E，以及设计了一个具有归一化特征对齐模块（NFA）的解码器 G ，共同构建出基于高质量码本先验的真实图像去雾网络（RIDCP）。
尽管本文所构建的 RIDCP 取得了较好的结果，但是仍然存在：由于合成数据和真实数据之间的特征差异，导致某些图像的去雾效果不佳的问题。因此设计了一种可控的高质量先验匹配机制（Controllable HQPs Matching，CHM），重新计算特征之间的距离，以便更好的找到对应的特征。

上图展示了RIDCP网络结构。在训练阶段，通过数据生成管道合成的数据来训练去雾网络，如图(a)所示。该网络基于预训练的HQPs（高质量先验）码本和VQGAN模型中对应的解码器Gvq。还设计了可控的HQPs匹配（CHM）操作，用于实现真实域适应，通过重新计算特征与HQPs之间的距离。图(b)用两个Voronoi图表示了距离的重新计算，其中彩色区域表示与HQPs更好匹配，灰色区域表示相反情况。三角形代表特征点，五角星点代表HQPs。可以看出，经过距离重新计算后，原本属于灰色区域的点被CHM操作强制分配到彩色区域。

一、数据合成流程

弱光环境：γ∈[1.5,3.0] 是一个亮度调整因子，N 是高斯噪声分布，这两个组件可以模拟雾天中经常出现的光线条件较差的情况；
透射率图：作为退化模型中的关键参数，采用深度估计算法来估计深度图 d(x) ，并使用β∈[0.3,1.5] 来控制雾的密度；
彩色雾：为了获得多样化的雾霾图像，通过三通道向量 ∆A∈[−0.025,0.025] 来调整大气光的颜色偏差，大气光值 A 的范围在
[0.25,1.0] 之间；
JPEG压缩：观察到去雾算法会放大 JPEG 伪影，通过使用 JPEG 压缩去除这种伪影。

二、VQGAN 预训练：构建高质量先验码本

VQGAN 是基于 VQVAE²而来，VQVAE 是基于 VAE 而来；VQVAE 采用离散的隐变量，而不是像 VAE 那样采用连续的隐变量；VQVAE 需要单独训练一个基于自回归的模型如 PixelCNN 来学习先验（prior）。VQVAE结构图如下所示：
VQGAN 的整体架构是将 VQVAE 的编码生成器从 PixelCNN 换成了 Transformer，并且在训练过程中使用
PatchGAN 的判别器加入对抗损失。最终使得模型能够用于高质量图像合成，效果远超 VQVAE。VQGAN结构图如下所示：
RIDCP高质量先验码本构建过程：①高质量清晰图像 x 输入，经过编码器输出码本Codebook，每个图像包含很多隐变量（即特征）；②每一个隐变量使用“最邻近搜索”映射为码本 codebook 中的一个向量；最终得到离散表示：

三、构建 RIDCP 去雾网络

下图就是仅使用预训练好的 VQGAN 进行图像去雾测试；发现：可以去除薄雾并恢复鲜艳的颜色；但是去雾能力有限，因为在与先验码本进行正确匹配时存在困难；并且由于向量量化阶段的信息损失，会产生一些扭曲的纹理；因此：作者设计了可以帮助先验匹配的编码器 E，以及可以利用从 HQPs 重建特征的解码器 G。
首先按照 SwinIR³的方法设计了编码器 E，因为它拥有强大的特征提取能力；然后设计了一个具有归一化特征对齐（NFA）的解码器 G：利用可变形卷积将 Gvq 中的特征与 G 中的特征对齐。RIDCP结构图如下所示：

三、可控的高质量先验（HQPs）匹配操作

尽管本文所构建的 RIDCP 取得了较好的结果，但是仍然存在：由于合成数据和真实数据之间的特征差异，导致某些图像的去雾效果不佳的问题。通过以下方法进行量化研究：作者随机收集了 200 张高质量的清晰图像作为输入，计算码本中每个特征的激活频率 fc ；同样，再将 200 张真实含雾图像输入去雾网络，计算频率 fh ；下图显示了 fh 和 fc 之间差异最大的前 10 个。我们可以看到特征分布显著偏移。证明了特征差异会导致与高质量先验码本的匹配不一致。
因此，为了使得模型在测试真实含雾图像是，匹配到更好的高质量先验码本，设计了一种可控的高质量先验匹配机制（Controllable HQPs Matching，CHM），重新计算特征之间的距离，以便更好的找到对应的特征。彩色区域表示与高质量先验码本更好匹配，灰色区域表示相反情况；三角形△代表特征点，五角星点☆代表高质量先验码本；可以看出，经过距离重新计算后，原本属于灰色区域的点被CHM 操作强制分配到彩色区域。

四、实验结果

下图分别是 RIDCP 去雾网络在 RTTS 数据集上和 Fattal 数据集的效果对比，以及定量分析；其中 US 指标为：作者从RTTS数据集中随机选择了100张图像进行比较，邀请了5名具有图像处理背景的专家和5名普通观察者作为志愿者进行主观评估

Esser P, Rombach R, Ommer B. Taming transformers for high-resolution image synthesis[C] CVPR:2021 ↩︎
Van Den Oord A, Vinyals O. Neural discrete representation learning [J] NIPS:2017 ↩︎
Liang J, Cao J, Sun G, et al. Swinir: Image restoration using swin transformer [C] ICCV:2021 ↩︎