通过图像修复的视觉提示

article/2025/10/15 13:30:54

Visual Prompting via Image Inpainting


目录

总结

一、Introduction

二、Visual Prompting via Image Inpainting

1. Inpainting using MAE-VQGAN

2. Prompting Inpainting Models

3. The Computer Vision Figures Dataset

三、Experiments and Results

四、Discussion

参考(具体细节见原文)


总结

        在不进行特定的任务微调或任何模型修改的情况下,如何使预训练好的视觉模型适应新的下游任务?受NLP中的提示启发,本文研究了视觉提示:给定测试时新任务的输入-输出图像示例和一个新的输入图像,目的是自动生成与给定示例一致的输出图像。作者将这个问题作为简单的图像修复(实际上就是在一个串联的视觉提示图像上填上一个洞)。在一个新的数据集上训练MAE(来自Arxiv学术论文的8800个未标记的数字)。将视觉提示应用于这些预训练的模型,并在各种下游的图像到图像的任务(前景分割、单一目标检测、着色、边缘检测)中展示了结果。


一、Introduction

        尽管深度学习模型的能力不断增长,但是它们在有标签的小数据集上训练时容易出现过拟合。自监督为这一问题提供了解决方案,然而,自监督通常需要通过微调有标签的数据集来适应给定的下游任务。这种微调可以避免吗?在NLP中,提示(prompt)最近作为一种无需任何额外训练就可在新任务中使用模型的方法。常见方法是在测试时向训练过的模型提供与目标任务的示例相对应的输入以及查询。这种测试时任务提示的想法可以推广到视觉领域吗?也就是说,我们能有一个单一的通用模型,可以执行广泛的用户指定的任务,而不需要任何微调吗?在本文中,作者在正确的数据上训练大规模图像修复模型,此模型就可以成为有效的视觉提示工具。

        如图1所示,作者通过构造一个新的类似网格的图像来定义每个任务,该图像包含任务的输入输出示例和一个查询(绿色边框)。输入-输出示例描述了任务,而图像查询定义了一个新的输入。然后,模型通过简单地对图像的其余部分(红色边框)进行内嵌来生成结果。与图像类比不同,作者并没有显式地定义A、A’和B图像,而是简单地将它们连接到一个带有洞的单一图像中。因此,视觉提示不是一个确切的类比,因为没有隐含的从左到右的顺序。

         作者主要贡献总结如下:

  1. 为视觉提示提供一个简单而强大的通用方法。给出了几个任务输入、输出和查询图像的例子,说明了各种CV任务可以被视为图像修复问题。
  2. 提供了一个新的数据集,允许模型学习这样的网格结构,而不需要任何标记、任务描述或任何关于网格结构的附加信息。
  3. 虽然使用新数据集进行训练是必要的,但从其他来源添加更多的通用图像数据(如ImageNet)会进一步改善了结果。

二、Visual Prompting via Image Inpainting

1. Inpainting using MAE-VQGAN

        如图2所示,与直接预测像素的MAE不同,MAE- VQGAN通过softmax层将概率分配给视觉token。在训练过程中,通过使用VQGAN编码器将图像映射到视觉token索引来获得真正的视觉token。利用交叉熵损失对模型进行训练。

2. Prompting Inpainting Models

        定义一个函数g,它将示例集S和图像查询 x_q 映射到一个新图像和一个MASK上。

  • Visual Prompt Engineering:为了使视觉提示工作,g应该输出一个好的视觉提示,由示例S和图像查询 x_q 组成。因此,g必须确定在何处以及如何将输入嵌入到视觉提示图像中。在大多数情况下,g通过创建一个(n + 1) × 2单元格的图像网格,将示例和图像查询水平堆叠,其中第i个示例放置在第i行,而图像查询位于最后一行。
  • Visual Prompt Ensembling:受到NLP的启发,提示整合:构建多个不同的提示,分别对每个提示应用嵌入模型f,以获得一组预测。最后的预测可以通过多数投票或加权平均来确定。为了简单起见,这里我们使用一个简单平均数。

3. The Computer Vision Figures Dataset

        由g产生的图像是构造的而非真实的。具体来说,将来自不同分布的图像拼接在一起,如真实图像和分割掩码。因此,在标准数据集(如ImageNet)上训练的模型可能难以处理这些网格状图像。为了缩小领域差距,我们收集了一个新的数据集。Figures数据集由88645张更接近于我们视觉提示结构的图像组成。

       作者下载了Arxiv从2010年到2022年的所有开源论文,并选择了计算机视觉分区“cs.CV”,因为它们包含更接近网格结构的图像,如图3所示。为了去除不相关的源图像,作者手动标记了2000张图像,并训练二元图像分类器,为至少有一张自然图像的源图像分配高分。然后,作者对整个数据使用分类器,只保留信息最丰富的源图像,这些源图像来自23302篇不同的论文。作者随机划分了90%的数据进行训练,剩下的数据进行验证。

三、Experiments and Results

        表1中展示了定量结果,图4中展示了定性结果。结果表明,在Figures数据集上的训练提高了所有下游任务中大多数模型的结果。MAE-VQGAN在检测和分割方面的性能优于其他模型,生成的图像比MAE清晰得多。VQGAN很难输出准确的结果,可能是由于顺序解码。BEiT模型优于MAE模型,很可能是因为它的训练的样本效率较低。

        为了评估inpainting模型的合成预测能力,创建了3个简单的合成任务及其3个组合,并对每个任务的100个实例进行评估。 每个示例对是一个彩色形状的图像,和一个相应的引入变化的图像。变化可以是颜色、形状、大小,也可以是两种变化的结合。

        结果如表2所示,MAE-VQGAN预测实例见图5。如果没有对Figures数据集进行训练,图像修复模型就无法推广到这些以前未见的任务。当使用Figures数据集训练所有模型时,它们的性能都会提高。然而,同样的模型难以处理任务的组合。VQGAN模型利用顺序解码,因此缺乏上下文,这导致性能较差。MAE模型在颜色上优于MAE-VQGAN,而BEiT在尺寸上表现较差。这些模型依赖于预训练的代码(VQGAN和dVAE),这些代码可能原本就不适合这些任务。

  • Resize每个示例对都包含一个圆的图像,以及一个较小圆的对应图像。给定一个图像查询,目标是预测Resize图像。
  • Shape:在这里,每个示例对都是一个带圆的图像,和一个对应的带矩形的图像。两者大小相似,出现在相同的位置。给定一个新的图像查询,目标是预测带矩形的图像。
  • Color:每个示例对都包含一个出现在同一位置的圆的图像,其颜色从绿色变为蓝色。给定一个新的图像查询,目标是预测对应的带有蓝色圆圈的图像。

 

四、Discussion

        尽管方法很简单,但在大量的视觉任务上执行得如此好?在这一点上,作者也没有给出一个好的答案。显然,作者构建的训练数据发挥了重要作用,但观察到的泛化量仍然令人惊讶。也许其中一些图像到图像的任务实际上比我们想象的要简单。作者希望他们的工作会鼓励进一步的研究,以更好地理解通过图像修复学习到的东西。


参考(具体细节见原文)

原文链接:https://doi.org/10.48550/arXiv.2209.00647


http://chatgpt.dhexx.cn/article/kiyhQjVQ.shtml

相关文章

图像修复必读的10篇论文

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶” 因公众号更改了推送规则,记得读完点“在看”~下次AI公园的新文章就能及时出现在您的订阅列表中 作者:Chu-Tak Li 编译:ronghuaiyang 导读 这10篇文章给出了图…

【图像修复】论文阅读笔记 ----- 《Image inpainting based on deep learning: A review》

文章目录 原文下载地址概述**单阶段修复****单结果修复****多元修复方法** **渐进图像修复**低分辨率图像修复高分辨率图像修复 基于先验知识的修复轮廓边缘引导图像修复生成性先验引导图像修复 用于图像修复的数据集**不规则掩模数据集:****图像修复数据集&#xf…

毕业设计之 - 基于深度学的图像修复 图像补全

1 前言 Hi,大家好,这里是丹成学长,今天向大家介绍 基于深度学的图像修复 图像补全 大家可用于 毕业设计 2 什么是图像内容填充修复 内容识别填充(译注: Content-aware fill ,是 photoshop 的一个功能)是一个强大的工具,设计师…

基于GAN的图像修复--论文笔记

文献下载看下载处或评论链接 /1 Region Normalization for Image Inpainting 主要内容:将损坏的图像输入到神经网络中可能会产生问题,例如无效像素的卷积、归一化的均值和方差。但是,当前方法无法解决网络中的均值和方差漂移问题。当前方…

图像修复文章汇总

图像修复技术的研究是计算机视觉以及计算机图形学的一个具有重大意义的研究课题。对于带有损失区域的图像,由于我们并不知道原本图像的具体形式,我们只能类似于“凭空捏造”一些像素去填补这种缺失。正因如此,图像修复实际是根据人类自己的视…

图像算法原理与实践——图像修复之 全变分模型

在图像算法的高层次处理中,有一类很典型的应用,就是图像修复算法。图像在采集、传输、预处理过程中,都可能会发生图像数据被修改、损失和缺失等问题(例如:部分图像内容被污染、雾霾等),另外&…

图像修复序列——BSCB模型

1. 参考文献 2. BSCB模型代码 2.1 BSCB模型demo % demo_BSCB.m % Author: HSW % Date: 2015/3/25 % HARBIN INSTITUTE OF TECHNOLOGY % % set matlab close all; clear all; clc;options.null 0; % read image Img imread(Image\butterfly.bmp); Img imread(Image\peppers…

day29:图像修复

在实际应用 中, 图像常常会受到噪声的干扰,例如拍照时镜头上存在灰尘或者飞行的小动物。这些 干 扰会导 拍摄到的图像出现部分内容被遮挡 的情况.对于较为久远的图像,可能只有实体图像而没有数字存储形式的底板, 因此相片在保存和…

【图像修复】基于深度学习的图像修复算法的MATLAB仿真

1.软件版本 matlab2021a 2.本算法理论知识 在许多领域,人们对图像质量的要求都很高,如医学图像领域、卫星遥感领域等。随着信息时代的快速发展,低分辨率图像已经难以满足特定场景的需要。因此,低分辨率图像恢复与重建的研究逐渐…

【毕业设计】深度学习图像修复算法研究与实现 - python

文章目录 1 前言2 什么是图像内容填充修复3 原理分析3.1 第一步:将图像理解为一个概率分布的样本3.2 补全图像 3.3 快速生成假图像3.4 生成对抗网络(Generative Adversarial Net, GAN) 的架构3.5 使用G(z)生成伪图像 4 在Tensorflow上构建DCGANs5 最后 1 前言 &…

图像修复 图像补全_图像修复简介

图像修复 图像补全 In practical applications, images are often corroded by noise. These noises are dust or water droplets on the lens, or scratches from old photos, or the image is artificially painted or part of the image Itself has been damaged. 在实际应用…

Opencv--图像修复

Opencv–图像修复 前言 在实际应用中,我们的图像常常会被噪声腐蚀,这些噪声或是镜头上的灰尘或水滴,或是旧照片的划痕,或者是图像遭到人为的涂画(比如马赛克)或者图像的部分本身已经损坏。如果我们想让这…

数字图像处理之图像修复

目录 目标 实验 主函数:加噪声,扭曲原始图片,使用滤波器修复图片 子函数1:中心化图片 子函数2:加高斯噪声 子函数3:维纳反卷积滤波器 子函数4:逆滤波器 实验结果 原始图片,退化…

图像修复模型——TV模型

1. 参考文献 2. TV图像修复模型 2.1 TV模型 % demo_TV.m % Author: HSW % Date: 2015/3/25 % HARBIN INSTITUTE OF TECHNOLOGY % % set matlab close all; clear all; clc;options.null 0; % read image Img imread(Image\butterfly.bmp); % Img imread(Image\peppers.bmp…

图像修复 学习笔记

目录 局部卷积(PConv)图像修复 Pconv torch 实现: 局部卷积(PConv)图像修复 本文提出了局部卷积(PConv)层来处理不规则孔。图1显示了使用建议的PConv的一些修复结果。看样子还不错&#xff0…

基于改进Criminisi算法的图像修复

1、内容简介 略 516-可以交流、咨询、答疑 2、内容说明 摘 要:针对 Criminisi算法难以获得理想的修复效果,且存在修复时间过长等缺陷,提出一种改进 Criminisi算法的 图像修复算法。改进优先权计算方式找到最优待修复块,完善最优…

图像修复简介

点击上方“小白学视觉”,选择加"星标"或“置顶” 重磅干货,第一时间送达推荐阅读 42个pycharm使用技巧,瞬间从黑铁变王者Google C项目编程风格指南 (中文版) 分享在实际应用中,图像经常被噪声腐蚀。这些噪音是镜头上的灰…

Halcon图像修复

1.之前研究OpenCV的图像修复时,知道Opencv提供的inpaint API能够实现这个效果。 void inpaint( InputArray src, 原图 InputArray inpaintMask, 二进制掩模,指示要修复的像素 OutputArray dst, 目标图像 double inpaintRadius, 像素周围的邻域补绘。…

图像修复

转自:https://blog.csdn.net/moxibingdao/article/details/107075598 本文继 去雨去雾去模糊篇 和 图像增强与图像恢复篇 之后,继续盘点CVPR 2020 中低层图像处理技术,本篇聚焦于图像修复(Image Inpainting)。 示例如…

CVPR 2020 论文大盘点-图像修复Inpainting篇

转自:https://mp.weixin.qq.com/s?__bizMzIwMTE1NjQxMQ&mid2247519592&idx2&sn3a0598c9f52e47929678a572ea451d98&chksm96f0ff3ca187762a107b4b9194e862b757d3d943ec399b35cbb7576cd92ee55cc648d7121ac3&scene21#wechat_redirect 本文继 去雨…