【论文速递】BLIP:Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and G

article/2025/10/22 14:39:10

背景介绍

什么是VL

Vision and language
将视觉与语言进行一定程度的结合,从而产生出一些新的应用与挑战

有哪些任务类型

字幕生成Image Captioning
在这里插入图片描述
在这里插入图片描述
图像检索Image Retrieval
在这里插入图片描述
在这里插入图片描述
视觉问答Visual Question Answering
在这里插入图片描述
在这里插入图片描述
图像中标出文字描述的目标Grounding Referring Expression
在这里插入图片描述
在这里插入图片描述
视觉对话Visual Dialog
在这里插入图片描述
在这里插入图片描述

什么是VLP

(图图传不上来orz)
VLP模型中主要有三个组件,即 visual embedding(VE)、textual embedding(TE)和modality fusion(MF)。VE和TE通常分别用图像和文本进行预训练,而MF则将VE和TE提取的特征进行融合。在海量数据集上进行预训练对于提高在小数据集下游任务的性能至关重要,因为学习到的表示可以在下游任务中进行传输。

为什么要用VLP

针对下游任务的有标签数据集成本高、规模较小,而大规模数据集通常是无标签的。利用无标签或弱标签数据进行预训练能更好的学习符合下游任务的特征,再在带标签的下游任务数据集中进行微调。

BLIP:Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

当前VLP模型的局限

  1. 大多数现有的预训练模型只在基于理解的任务或基于生成的任务中表现出色
  2. 性能的提高在很大程度上是通过扩大从网络上收集的有噪声的图像-文本对的数据集实现的,而这是一个次优的监督来源。

原因

  1. 模型角度:大多数方法要么采用基于编码器的模型,要么采用编码器-解码器模型。然而,基于编码器的模型不太容易迁移到文本生成任务中,而编码器-解码器模型还没有被成功地用于图像-文本检索任务。
  2. 数据角度:大多数最先进的方法使用从网络上收集的图像-文本对进行预训练。尽管通过扩大数据集获得了性能上的提高,但是带噪音的网络文本对于视觉语言学习来说是次优的.

多模态混合编码器-解码器MED

(图图依然传不上来)
模型结构:
1、单模态编码器(Unimodal encoder),对图像和文本分别进行编码。文本编码器(text encoder)与BERT相同,在文本输入的开头附加一个[CLS]标记,以总结句子。
2、以图像为基础的文本编码器(Image-grounded text encoder),通过在自注意力(SA)层和前馈网络(FFN)之间为文本编码器的每个Transformer块插入一个额外的交叉注意力(CA)层来注入视觉信息。一个特定任务的[Encode]标记被附加到文本上,[Encode]的输出embedding被用作图像-文本对的多模态表示。
3、以图像为基础的文本解码器(Image-grounded text decoder),用因果自注意力层(causal self-attention layer)替代编码器中的双向自注意力层。用[Decode]标记来表示一个序列的开始和结束。

损失函数:
1、用图像-文本对比(ITC)损失来训练单模态编码器,通过鼓励正image-text对 比 负样本对具有更高的相似度来对齐visual transformer 和test transformer 的特征空间,使视觉和语言表征保持一致。
2、图像-文本匹配(ITM)损失:学习图像-文字对的多模态表示,以捕捉图像-文字对的细粒度对齐。同时是个二分类任务,来区分正对和负对。为了增强多样性,采用了难负样本对挖掘策略,一个batch中选择相似度高的负样本对进行loss计算。
3、语言建模(LM)损失,用了0.1的label smooth.解码器用于生成图像描述。

如何实现任务:
字幕生成:
在这里插入图片描述
图文匹配:
在这里插入图片描述
图文问答:
在这里插入图片描述

字幕生成器-过滤器CapFilt

在这里插入图片描述
将预先训练好的MED微调为两个模块:一个是给定网络图像产生合成标题的captioner,另一个是去除原始网络文本和合成文本中的噪声标题的Filter。

(模型结构图传不上来)
字幕器
用于生成给定网络图像的字幕。是一个 image-grounded text decoder,用LM目标进行微调,用于解码给定文字的图像。
过滤器
用于删除噪声图像-文本对。是一个image-grounded text encoder,用ITC和ITM进行微调,学习文字和图像是否匹配。如果ITM head预测文本和图片不匹配,则删除噪声对。最终形成新的数据集用于预训练。
字幕器和过滤器都是从同一预训练的MED模型初始化的,并在COCO数据集上单独微调。

实验结果

图图传不上来 自己去看论文
总之很牛逼


http://chatgpt.dhexx.cn/article/fd8GCYgJ.shtml

相关文章

十分流行的自举法(Bootstrapping )为什么有效

来源:DeepHub IMBA 本文约1000字,建议阅读5分钟本文旨在以一种为外行介绍的方式展示自举法的“为什么”。 我们的项目并不总是有充足的数据。通常,我们只有一个样本数据集可供使用,由于缺乏资源我们无法执行重复实验(例如A/B测试)…

强化学习笔记-07 n-step Bootstrapping 多步TD时分学习

本文是博主对《Reinforcement Learning- An introduction》的阅读笔记,不涉及内容的翻译,主要为个人的理解和思考。 上一节介绍了TD算法,其采用了Bootstrapping方法,当前过去的预估以及即期收益来更新累积收益函数: 前…

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Genera

Paper name BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Paper Reading Note URL: https://arxiv.org/abs/2201.12086 TL;DR ICML 2022 文章,提出了BLIP,一种新的 Vision-Language…

2022: BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and

摘要 大多现有的视觉语言预训练好的模型只善于基于理解的任务或基于生成的任务,而且,性能的提高很大程度上是通过扩大来自web上收集的有噪声的图像-文本对的数据集,这是一个次优的监督来源。本文,提出BLIP,一种新的VLP…

同态加密:以CKKS为例的Bootstrapping操作介绍(不定期更新)

同态加密的Bootstrapping操作最早由Gentry在他的博士论文里提出,是实现分级同态加密到全同态加密之间转换的关键步骤。目前所有的bootstrapping工作都是基于Gentry的这个想法,未有出其右者。 这篇博客打算讲一下Bootstrapping的原理,同时看一…

TFHE拓展:Programmable Bootstrapping

Improved Programmable Bootstrapping with Larger Precision and Efficient Arithmetic Circuits for TFHE(对TFHE优化的可编程同态刷新的方案,拥有高精度和高效率) 索引 Improved Programmable Bootstrapping with Larger Precision and Ef…

十分流行自举法(Bootstrapping )为什么有效

我们的项目并不总是有充足的数据。通常,我们只有一个样本数据集可供使用,由于缺乏资源我们无法执行重复实验(例如A/B测试)。 幸运的是,我们有重采样的方法来充分利用我们所拥有的数据。自举法(Bootstrapping)是一种重…

《Hand Keypoint Detection in Single Images using Multiview Bootstrapping》及模型推理

论文:《Hand Keypoint Detection in Single Images using Multiview Bootstrapping》2017 链接:1704.07809.pdf (arxiv.org) code:Hand Keypoint Detection using Deep Learning and OpenCV | LearnOpenCV 论文略读 1.Introduction In th…

bootstraping

之前一位同学问及bootstrap,由此我查阅了几篇文献,初步知晓个皮毛:它是一种非参检验方法,利用重复抽样理论,来减少偏差、控制方差、得到有效置信区间等统计方法。国内bootstrap研究比较少,这里摘录了国外研…

CKKS自举笔记(CKKS Bootstrapping)

文章目录 CKKS Bootstrapping流程流程的框架如何做同态取模操作直接泰勒展开(naive idea)采用二倍角公式来拟合(欧密2018) 如何做同态编码或解码CKKS的编码和解码基础知识(明文下面怎么做)同态的旋转、共轭…

解决:‘config.status: error: Something went wrong bootstrapping makefile fragments......’问题

解决:‘config.status: error: Something went wrong bootstrapping makefile fragments......’问题 一、问题二、解决方法 一、问题 首先我们来看安装sqlite时报的这个错误: config.status: error: in ‘/home/dengyonghao/Downloads/sqlite-autoconf…

Bootstrapping的意义

一、原理解释 Bootstrapping 方法是种集成方法,通俗解释就是盲人摸象,很多盲人摸一头象,各自摸到的都不一样,但是都比较片面,当他们在一起讨论时,就得到了象的整体。 Bootstrap的过程,类似于重…

Bootstrapping method

Bootsrapping指的就是利用有限的样本资料经由多次重复抽样,重新建立起足以代表母体样本分布的新样本。 统计中我们常常需要做参数估计,具体问题可以描述为:给定一系列数据 假设它们是从分布F中采样得到的,参数估计就是希望估计分…

【强化学习】n步Bootstrapping

目录 n步TD 预测 n-step Sarsa n步off - policy学习 Per-reward Off - policy 方法 n步Tree Backup算法 BootStrapping原是推论统计学里的概念。所谓推论统计学,就是根据样本统计量来推算总体的统计量。n部方法通常会被用作eligibility trace思想的一个例子&am…

Bootstrapping

Bootstrapping从字面意思翻译是拔靴法,从其内容翻译又叫自助法,是一种再抽样的统计方法。自助法的名称来源于英文短语“to pull oneself up by one’s bootstrap”,表示完成一件不能自然完成的事情。1977年美国Standford大学统计学教授Efron提…

Bootstrapping?

一、什么是Bootstrapping? 中文翻译也叫“自助法(自举法)”。 类似于给鞋子穿鞋带,把鞋带穿进去在穿出来再穿进去。 举个例子,一个总体有五十人,没有办法直接测量总体的情况,我们就从总体中抽取一些样本,用…

华为机试题整理

1、整数反转后求和 #include <iostream> using namespace std; int reversenum(int x) {int a0;while (x>0) {aa*10x%10;x/10;}return a; } int reverseAdd(int a,int b) {if(a<1||a>70000||b<1||b>70000){return -1;}int num1reversenum(a);int num2re…

2021.华为机试某题

问题描述&#xff1a; 有M*N的节点矩阵&#xff0c;每个节点可以向8个方向&#xff08;上、下、左、右及四个斜线方向&#xff09;转发数据包&#xff0c;每个节点转发时会消耗固定时延&#xff0c;连续两个相同时延可以减少一个时延值&#xff08;即当有K个相同时延的节点连续…

牛客网华为机试题训练汇总(JavaScript)

牛客网华为机试题训练&#xff08;JavaScript Node环境&#xff09; 文章目录 牛客网华为机试题训练&#xff08;JavaScript Node环境&#xff09;前言一、题目1. HJ11 数字颠倒2. HJ22 汽水瓶3. HJ53 杨辉三角的变形4. HJ2 计算某字母出现次数5. HJ8 合并表记录6. HJ17 坐标移…

1、华为机试题记录

1、小型机通常采用RISC和unix操作系统。 RISC&#xff1a;精简指令集计算机&#xff0c;指令少&#xff0c;运行效率更高。 unix&#xff1a;商用UNIX现在主要是三大分支IBM的AIX,SUN的solaris&#xff0c;HP的hp-ux&#xff0c;运行在小型机上。金融电信等行业应用广泛&#x…