聚焦视频文本检索:一文概览视频文本检索任务最新研究进展

article/2025/9/22 16:16:03

bfd4c2d3e22c737f24ffecdfe92128e6.gif

©PaperWeekly 原创 · 作者 | 小马

单位 | FightingCV公众号运营者

研究方向 | 计算机视觉

7957ac4277336f6ff51906fb25a1baa7.png

写在前面

近几年,随着抖音、快手等短视频平台,以及哔哩哔哩、优酷等视频平台的出现,网络中出现了大量的视频媒体。海量视频媒体给视频内容的准确检索带来了巨大挑战。在本文中,我们将介绍一些近几年视频文本检索的文章,让大家了解视频文本检索的最近工作进展。

5ad9725f4cace2ea06e7a94bf5a81f75.png

工作介绍

2.1 MMT——ECCV 2020

2.1.1. 论文信息

4fde861033a7d44c23f332aeb6ce548b.png

论文标题:

Multi-modal Transformer for Video Retrieval

论文地址:

https://arxiv.org/abs/2007.10639

代码地址:

https://github.com/gabeur/mmt

2.1.2. 论文动机

16f816f13a61b9c627ed888e243c66e4.png

进行视频文本检索的关键是学习精确的视频-文本表示,并建立相似度估计。目前的方法主要存在两个方面的缺陷:1)没有充分利用好视频中动作、音频、语音等各个模态,从上图中可以看出,从所有组成模态中联合提取的线索比单独处理每个模态更具信息性;2)没有充分考虑视频的时间性,由于数据集中的视频时长不一样,目前的方法通常是通过聚合视频中不同时刻提取的描述,从而丢弃长期时间信息。

在本文中,作者提出了一个多模态 Transformer(MMT)来解决上面的挑战,首先提取不同时刻和不同模态的特征,将他们聚集在一个紧凑的表示中,并用 Transformer 进行不同时间和模态信息的交互,最终基于聚合特征来评估视觉和文本之间的相似性。

2.1.3. 论文方

4cdaf7ad307b94f35e67fbeac1881683.png

本文的结构如上图所示,本文的特征提取用的是预训练的 BERT,视频的特征用的是不同的预训练好的“专家”模型来提取不同模态的特征,每个模态采用 max-pooling获得一个聚合特征,然后将提取的特征和专家 embedding、时间 embedding 相加能到最终的视频特征(如下图所示)。

b0c5849e6341035238616c8ff0b85a77.png

作者用一个多模态 Transformer(MMT)来建模这些特征的不同模态和时间的关系,最终获得具有代表性的聚合特征,然后用不同聚合特征和文本特征求相似度,并对其进行加权求和,得到最终的视频本文相似度。

2.2 T2VLAD——CVPR 2021

2.2.1. 论文信息

4f85ea2bbb220d83ae8e17e2706ff3cb.png

论文标题:

T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval

论文地址:

https://arxiv.org/abs/2104.10054

代码地址:

未开源

2.2.2. 论文动机

c20a3785e7adbceeb77b23bf9ee607ad.png

目前进行多模态匹配的方式有两种,一种是全局的粗粒度匹配,这种方式简单,但是忽略了细粒度的语义对齐;另一种是细粒度的语义对齐,目前通常是设置三个语义级别(事件、动作和实体),然后进行成对匹配,但是这种方法需要比较高的计算成本。

在本文中,作者提出了一个局部-全局的序列对齐方法。从局部角度,作者并没有进行一对一的成对匹配,而是设置了共享主题,这些主题在图像和文本中共享,然后最小化相同主题的图像和文本特征之间的距离,实现局部的对齐。从全局角度,只需要将全局的视频和文本特征进行相似度比较,作为局部对齐的一种补充度量和额外监督。

2.2.3. 论文方法

187030cb930c1eb6f793376e21537efd.png

与上一篇文章一样,用预训练的 BERT 提取文本特征,用不同预训练的“专家”模型提取视频中不同模态的特征,不同模态的特征进一步用 Self-Attention 进行加强。

对于局部对齐,作者首先设置了 K+1 个共享聚类中心 c(由于视频和文本共享相同的聚类中心,因此有利于将视频和文本在相同的语义空间中进行对齐),然后根据计算每个聚类中心和每个特征之间的相似性,进行并更新特征,视频更新方式如下所示(文本特征更新方式类似):

fb6afd58a684f40ffb1fd7aecc43bbf6.png

814bd63db35b50aaa14fb40702f6e310.png

然后利用余弦相似度来度量视频和文本特征之间的局部相似性。

对于全局对齐,在不同专家的时间维度上进行 max-pooling,得到全局视频聚合特征;用对齐后文本的 concat 结果来生成 N 个全局文本聚合特征,最后计算文本和视频的全局特征的相似度。

2.3. CLIP4Clip——arXiv 2021

2.3.1. 论文信息

f5423f9bbd92ffc3244bf8b2ff861c3a.png

论文标题:

CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval

论文地址:

https://arxiv.org/abs/2104.08860

代码地址:

https://github.com/ArrowLuo/CLIP4Clip

2.3.2. 论文动机

随着 CLIP 的爆火,作者在本文中希望将 CLIP 中图片文本预训练获得的知识转移到视频文本检索任务中,因此作者提出了 CLIP4Clip 模型,并设计了三种相似度计算方式进行相似度的计算。

2.3.3. 论文方法

80c7ffeb6b2212d01fae39e5d65c5135.png

上图展示了本文的模型框架,作者将视频看做一系列图片的集合。对于视频编码,作者采用了 CLIP 中预训练的 ViT,Patch Embedding 的时候采用了以下两种方式(2D:不考虑时间的信息,对每一张图像分别 embedding;3D:考虑时间信息,相邻的帧一起 embedding):

397f94f6b6e7dabc2d867b39697c19e2.png

对于文本编码,作者采用了 CLIP 中预训练的 Transformer 进行文本表示。

d84a4eeb90d2130ed5910c5d8fea32d7.png

这样,我们就获得了带时间序列信息的视频表示和文本表示,然后作者采用了三种方式进行了视频和文本的相似度计算,如上图所示,总的来说前两种的方法的性能要由于第三种方法,可能是因为第三种方法引入了太多随机初始化的参数,从而破坏了原来 CLIP 已经学好的信息。

2.4. CLIP2Video——arXiv 2021

2.4.1. 论文信息

eaa723166e411045e7ef82592f7bd1e1.png

论文标题:

CLIP2Video: Mastering Video-Text Retrieval via Image CLIP

论文地址:

https://arxiv.org/abs/2106.11097

代码地址:

https://github.com/CryhanFang/CLIP2Video

2.4.2. 论文动机

目前的视频文本检索主要在解决两个问题,分别为是视频域中的视觉特征表示视频和语言之间的多模态交互。为了解决这两个问题,作者将视频看做是一系列顺序帧的表示,然后将视频和语言理解的问题转换成了两个独立的问题:图像文本训练的空间表示视频帧与视频语言的时间关系

对于多模态图像文本表示,作者选用了 CLIP 模型;然后作者提出了两个模块来进行视频帧和视频语言关系的时间建模,即时间差分块(Temporal Difference Block,TDB)和时间对齐块(Temporal Alignment Block,TAB)。TDB 能够用视频帧的差分来模拟运动变化,TAB 能够将视频序列和文本序列对齐到相同的空间中。

2.4.3. 论文方法

4297a83144e4da0ffb37696648cbc0e9.png

对于视频和文本的编码,作者采用了 CLIP 中预训练的 Transformer 编码器来进行信息的编码。然后作者将相邻的帧进行相减,得到差分的特征,并将其输入到时间 Transformer 中进行时间交互,获得最终的差分特征

d456490045566b177e798ffd9f14e899.png

然后作者将这些视觉帧特征和差分帧特征进行 concat,输入到 TAB 中和文本特征进行对齐,这部分的操作和《T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval》中的对齐操作相似,都是将视频和文本特征对齐到共享的聚类中心。最后基于局部对齐的特征和全局的特征进行相似度计算,得到最终文本和视频的相似度。

2.5 CAMoE——arXiv 2021

2.5.1. 论文信息

301aa3971f14107500731571c640e6e7.png

论文标题:

Improving Video-Text Retrieval by Multi-Stream Corpus Alignment and Dual Softmax Loss

论文地址:

https://arxiv.org/abs/2109.04290

代码地址

https://github.com/starmemda/CAMoE

2.5.2. 论文动机

原始的检索中用到的单向 softmax 方法,忽略了视频和文本之间的潜在信息交互,因此作者提出了 Dual Softmax 来进行优化,方法简单,涨点明显。

2.5.3. 论文方法

75f09b3b54b4ab67baa7623ac30716b2.png

上图展示了本文的 overview,视频(帧)和文本的特征分别通过 CLIP 中预训练的 ViT 和 BERT 进行提取,注意,这里作者将视频和文本的特征分成了三个部分,三个部分分别计算相似度。

99dfb40c5389e324ac115ed04b7da8bf.png

个人认为,本文的重点应该是在损失函数的部分,以往的损失函数如下所示:

e87681867620d8b6645414f210289fec.png

就是按列取 softmax,再按行取 softmax,最后将对角线上的概率求和。

而本文不是这么做的,它的计算方式如下所示(也可以参考上图中红线所示):

6c1b9d6f4ab2d55551e4cdd91a004c63.png

623e8d3b68d2017ad91eaa97a371113d.png

它在计算“行”方向的概率之前,先进行“列”方向的 Softmax,然后将结果乘到原来的结果上,最后再这个乘积的结果上进行“行”方向的 Softmax,这样一来在进行 Softmax 的时候,就同时考虑了是图像对文本的相似度和文本对图像的相似度。反之亦然。从实验结果上看,这一操作简单,但是涨点明显。

2.6. VALUE——NeurIPS 2021

2.6.1. 论文信息

d86104af55e1e8764aee8b64af585dbc.png

论文标题:

VALUE: A Multi-Task Benchmark for Video-and-Language Understanding Evaluation

论文地址:

https://arxiv.org/abs/2106.04632

代码地址:

https://github.com/VALUE-Leaderboard/StarterCode

2.6.2. 论文动机

目前视频和语言的理解任务大多是在不同的数据集上进行评估的,很难衡量一个视频语言模型的综合性能。为此,作者提出了一个 VALUE 基准,这个基准包括了 11 个视频语言数据集,涵盖不同的视频类型、视频长度和数据量。

2.6.3. 论文方法

f6431e9330560cb4f269e0be865141b5.png

本文的主要贡献就是提出了一个 benchmark,上表展示了本文提出的 VALUE 基准的数据来源和任务类型。

2.7. HERO——EMNLP 2020

2.7.1. 论文信息

450140941cd4b65c51a67f3503e091ec.png

论文标题:

HERO: Hierarchical Encoder for Video+Language Omni-representation Pre-training

论文地址:

https://arxiv.org/abs/2005.00200

代码地址:

https://github.com/linjieli222/HERO

2.7.2. 论文动机

目前的视频预训练模型大多数直接借鉴BERT的思想,将文本和视频帧的 concat 结果作为输入,失去了时间上的对齐,没有考虑视频帧的顺序信息,并且与目前的数据集达到是烹饪或者教学视频,不包括动态场景和复杂社会互动的视频。

在本文中,作者没有采用 BERT 形式的编码器,而是以一种分层的形式对多模态信息进行编码:首先用跨模态 Transformer 来融合字幕句子及其相应的局部视频帧;然后时间 Transformer 使用所有周围的帧作为全局上下文,来获取每个视频帧的顺序上下文嵌入。然后作者基于四个预训练任务,对模型进了预训练。

2.7.3. 论文方法

8053d9a06c5c162457dc39e0cfa8b25e.png

本文的框架如上图所示,首先用跨模态 Transformer 来对每个视频帧和对应的字幕进行编码,然后再用时间 Transformer,对视频帧之间的时间信息进行建模。最后基于Masked Language Modeling、Masked Frame Modeling、Video-Subtitle Matching 和 Frame Order Modeling 四个预训练任务进行训练,以获得视频和文本表示。

2.8. HiT——ICCV 2021

2.8.1. 论文信息

daaadc38d3af25457f9104c73523174e.png

论文标题:

HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval

论文地址:

https://arxiv.org/abs/2103.15049

代码地址:

未开源

2.8.2. 论文动机

6d5e6406c65bfe3e66fa80f6385f5160.png

目前的跨模态 Transformer 存在两个方面的局限性:第一,Transformer 中不同层的特征没有得到充分的挖掘;第二,端到端的训练机制限制了负样本的数量,从而影响了最终的性能。因此,在本文中,作者用了对比学习的思想,将底层和高层的视觉-文本特征进行对比,为了获得更多的对比样本,作者也创建了四个内存库,分别存储用于 key 和 query 的文本,视频负样本列表。

2.8.3. 论文方法

1c36185de887a626d52dddd8a064d4b2.png

本文的模型结构如上图所示,对于视频,作者用不同预训练的“专家”提取特征后将其送入到 Query Video Encoder 中,对于文本,作者用预训练的 BERT 提取特征后将其送入到 Query Text Encoder。Key Video Encoder 和 Key Text Encoder 都采用动量的方式更新,以保持特征的稳定。然后作者对比了 Key 和 Query 中视频-文本相似度,为了获得更多的负样本,作者维护了四个内存库,分别用于维护 key 和 query 的文本,视频负样本列表。

2.9. TACo——ICCV 2021

2.9.1. 论文信息

9373ff9ceb820441eac33f8dbaff3375.png

论文标题:

TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment

论文地址:

https://arxiv.org/abs/2108.09980

代码地址:

未开源

2.9.2. 论文动机

在这篇文章中,作者提出了 token 感知级联对比学习用于视频文本检索,顾名思义,这篇文章的意思就是贡献点主要是两个:“token 感知”和“级联采样”。以前的对比方法通常是基于句子-视频级别的对比,这样的对比太粗粒度了,因此作者就将提出了 token 级别的感知,进行细粒度的对比;第二点是多模态融合层如果对所有的负样本进行融合会导致计算效率低下的问题,因此作者提出了一种方法,能够在不增加额外计算量的情况下,采样负样本。

2.9.3. 实现方法

d18d517b738401d6af3f0680d9e00fa0.png

如上图所示,本文的方法有三个损失函数:L1 是句子级别的对比损失,L2 是 token 级别的对比损失,L3 是融合之后的对比损失。对于 token 级别的损失函数,作者采用了名词和动态和所有帧进行对比,因为作者通过实验发现,这样的效果最好。另外,如果对所有负样本在多模态融合层进行融合的话,就会导致太大的计算量。因此,作者提出了使用 L1 和 L2 中计算的相似度来进行负样本的级联采样。

bb1a8b3590fad68286b536755dd7609b.png

总结

目前,关于视频方面的研究正在非常火热的进行着,也取得了一定的成功。然而相较于图片数据,视频数据的标注更加困难和昂贵,传统的基于下游数据集进行训练的模型局限性很大。

也正因此,目前有一些研究者将 CLIP 这个图文预训练模型迁移到视频-文本检索任务中,并且也取得了非常好的实验结果(秒杀之前的方法)。因此,在将来的研究,如何将预训练的知识迁移到视频任务中,或者如何基于未标注的视频数据进行训练,将会是一个非常有意义同时也非常具有挑战性的方向!

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

69efb45abe8f6c8c2703ba1a2330eb6f.png

1763c46a12ec9fe5ddcf1fdcb7d2521a.png

6693553206fa0a5e83791755fbb34c17.png

6808472e46c977bf27778f7fc3d68f2f.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

17ab71735258b3f4d9f37d251e55d191.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

08d539375a14618e7530b6e771e15dd0.png


http://chatgpt.dhexx.cn/article/BACq8bpe.shtml

相关文章

图片/文字/视频跨模态检索综述

向AI转型的程序员都关注了这个号???????????? 机器学习AI算法工程 公众号:datayx 0 引言 在过去的二十几年里,不同类型的媒体数据如文 本、图像和视频迅速增长。通常,这些不同类型的 数据用于描述相同的事件或主题。例如&#…

利用python打造你的视频检索引擎

各位广大影迷们,是不是在为自己几十上百G的视频文件而头大呢,又或者是看到了一部动作大片,明明记得自己硬盘上也有,想再次重温一下,却怎么也找不到的悲惨经历呢。 别着急,今天就陪同大家,一起打…

极智项目 | 实战多模态文本-视频检索

欢迎关注我的公众号,获取我的更多经验分享 极智传送《极智项目 | 实战多模态文本-视频检索》 大家好,我是极智视界,本文介绍 实战多模态视频检索,并提供完整项目工程源码。 本文介绍的实战多模态视频检索,提供完整的可…

CVPR 2020 论文大盘点-图像与视频检索篇

本文总结CVPR 2020 中所有与图像和视频检索(Image and Video Retrieval)相关论文,总计 16 篇。 图像和视频检索常见于搜索引擎、商品服饰搜索等应用场景,另外为进行高效检索,该领域往往会将图像或者视频的特征通过哈希算法映射到二值空间,使用汉明距比较相似度,所以哈希…

跨模态检索之文本视频检索(Text to Clip)(2)

《Cross-Modal and Hierarchical Modeling of Video and Text》(2018 ECCV) 这篇文章主要介绍了一个叫做分层序列嵌入(Hierarchical Sequence Embedding, HSE)的通用模型,其作用是对不同模态的数据进行分层建模并利用…

视频文本检索之CLIP4Clip

论文:CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval GitHub:https://github.com/ArrowLuo/CLIP4Clip 学习是一种行动反射, 不是为了晓得些“知识”, 要切己体察,代入自己&#xff0c…

跨模态检索之文本视频检索(Text to Clip)

《Multilevel Language and Vision Integration for Text-to-Clip Retrieval》(2018 CVPR) 这篇文章引入了一个多层的模型,输入一个描述某个动作的查询语句,就可以从一段没有经过修剪的视频中找出对应的片段。 首先是第一个阶段…

MPEG-CDVA标准的特征提取(除深度学习) 视频匹配 视频检索

依据可查阅资料对CDVA标准中的特征提取(不涉及深度特征部分),视频匹配和视频检索流程做了分析说明。 1. 概要 1.1 描述子提取: 使用关键帧描述子 提取关键帧之前,视频做一个降采样,每隔2-10帧左右取一帧…

CLIP4Clip:用于端到端视频检索的CLIP实证研究

Luo, Huaishao, Lei Ji, Ming Zhong, Yang Chen, Wen Lei, Nan Duan and Tianrui Li. “CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval.” ArXiv abs/2104.08860 (2021). 1. Abstract 视频文本检索在多模态研究中起着至关重要的作用&#xff0c…

同时利用字幕、音频、视频进行检索!Inria谷歌提出MMT用于高效跨模态视频检索,代码已开源!...

关注公众号,发现CV技术之美 ▊ 写在前面 检索与自然语言查询相关的视频内容对于有效处理互联网规模的数据集起着关键作用。现有的大多数文本到视频检索方法都没有充分利用视频中的跨模态线索。此外,它们以有限或没有时间信息的方式聚合每帧视觉特征。 在…

视频检索——BLSTM(论文翻译、理解)

视频检索BLSTM方法论文翻译 摘要1 介绍2 相关工作3 自监督时序哈希3.1 时序感知的哈希函数3.2 二进制的LSTM3.3 学习目标3.4 框架细节 4 二进制优化4.1 二进制求导4.2 算法细节 5 实验5.1 数据集5.2 实验设置5.3 结果分析 6 结论 Play and Rewind: Optimizing Binary Represent…

基于内容的视频检索(CBVR)

参考 1. 视频检索的基本流程 2. 视频的结构分层 各层都可以用一些属性来描述: 1. 视频序列的属性主要包括场景的个数和持续时间; 2. 场景的属性包括标题、持续时间、镜头数目、开始镜头、结束镜头等; 3. 镜头的属性包括持续时间、动态特征…

人脸视频检索系统设计(C++)

目录 人脸检索系统框架的构建 1 一.软件实现的主要界面 1 二.软件的需求概括 1 三.软件代码设计过程中需要注意的问题 2 四.程序到目前为止产生的诸多缺陷 4 五.程序的详细设计过程 4 1.输入部分的设计 4 2.检测结果部分的设计过程 10 人脸检索系统框架的构建 ------FaceMFC_v…

AAAI 2023 | 基于多模态标签聚合的视频检索模型TABLE,多项SOTA

©作者 | QQ浏览器搜索技术中心、腾讯PCG ARC Lab 来源 | 机器之心 近年来,互联网短小视频内容的爆发式增长,对视频 - 文本检索(Video-Text Retrieval)的能力提出了更高的要求。在 QQ 浏览器搜索中,视频通常包含标…

5分钟实现「视频检索」:基于内容理解,无需任何标签

Notebook 教程:text-video retrieval 「视频检索」任务就是输入一段文本,检索出最符合文本描述的视频。随着各类视频平台的兴起和火爆,网络上视频的数量呈现井喷式增长,「视频检索」成为人们高效查找视频的一项新需求。传统的视频…

视频内容检索概述

视频内容检索 针对目前多媒体搜索引擎技术,视频数量的井喷式增加以及多媒体视频内容的多样性和数据结构的复杂性,如何快速的从有效地这些视频检索出人们感兴趣的已经成为当今信息化时代的难题。 数字视频内容检索 基于内容的视频检索(CBVR…

ad建集成库_手把手教你创建自己的Altium Designer集成元件库

一个善于规划、管理及总结的硬件开发工程师都喜欢创建自己的集成库,这样就相当于给自己打造了一款更适合自己的尖兵利器,无论是硬件设计的统一性还是硬件模块的可重用性,都会给工程师带来更多的设计便利。 一个管理规范的硬件开发企业,在集成库的制作及使用方面都会做出很多…

NC57中间表数据源的设置流程

目前场景如下:NC定时将数据写入中间库中,第三方去中间库中抓取; 方式一: 第一步:在NC客户端【客户化】——【二次开发工具】——【参数设置】——【参数模板管理】添加所设置的数据源数据 找到对应的数据库表pub_sysi…

分库分表介绍

目录 一、前言 二、何谓数据切分? 三、垂直切分 1、垂直分库 2、垂直分表 3、垂直切分优缺点 4、拆分需考虑的业务因素 四、水平切分 1、水平分库 2、水平分表 3、水平切分优缺点 五、垂直与水平切分的联合使用 六、数据分片规则 1、Hash取模分表 2、数…

分库分表入门介绍

本文收集网上资料,多合一 编撰于2020年4月21日 原文链接1 原文链接2 原文链接3 目录 为什么要分库分表读写分离,主从复制Why Not NoSQL/NewSQL?什么是RDBMS 分库分表概述切分策略路由规则范围路由hash算法路由配置 分库分表带来的问题join操作COUNT&…