基于图像查询的视频检索,代码已开源!

article/2025/9/22 15:59:33

点击我爱计算机视觉标星,更快获取CVML新技术


本文为作者对AAAI 2020 论文的解读。

作者 | 徐瑞聪

编辑 | Camel

本篇文章介绍上海交通大学 BCMI 实验室在AAAI 2020 上的一项工作,A Proposal-based Approach for Activity Image-to-Video Retrieval。

论文链接:https://arxiv.org/pdf/1911.10531.pdf

代码链接:https://github.com/bcmi/Cross-modal-retrieval

互联网时代技术的迅速发展,推动了图片、文字、视频等多媒体的爆发。当今社会越来越不能满足于单一模态的检索需求,大量跨模态检索的应用在不断发展。其中,基于图片查询的视频检索是一类具有研究意义和价值的应用,例如,利用幻灯片搜索相关视频讲座、推荐与图片相关的视频电影、利用照片去检索新闻视频等。但是,由于图片和视频之间数据分布不同,并且语义信息不一致,这必然导致传统的单模态检索方式不适用于跨模态检索任务。如何挖掘数据内在的联系、如何建立多模态信息特征的统一映射、如何保证检索速度都是跨模态检索面临的巨大的挑战。

在跨模态检索任务中,对图片的特征提取工作已经趋于成熟,基于深度模型的方法已经在大量分类任务中验证具有较好的效果。不同于图片特征提取,由于视频复杂的内容和结构特征,视频特征提取的研究工作在不断探索中。传统的检索方式可以将视频中每一帧进行信息抽取并表达,则图片到视频的检索工作可以看作图片到视频帧的检索工作。但传统方式对视频的表达必然会导致视频表达中存在与主要信息内容无关的冗余背景片段,为后续检索工作造成一定的困难。

为了解决上述问题,基于时序信息的深度网络被大量研究。通过同时从时间和空间维度学习特征,循环神经网络(RNN)和3D卷积网络(3D CNN)被广泛利用在视频领域。作为3D CNN模型的扩展,R-C3D模型被应用于连续视频的行为检测任务。R-C3D模型首先通过一个C3D模型提取特征,再利用区域候选网络(RPN)提取候选的活动序列段,最后在分类子网络中进行分类和活动序列段边界的回归。

针对本任务的需求,我们创新性地采用R-C3D模型来生成候选的活动区域段特征,进一步滤除嘈杂的背景信息片段,从而获得优越的视频活动区域段表示方法来进行跨模态检索任务。

APIVR:基于对抗学习的跨模态检索方法

本文主要针对基于图片查询的视频检索任务,提出一个基于对抗学习方式的跨模态检索方法——APIVR方法。

首先,对于视频数据的表示方法,我们新颖地利用行为分类模型R-C3D来提取出基于时序的活动区域段(proposal-based)特征,并将视频以活动信息包的形式表达。

然后,针对图片到视频包的检索任务,我们创新性地将基于图的多示例学习模块(Graph Multi-Instance Learning)整合到跨模态检索框架中,用以解决检索过程中视频信息包中存在的信息冗余问题。

本文提出的跨模态检索框架是基于对抗学习的方式,其中图片和视频包首先分别通过一个三层全连接网络映射到统一的特征空间中,再由基于几何投影(Geometry-aware)的三元组损失函数、语义分类损失函数、对抗损失函数共同调整特征的学习,优化映射空间中图片和视频之间的模态差异。模型整体的框架如图所示。下面将具体介绍APIVR方法的各个模块。

(1)   映射空间

我们将输入的图片表示为q,输入的视频包为。考虑到在跨模态检索任务中,视频和图像具有不同的统计属性和数据分布。我们分别使用两个映射函数将视频和图像特征投影到一个公共特征空间中。映射函数定义为:

考虑到全连接层具有丰富的参数保证映射的表达能力,所以本文采用三层全连接层来实现空间映射。根据映射空间学习到的视频和图像特征,APIVR方法首先利用基于图的多示例模型学习视频的显著信息,再利用三种类型的损失函数调整映射空间中的图像和视频特征。

(2) 基于图的多示例模块(GMIL)

在本框架中,尽管我们利用R-C3D模型使视频中尽可能包含所有可能的活动信息,但是,视频包的表达不可避免地存在与活动信息无关的冗余信息。如果我们基于整体的视频标签利用这些嘈杂的活动信息,则语义学习的质量将极大地降低。

实际上,我们将此问题转换为多示例学习问题,即,每一个视频都被视为一个示例包,而每个视频包中的活动信息被视为一个示例。多示例问题是基于自我注意机制,通过挑选出显著性示例来更好表达整体的信息。同时我们将图卷积结构结合到多示例框架中,可以进一步优化每个包中的图结构信息。

最后,我们得到视频包中活动信息的加权值作为整体视频的特征表达。通过对视频包中不同的活动信息分配不同的权重值,我们可以将目标更好地放在干净的示例上,进一步获得具有可区别性的视频特征表达。     

(3)   基于几何投影(Geometry-aware)的三元组损失函数

本方法采用三元组损失函数来训练映射空间中的特征向量,进一步保证不同模态下相似的训练样本具有语义相关性。对于一批训练样本视频-图像对,令每张图片为样例,对应的视频为正样例,其他类别的视频为负样例,则我们得到三元组损失函数为:

其中,m用来约束正负样例之间的距离,d(x,y)表示x和y之间的距离。在我们任务中,图像和视频之间数据结构上的差异使得传统的相似度度量方法不能直接利用,因此,本方法采用图像点与其在视频子空间上的正交投影之间的欧几里得距离来描述图像与视频之间的相似性,进而也保证视频的结构信息未被丢失。

由于视频中的冗余信息会干扰图像点到视频子空间的投影准确性,因此,我们提出利用挑选后的视频活动信息来代替完整的视频表达。  

(4)   语义分类损失函数

为了确保每个模态中的训练样本在语义上的区别性,我们还使用语义分类器将模态内训练样本从不同类别中分离出来。为了最大程度地减少模态差异,我们对图像和视频应用了相同的分类器。但是,将分类器应用于视频时,视频中的活动信息存在噪音问题。

因此,我们对分类器的定义会基于我们提出来的基于图的多示例模块,视频表达经过多示例模块的学习后,可以生成较为干净的信息表达。给定一组视频-图像对,则语义分类损失函数写为:

(5) 对抗损失函数

前面介绍的三元组损失函数和语义损失函数的目的是学习语义可区分性的特征表达,为了进一步保证特征表达的模态一致性,我们设计一个模态分类器来辨别模态。通过将辨别模态的过程与映射空间中特征学习的过程相互对抗,进一步缩小图像和视频表达之间的差异。

在本方法中,模态分类器通过一个二分类器来实现,用以区分图像和视频两种模态。在映射空间特征学习的过程中,我们希望在映射空间学习出来的图像和视频特征可以消除模态的差异,只保留语义上的一致性,这样在模态分类时候会对模态分类器进行混淆,以对抗的方式进行学习。

同时,考虑到在视频表达中,干净的活动信息具有更具表达性的特征分布,而噪音背景则会分散在整个特征空间中。因此,我们将模态分类器应用于视频的加权表达。类似于语义分类损失函数,最后我们得到的对抗损失函数为:

其中,是针对视频的预测概率模型。由于对抗学习是辨别模态过程和特征学习过程之间的相互作用,因此,在辨别模态的过程中,我们通过调整模态分类器的参数来最小化对抗损失函数。

相反,在映射空间的特征学习过程中,我们通过调整全连接层参数和基于图的多示例模块参数来最大化对抗损失函数。我们通过极小-极大的训练方式交替分辨不同的模态和学习映射空间中的特征表达,训练目标如下:

实验结果

我们在三个公共数据集上做了对比实验,通过和一些通用方法的比较,实验结果表明我们的模型具有显著的优越性和良好的通用性。同时,我们对各个模块进行了定量分析,实验结果如下:

其中,具体来说,我们设定APIVR (w/o TL), APIVR (w/o AL)和APIVR (w/o CL)分别表示为APIVR方法中消除三元组损失、对抗损失、语义分类损失的三种情况,进一步研究三种类型损失函数的效果和贡献。并且,为了验证基于几何投影相似性方法在三元组损失函数中的效果,我们用向量间的欧式距离来代替点面投影间的距离,并且命名这种情况为APIVR (w/o GA)。

此外,为了验证我们提出的基于图的多示例模块(GMIL)的有效性,我们将GMIL模块替换成MIL模块,并且用APIVR(w/o Graph)来表示这种情况。同时,我们还为视频中每一个活动信息特征分配统一的权重值,进而代替GMIL模块学习出来的权重值,命名为APIVR(w/o GMIL)。

从实验结果可以看出,与对抗损失和三元组损失相比,语义分类损失对性能的影响更大,这证明了语义分类器在我们的模型框架中的重要性。当使用传统的三元组损失而不是基于几何投影的三元组损失时,APIVR (w/o GA)的性能会有所下降,这表明保留视频活动信息的结构信息和几何属性对相似性学习是有益的。

此外,我们还可以注意到,APIVR (w/o GMIL)的结果要比完整的APIVR方法效果要差,这证明了我们提出的基于GMIL模块可以更加关注干净的活动信息,并对检索过程具有好处。最后,我们可以观察到APIVR(w/o Graph)的性能不及完整的APIVR方法,这表明了将图卷积层插入MIL模块的优势。

为了进一步验证我们GMIL模块对挑选有用视频活动信息的有效性,我们提供了可视化的检索效果图如下:

其中,上面的图为查询图片属于“冲浪”这一类别,下面的图为查询图片属于“踢球”这一类别。我们为每个查询图片列出了前2个检索到的视频。对于每个检索到的视频,我们将显示一个由GMIL模块学习出来的权重最高的图片序列,和另外两个权重最低的图片序列。 

显然,我们可以看出权重最高的图片可以较好捕获到查询图片上相关活动内容,而其他两个图片序列的关联程度较低,甚至只是包含大量背景内容。由此表明,我们所提出来的GMIL模块在识别干净的视频信息方面上存在着巨大的优势。

总结

在本文中,我们提出了一种基于视频活动区域段表达的跨模态检索方法,特别地,图像特征和基于视频活动区域段的视频特征被投影到由基于几何投影的三元组损失函数,语义分类损失函数和对抗损失函数共同调整的特征空间中。

我们创新性地将基于图的多示例学习模块整合到跨模态检索框架中,以解决视频包信息的噪声问题,并利用基于几何投影的相似度度量方法。实验在基于行为和事件的三个数据集上进行,实验结果也证明了对比其他方法,我们的方法具有优越性。


图像与视频检索交流群

关注最新最前沿的图像、视频检索技术,扫码添加CV君拉你入群,(如已为CV君其他账号好友请直接私信)

(请务必注明:检索)

喜欢在QQ交流的童鞋,可以加52CV官方QQ群:805388940。

(不会时时在线,如果没能及时通过验证还请见谅)


长按关注我爱计算机视觉


http://chatgpt.dhexx.cn/article/Lw5Vjn5B.shtml

相关文章

基于人脸的视频检索技术研究

http://www.doc88.com/p-5314124183853.html

Ad-hoc Video Search(AVS跨模态视频检索)

AVS任务也是跨模态检索中的一种,即对于给定的句子,尝试在视频库中检索出语义相关的内容。而跨模态相关的文章,博主已经在其他跨模态检索的文章中介绍过了。Ad-hoc和传统的视频检索任务不太一样,如它的名字ad-hoc一样,这…

聚焦视频文本检索:一文概览视频文本检索任务最新研究进展

©PaperWeekly 原创 作者 | 小马 单位 | FightingCV公众号运营者 研究方向 | 计算机视觉 写在前面 近几年,随着抖音、快手等短视频平台,以及哔哩哔哩、优酷等视频平台的出现,网络中出现了大量的视频媒体。海量视频媒体给视频内容的准确检…

图片/文字/视频跨模态检索综述

向AI转型的程序员都关注了这个号???????????? 机器学习AI算法工程 公众号:datayx 0 引言 在过去的二十几年里,不同类型的媒体数据如文 本、图像和视频迅速增长。通常,这些不同类型的 数据用于描述相同的事件或主题。例如&#…

利用python打造你的视频检索引擎

各位广大影迷们,是不是在为自己几十上百G的视频文件而头大呢,又或者是看到了一部动作大片,明明记得自己硬盘上也有,想再次重温一下,却怎么也找不到的悲惨经历呢。 别着急,今天就陪同大家,一起打…

极智项目 | 实战多模态文本-视频检索

欢迎关注我的公众号,获取我的更多经验分享 极智传送《极智项目 | 实战多模态文本-视频检索》 大家好,我是极智视界,本文介绍 实战多模态视频检索,并提供完整项目工程源码。 本文介绍的实战多模态视频检索,提供完整的可…

CVPR 2020 论文大盘点-图像与视频检索篇

本文总结CVPR 2020 中所有与图像和视频检索(Image and Video Retrieval)相关论文,总计 16 篇。 图像和视频检索常见于搜索引擎、商品服饰搜索等应用场景,另外为进行高效检索,该领域往往会将图像或者视频的特征通过哈希算法映射到二值空间,使用汉明距比较相似度,所以哈希…

跨模态检索之文本视频检索(Text to Clip)(2)

《Cross-Modal and Hierarchical Modeling of Video and Text》(2018 ECCV) 这篇文章主要介绍了一个叫做分层序列嵌入(Hierarchical Sequence Embedding, HSE)的通用模型,其作用是对不同模态的数据进行分层建模并利用…

视频文本检索之CLIP4Clip

论文:CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval GitHub:https://github.com/ArrowLuo/CLIP4Clip 学习是一种行动反射, 不是为了晓得些“知识”, 要切己体察,代入自己&#xff0c…

跨模态检索之文本视频检索(Text to Clip)

《Multilevel Language and Vision Integration for Text-to-Clip Retrieval》(2018 CVPR) 这篇文章引入了一个多层的模型,输入一个描述某个动作的查询语句,就可以从一段没有经过修剪的视频中找出对应的片段。 首先是第一个阶段…

MPEG-CDVA标准的特征提取(除深度学习) 视频匹配 视频检索

依据可查阅资料对CDVA标准中的特征提取(不涉及深度特征部分),视频匹配和视频检索流程做了分析说明。 1. 概要 1.1 描述子提取: 使用关键帧描述子 提取关键帧之前,视频做一个降采样,每隔2-10帧左右取一帧…

CLIP4Clip:用于端到端视频检索的CLIP实证研究

Luo, Huaishao, Lei Ji, Ming Zhong, Yang Chen, Wen Lei, Nan Duan and Tianrui Li. “CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval.” ArXiv abs/2104.08860 (2021). 1. Abstract 视频文本检索在多模态研究中起着至关重要的作用&#xff0c…

同时利用字幕、音频、视频进行检索!Inria谷歌提出MMT用于高效跨模态视频检索,代码已开源!...

关注公众号,发现CV技术之美 ▊ 写在前面 检索与自然语言查询相关的视频内容对于有效处理互联网规模的数据集起着关键作用。现有的大多数文本到视频检索方法都没有充分利用视频中的跨模态线索。此外,它们以有限或没有时间信息的方式聚合每帧视觉特征。 在…

视频检索——BLSTM(论文翻译、理解)

视频检索BLSTM方法论文翻译 摘要1 介绍2 相关工作3 自监督时序哈希3.1 时序感知的哈希函数3.2 二进制的LSTM3.3 学习目标3.4 框架细节 4 二进制优化4.1 二进制求导4.2 算法细节 5 实验5.1 数据集5.2 实验设置5.3 结果分析 6 结论 Play and Rewind: Optimizing Binary Represent…

基于内容的视频检索(CBVR)

参考 1. 视频检索的基本流程 2. 视频的结构分层 各层都可以用一些属性来描述: 1. 视频序列的属性主要包括场景的个数和持续时间; 2. 场景的属性包括标题、持续时间、镜头数目、开始镜头、结束镜头等; 3. 镜头的属性包括持续时间、动态特征…

人脸视频检索系统设计(C++)

目录 人脸检索系统框架的构建 1 一.软件实现的主要界面 1 二.软件的需求概括 1 三.软件代码设计过程中需要注意的问题 2 四.程序到目前为止产生的诸多缺陷 4 五.程序的详细设计过程 4 1.输入部分的设计 4 2.检测结果部分的设计过程 10 人脸检索系统框架的构建 ------FaceMFC_v…

AAAI 2023 | 基于多模态标签聚合的视频检索模型TABLE,多项SOTA

©作者 | QQ浏览器搜索技术中心、腾讯PCG ARC Lab 来源 | 机器之心 近年来,互联网短小视频内容的爆发式增长,对视频 - 文本检索(Video-Text Retrieval)的能力提出了更高的要求。在 QQ 浏览器搜索中,视频通常包含标…

5分钟实现「视频检索」:基于内容理解,无需任何标签

Notebook 教程:text-video retrieval 「视频检索」任务就是输入一段文本,检索出最符合文本描述的视频。随着各类视频平台的兴起和火爆,网络上视频的数量呈现井喷式增长,「视频检索」成为人们高效查找视频的一项新需求。传统的视频…

视频内容检索概述

视频内容检索 针对目前多媒体搜索引擎技术,视频数量的井喷式增加以及多媒体视频内容的多样性和数据结构的复杂性,如何快速的从有效地这些视频检索出人们感兴趣的已经成为当今信息化时代的难题。 数字视频内容检索 基于内容的视频检索(CBVR…

ad建集成库_手把手教你创建自己的Altium Designer集成元件库

一个善于规划、管理及总结的硬件开发工程师都喜欢创建自己的集成库,这样就相当于给自己打造了一款更适合自己的尖兵利器,无论是硬件设计的统一性还是硬件模块的可重用性,都会给工程师带来更多的设计便利。 一个管理规范的硬件开发企业,在集成库的制作及使用方面都会做出很多…