图片/文字/视频跨模态检索综述

article/2025/9/22 16:38:42


向AI转型的程序员都关注了这个号????????????

机器学习AI算法工程   公众号:datayx

0 引言

在过去的二十几年里,不同类型的媒体数据如文 本、图像和视频迅速增长。通常,这些不同类型的 数据用于描述相同的事件或主题。例如,网页通常 不仅包含文本描述,还包含与之匹配的图像或视频。这些不同类型的数据被称为多模态数据,表现出模 态间异构特性并具有广泛的应用,如图 1 所示,互 联网与社交媒体涌现的大规模多模态数据可以用于 进行主题检测、信息推荐、检索等。 

多模态数据的迅速增长使得用户很难有效地搜 索感兴趣的信息,也就衍生了各种各样的检索、搜 索技术。然而这些搜索技术大多是针对单一模态内 检索,如基于关键字的检索和基于内容的检索,它 们只执行相同媒体类型的相似性搜索,如文本检索、 图像检索、音频检索和视频检索。近些年来,移动 设备和新兴的社交网站(如 Facebook、Flickr、 YouTube 和 Twitter)的普及使得用户对跨模态数据 检索的要求越来越高。例如,用户正在游览长城, 希望通过拍照检索相关的文本、音频等材料作为指 南。通常,跨模态检索的目的是以一种模态的数据作为查询来检索相关的其它模态数据。

近些年来,跨模态检索引起了研究者广泛的研究 兴趣。一般来说,与传统的单模态检索方法相比, 跨模态检索需要构建跨模态关系模型,以便用户可 以通过提交他们所拥有的模态来检索他们期望的模 态。因此,跨模态检索的挑战在于如何度量不同模 态数据之间的内容相似性,也称之为异质鸿沟问题 (heterogeneity gap)。近些年来,随着深度学习技 术的推广以及其在计算机视觉、自然语言处理、语 音分析等领域的显著成果(LeCun 等,2015),以 深度学习技术为基础的表示学习对于缓解异质鸿沟 问题提供了一种有前景的解决方案。大量的深度跨 模态检索技术被提出并取得了优异的跨模态检索性 能,在学术界和工业界产生了广泛的影响。

  • 本文 原论文PDF 获取方式:

    关注微信公众号 datayx  然后回复 跨模态 即可获取。

    AI项目体验地址 https://loveai.tech

 

本文旨在对深度跨模态检索提供全面的综述。在 此之前, 本文作者在该方向进行了深入的研究,从 特征选择、子空间对齐、模态缺失、语义顺序学习、 小样本学习等方面进行了较多探索(Huang 等 2020;Huang 等,2019;Huang 等,2019;Huang 等, 2018;Yin 等,2017;Huang 等,2017;Wang 等, 2016;Xu 等,2016;He 等 2015;Huang 等,2015;Wang 等,2013;Yin 等,2018),对于该领域当 前的研究现状和近几年的最新进展较为熟悉,这也 是作者们立足自身研究基础选择撰写该综述的主要 原因。Liu 等人(2010)在 2010 年进行了跨模态检索综述,但是无法囊括近些年来涌现的新方法新工 作。Xu 等人(2013)在 2013 年进行了多视角学习 综述但却并非针对异质模态且检索任务。Peng 等人 (2017)在 2017 年发表了跨模态检索的综述论文, 但当时没有对 2017 年之后的跨模态检索方法进行 总结。近些年来,Baltrusaitis 等人(2019)对多模 态机器学习进行了综述和分类,但是其研究重点过 于分散,无法涵盖跨模态检索任务的所有重要问题。针对跨模态检索面临的各种挑战性问题,研究者提 供了各种思路和技术。本文着重总结了这些与以往 相关研究有很大不同的深度跨模态检索的最新研究 成果。需要注意的是,本文关注在跨模态检索这一 基本跨模态分析任务上,其它相关主题,如图像/视 频描述、图文问答等文献(Li 等,2019;Srivastava 等,2019)不在本文讨论范围内。 

本文的主要贡献如下: 

 本文综述了深度跨模态检索的最新进展。它 包含了许多在以前的综述中没有出现的新 的重要的参考文献,该综述有利于初学者快 速了解和熟悉跨模态检索领域。

 本文对深度跨模态检索方法进行了分类,介 绍了不同类别下的代表性方法并重点阐述 了同类下不同方法以及不同类方法之间的 差异,这有助于该领域研究者更好理解跨模 态检索领域中使用的各种技术。 

本文对深度跨模态检索领域面临的机遇和 挑战进行了梳理,并总结了未来该领域的发 展方向,这将有助于启发进而做出更有价值 的跨模态检索工作。

本文的整体组织结构如下。第二章给出深度跨模 态检索的分类依据与方法。第三章介绍不同类别下 代表性的深度跨模态检索算法与其区别。第四章给 出广泛使用的基准跨模态数据库。第五章进行讨论 与未来展望。最后,第六章对本文进行总结。

1 深度跨模态检索概述 

深度跨模态检索的一般框架如图 2 所示。深度特 征学习以及跨模态相关关系建模为多模态共同表示 学习的重要步骤,在减少异质鸿沟问题中发挥重要 作用。基于多模态共同表示,跨模态相似度可以进 行有效度量。一般来说,上述共同表示可以是实值表达也可以是二值表达。对于实值表达,学习得到 的不同模态表达为实数值(一般为向量)。对于二 值表达,学习得到的不同模态表达为-1 以及 1 构成 的编码,该精简表达有助于减少存储需求且加速跨 模态检索速度,相关方法也称之为跨模态哈希。

在不同的跨模态数据信息提供下,研究者提出了 广泛的学习技术并表现出一定的差异。这些技术大 概包含七类,即典型相关分析、一一对应关系保持、 度量学习、似然分析、学习排序、语义预测以及对 抗学习。下面简要介绍这七类技术。典型相关分析线性投影两个模态数据至低维空 间并最大化模态间相关关系,深度神经网络的引入 一般替换上述线性投影而有利于相关性最大化目标 函数的优化。一一对应关系保持在共同表示层构建跨模态数据间 一一对应关系,进而实现对应的跨模态数据间距离 最小化。其该项技术广泛应用于早期尤其是无监督 跨模态检索中。

度量学习引入度量函数或者深度神经网络构建 数据间相似性与非相似性关系,其主要目标为相似 样本在共同表示空间具有较小距离而非相似样本具 有较大距离。似然分析作为生成模型,一般通过极大似然优化 目标函数进行观测数据的生成建模,在跨模态数据 中,该观测数据可以是多模态特征、数据间对应关 系以及数据间相似度等。学习排序构建排序模型保证在共同表示空间下 数据间的排序关系得以保持。在跨模态数据中,该 排序信息一般以三元组的形式通过模态内或者模态 间相似关系进行构建。语义预测通过一般分类任务模型实现模态内数 据相似性结构保持,即具有相同的语义标注则具有 相似的共同表示,通过此间接实现跨模态数据关系 构建,即相同语义下跨模态共同表示一致。对抗学习主要是生成对抗网络思想(Goodfellow 等,2014)的引入,通过构建生成-对抗任务以学习多模态共同表示,建模过程迫使相似的跨模态数据 共同表示统计不可分,进而实现模态间相似度计算。需要注意的是深度跨模态检索代表性方法的划 分主要体现在实现共同表示学习任务的普遍优化目 标的差异上。不同代表性方法往往存在多种技术的 整合,为方便进行对比,我们针对方法本身的最主 要特性进行划分,相关代表性方法整理如表 1 所示。

机器学习算法AI大数据技术

 搜索公众号添加: datanlp

长按图片,识别二维码


阅读过本文的人还看了以下文章:

TensorFlow 2.0深度学习案例实战

基于40万表格数据集TableBank,用MaskRCNN做表格检测

《基于深度学习的自然语言处理》中/英PDF

Deep Learning 中文版初版-周志华团队

【全套视频课】最全的目标检测算法系列讲解,通俗易懂!

《美团机器学习实践》_美团算法团队.pdf

《深度学习入门:基于Python的理论与实现》高清中文PDF+源码

特征提取与图像处理(第二版).pdf

python就业班学习视频,从入门到实战项目

2019最新《PyTorch自然语言处理》英、中文版PDF+源码

《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码

《深度学习之pytorch》pdf+附书源码

PyTorch深度学习快速实战入门《pytorch-handbook》

【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》

《Python数据分析与挖掘实战》PDF+完整源码

汽车行业完整知识图谱项目实战视频(全23课)

李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材

笔记、代码清晰易懂!李航《统计学习方法》最新资源全套!

《神经网络与深度学习》最新2018版中英PDF+源码

将机器学习模型部署为REST API

FashionAI服装属性标签图像识别Top1-5方案分享

重要开源!CNN-RNN-CTC 实现手写汉字识别

yolo3 检测出图像中的不规则汉字

同样是机器学习算法工程师,你的面试为什么过不了?

前海征信大数据算法:风险概率预测

【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类

VGG16迁移学习,实现医学图像识别分类工程项目

特征工程(一)

特征工程(二) :文本数据的展开、过滤和分块

特征工程(三):特征缩放,从词袋到 TF-IDF

特征工程(四): 类别特征

特征工程(五): PCA 降维

特征工程(六): 非线性特征提取和模型堆叠

特征工程(七):图像特征提取和深度学习

如何利用全新的决策树集成级联结构gcForest做特征工程并打分?

Machine Learning Yearning 中文翻译稿

蚂蚁金服2018秋招-算法工程师(共四面)通过

全球AI挑战-场景分类的比赛源码(多模型融合)

斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)

python+flask搭建CNN在线识别手写中文网站

中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程

不断更新资源

深度学习、机器学习、数据分析、python

 搜索公众号添加: datayx  


http://chatgpt.dhexx.cn/article/yj02BmAl.shtml

相关文章

利用python打造你的视频检索引擎

各位广大影迷们,是不是在为自己几十上百G的视频文件而头大呢,又或者是看到了一部动作大片,明明记得自己硬盘上也有,想再次重温一下,却怎么也找不到的悲惨经历呢。 别着急,今天就陪同大家,一起打…

极智项目 | 实战多模态文本-视频检索

欢迎关注我的公众号,获取我的更多经验分享 极智传送《极智项目 | 实战多模态文本-视频检索》 大家好,我是极智视界,本文介绍 实战多模态视频检索,并提供完整项目工程源码。 本文介绍的实战多模态视频检索,提供完整的可…

CVPR 2020 论文大盘点-图像与视频检索篇

本文总结CVPR 2020 中所有与图像和视频检索(Image and Video Retrieval)相关论文,总计 16 篇。 图像和视频检索常见于搜索引擎、商品服饰搜索等应用场景,另外为进行高效检索,该领域往往会将图像或者视频的特征通过哈希算法映射到二值空间,使用汉明距比较相似度,所以哈希…

跨模态检索之文本视频检索(Text to Clip)(2)

《Cross-Modal and Hierarchical Modeling of Video and Text》(2018 ECCV) 这篇文章主要介绍了一个叫做分层序列嵌入(Hierarchical Sequence Embedding, HSE)的通用模型,其作用是对不同模态的数据进行分层建模并利用…

视频文本检索之CLIP4Clip

论文:CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval GitHub:https://github.com/ArrowLuo/CLIP4Clip 学习是一种行动反射, 不是为了晓得些“知识”, 要切己体察,代入自己&#xff0c…

跨模态检索之文本视频检索(Text to Clip)

《Multilevel Language and Vision Integration for Text-to-Clip Retrieval》(2018 CVPR) 这篇文章引入了一个多层的模型,输入一个描述某个动作的查询语句,就可以从一段没有经过修剪的视频中找出对应的片段。 首先是第一个阶段…

MPEG-CDVA标准的特征提取(除深度学习) 视频匹配 视频检索

依据可查阅资料对CDVA标准中的特征提取(不涉及深度特征部分),视频匹配和视频检索流程做了分析说明。 1. 概要 1.1 描述子提取: 使用关键帧描述子 提取关键帧之前,视频做一个降采样,每隔2-10帧左右取一帧…

CLIP4Clip:用于端到端视频检索的CLIP实证研究

Luo, Huaishao, Lei Ji, Ming Zhong, Yang Chen, Wen Lei, Nan Duan and Tianrui Li. “CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval.” ArXiv abs/2104.08860 (2021). 1. Abstract 视频文本检索在多模态研究中起着至关重要的作用&#xff0c…

同时利用字幕、音频、视频进行检索!Inria谷歌提出MMT用于高效跨模态视频检索,代码已开源!...

关注公众号,发现CV技术之美 ▊ 写在前面 检索与自然语言查询相关的视频内容对于有效处理互联网规模的数据集起着关键作用。现有的大多数文本到视频检索方法都没有充分利用视频中的跨模态线索。此外,它们以有限或没有时间信息的方式聚合每帧视觉特征。 在…

视频检索——BLSTM(论文翻译、理解)

视频检索BLSTM方法论文翻译 摘要1 介绍2 相关工作3 自监督时序哈希3.1 时序感知的哈希函数3.2 二进制的LSTM3.3 学习目标3.4 框架细节 4 二进制优化4.1 二进制求导4.2 算法细节 5 实验5.1 数据集5.2 实验设置5.3 结果分析 6 结论 Play and Rewind: Optimizing Binary Represent…

基于内容的视频检索(CBVR)

参考 1. 视频检索的基本流程 2. 视频的结构分层 各层都可以用一些属性来描述: 1. 视频序列的属性主要包括场景的个数和持续时间; 2. 场景的属性包括标题、持续时间、镜头数目、开始镜头、结束镜头等; 3. 镜头的属性包括持续时间、动态特征…

人脸视频检索系统设计(C++)

目录 人脸检索系统框架的构建 1 一.软件实现的主要界面 1 二.软件的需求概括 1 三.软件代码设计过程中需要注意的问题 2 四.程序到目前为止产生的诸多缺陷 4 五.程序的详细设计过程 4 1.输入部分的设计 4 2.检测结果部分的设计过程 10 人脸检索系统框架的构建 ------FaceMFC_v…

AAAI 2023 | 基于多模态标签聚合的视频检索模型TABLE,多项SOTA

©作者 | QQ浏览器搜索技术中心、腾讯PCG ARC Lab 来源 | 机器之心 近年来,互联网短小视频内容的爆发式增长,对视频 - 文本检索(Video-Text Retrieval)的能力提出了更高的要求。在 QQ 浏览器搜索中,视频通常包含标…

5分钟实现「视频检索」:基于内容理解,无需任何标签

Notebook 教程:text-video retrieval 「视频检索」任务就是输入一段文本,检索出最符合文本描述的视频。随着各类视频平台的兴起和火爆,网络上视频的数量呈现井喷式增长,「视频检索」成为人们高效查找视频的一项新需求。传统的视频…

视频内容检索概述

视频内容检索 针对目前多媒体搜索引擎技术,视频数量的井喷式增加以及多媒体视频内容的多样性和数据结构的复杂性,如何快速的从有效地这些视频检索出人们感兴趣的已经成为当今信息化时代的难题。 数字视频内容检索 基于内容的视频检索(CBVR…

ad建集成库_手把手教你创建自己的Altium Designer集成元件库

一个善于规划、管理及总结的硬件开发工程师都喜欢创建自己的集成库,这样就相当于给自己打造了一款更适合自己的尖兵利器,无论是硬件设计的统一性还是硬件模块的可重用性,都会给工程师带来更多的设计便利。 一个管理规范的硬件开发企业,在集成库的制作及使用方面都会做出很多…

NC57中间表数据源的设置流程

目前场景如下:NC定时将数据写入中间库中,第三方去中间库中抓取; 方式一: 第一步:在NC客户端【客户化】——【二次开发工具】——【参数设置】——【参数模板管理】添加所设置的数据源数据 找到对应的数据库表pub_sysi…

分库分表介绍

目录 一、前言 二、何谓数据切分? 三、垂直切分 1、垂直分库 2、垂直分表 3、垂直切分优缺点 4、拆分需考虑的业务因素 四、水平切分 1、水平分库 2、水平分表 3、水平切分优缺点 五、垂直与水平切分的联合使用 六、数据分片规则 1、Hash取模分表 2、数…

分库分表入门介绍

本文收集网上资料,多合一 编撰于2020年4月21日 原文链接1 原文链接2 原文链接3 目录 为什么要分库分表读写分离,主从复制Why Not NoSQL/NewSQL?什么是RDBMS 分库分表概述切分策略路由规则范围路由hash算法路由配置 分库分表带来的问题join操作COUNT&…

工作区、暂存区、仓库三者关系

区分三者关系 Git最让你迷惑的无非是它里面的各种概念了,如果是刚开始接触Git希望看完本篇介绍之后有一个清晰的认识,笔者认识也有限这里只说说个人对使用Git的感受,说一下它里面的几个最常用的概念的理解。 在初始化git版本库之后会生成一个…