VIPL Lab 9篇ACM MM 2019和IEEE TIP 论文精解

article/2025/9/13 17:42:01

点击我爱计算机视觉标星,更快获取CVML新技术


春华秋实,硕果累累。近期,中国科学院计算技术研究所视觉信息处理与学习研究组(VIPL实验室)再创佳绩,有6篇论文被ACM MM 2019接收,还有3篇文章被IEEE TIP接收。

ACM MM国际多媒体会议,全称是ACM Multimedia,是全球多媒体领域的顶级会议,被中国计算机学会(CCF)列为A类会议,汇聚世界各大专业机构分享、交流最新研究成果,10月将在法国尼斯召开。

IEEE TIP,全称是IEEE Transactions on Image Processing,图像/视频处理领域重要期刊,是CCF推荐的计算机图形学与多媒体方向的A类国际期刊,侧重图像处理的前沿理论与方法,2019年SCI影响因子为6.79。

VIPL实验室入选论文在食品识别、场景识别、视频结构化分析、视觉城市感知、图像文本匹配、弱监督指示表达定位等方面再度贡献了技术革新,通过提出全新识别框架、创新算法、引入研究方法更新,跳出实验室理想环境,克服真实环境中的各种异常因素对于识别精度的干扰,为计算机视觉在日常生活中的便捷应用提供先进的技术驱动力,促进计算机视觉技术更精确地为智慧城市、智能家居、智能零售等多场景多终端服务,为AI落地带去纵深延展。

ACM MM 2019

VIPL实验室入选ACM MM 2019的6篇论文信息概要如下:

01

Knowledge-guided Pairwise Reconstruction Network for Weakly Supervised Referring Expression Grounding ( Xuejing Liu, Liang Li, Shuhui Wang, Zheng-Jun Zha, Li Su, Qingming Huang )

弱监督指示表达定位(REG)旨在根据语言查询在图像中定位参考实体,其中图像区域(proposal)与查询之间的映射在训练阶段是未知的。在指示表达中,人们通常根据其与其他上下文实体的关系以及视觉属性来描述目标实体。然而,以前弱监督的REG方法很少关注实体之间的关系。在本文中,我们提出了一个知识引导的成对重建网络(KPRN),它建模目标实体(主体)和上下文实体(客体)之间的关系,并同时定位两个实体。具体来说,我们首先设计一个知识提取模块来指导主体和客体的候选框选择,以每个候选框与主体/客体之间的语义相似性作为先验知识。其次,在这些知识的指导下,我们设计了主体和客体注意模块来构建主客体候选框组合。主体注意模块在主体候选框中剔除了不相关的候选框。客体注意模块选择最合适的候选框作为上下文信息。第三,我们引入成对注意网络和自适应加权结构来学习这些候选框组合与查询之间的对应关系。最后,我们使用成对重建模块衡量弱监督定位的效果。在四个数据集上进行的大量实验表明,我们的方法优于现有的最先进方法。

02

Ingredient-Guided Cascaded Multi-Attention Network for Food Recognition ( Weiqing Min, Linhu Liu, Zhengdong Luo, Shuqiang Jiang )

现有的大多数食品识别方法都是利用流行的深度神经网络直接提取整张食品图像的视觉特征,而不考虑食物图像本身的特点。为此,我们提出了一种食物原材料知识引导的级联多注意网络(IG-CMAN)实现食物识别,该网络能够实现从类别级别到原料级别、从粗粒度到细粒度的多尺度图像区域定位。在第一级,IG-CMAN利用类别监督的空间转换网络(ST)生成初始注意区域。以这个注意区域为参考,在第二级,IG-CMAN将ST与LSTM结合起来从原料引导的子网络中发现不同的细粒度尺度的注意区域。此外,我们还引入了一个新的多模态食品数据集WikiFood-200,包含来自Wikipedia的200个食品类别,大约20万张食品图片和319种原材料。我们在当前基准食品数据集和新的WikiFood-200数据集上进行实验,其提出的方法均达到了当前最优性能。

03

MUCH: MUtual Coupling enHancement of scene recognition and dense captioning. ( Xinhang Song, Bohan Wang, Gongwei Chen, Shuqiang Jiang )

由于场景概念一般比较抽象,完整的场景理解也需要同时从全局和局部多个展开。场景识别是可以认为是一种全局场景理解方法,而稠密图题描述生成则可以认为是一种局部理解的方法。现有的工作一般对以上两种技术独立研究,难以实现更全面的场景理解。相反,我们在本文中提出了一种融合全局场景识别与局部稠密图题生成模型的多角度场景理解框架。两种模型的融合包括两步:一是监督信息的融合,场景标签和局部图题描述融合为新的描述;二是编解码模型的融合,分别面向场景识别和稠密图题描述的LSTM联合训练。特别的,为了调和场景识别与稠密图题生成模型的差异,我们提出了场景自适应的非极大值抑制技术以突出场景相关的候选区域,还提出了一种类别与区域大小加权的池化方法,以避免稠密重合区域对全局场景识别的影响。为实现模型训练,我们对视觉基因数据集重新标注场景标签,并在该数据集上验证了所提出方法在多角度场景理解任务上的有效性。同时,我们也在公共场景识别数据集MIT67和SUN397上验证了所提出模型也可以有效提升传统场景识别模型的准确率。

04

Aberrance-aware gradient-sensitive attentions for scene recognition with RGB-D videos ( Xinhang Song, Sixian Zhang, Yuyun Hua, Shuqiang Jiang )

在大规模RGB数据支撑下,传统的场景识别模型在理想环境下已经能获得较高识别准确率。然而现实环境中,多种不可避免的异常因素都会影响其准确率,影响因素包括光照变化、传感器的局限,如摄像头移动时产生模糊、深度摄像头响应距离短等。不同于传统面向理想环境的识别方法,本文提出一种在真实环境中对多种干扰因素鲁棒的RGB-D多模态视频场景识别框架。通过提出边缘梯度卷积核以获取梯度敏感的特征图,并在不同维度投影以分别获取时域、空域和模态注意力机制参数,以分别抑制因视频拍摄时摄像头移动造成的帧模糊问题、因深度摄像头响应距离有限而造成的深度缺失问题、以及光照变化问题。我们分别在不同挑战环境下验证了所提出方法的有效性。

05

Learning Fragment Self-Atention Embeddings for Image-Text Matching ( Yiling Wu, Shuhui Wang, Guoli Song, Qingming Huang )

本文提出了一种学习图像文本匹配的算法。为提高检索精度和保证检索效率,该算法挖掘图像和文本的细粒度信息,并分别将图像和文本映射到隐含空间。具体地,该算法使用bottom-up注意力得到包含显著物体的图像小块,使用wordpiece token得到文本小块,并使用自注意机制分别学习图像和文本内小块的关联,进一步聚合小块的信息得到图像和文本的隐含空间表示。其中建模自注意机制的层包括多头自注意力子层和对每个位置的前馈网络子层。进一步地,使用难例挖掘配合优化triplet损失和angular损失学习图像和文本到隐含空间的映射函数。我们进行了图像文本匹配的实验,该算法在FLICKR30K数据集上性能超过现有算法,在MSCOCO数据集上性能和最优算法相当,并且检索速度更快。

06

Attention-based Densely Connected LSTM for Video Captioning (Yongqing Zhu, Shuqiang Jiang )

长短时记忆网络被广泛应用于视频描述产生的任务中,因为该网络可以用来建模视频及其描述中的时序信息,然而在长短时记忆网络中一些较早时刻产生的信息不能直接作用于预测当前时刻被预测的单词,而这些时刻产生的上下文信息可能对于预测当前时刻单词也比较重要。为了更好的利用模型早期产生的上下文信息,本文提出了一种基于传统长短时记忆网络的循环神经网络模型,在预测每一个单词时该模型首先根据所有已产生的上下文信息通过注意力机制重构当前产生的已产生部分句子的特征,模型进一步根据重构的特征预测得到当前时刻单词。我们在视频描述产生的两个常用数据集上评估了该方法。实验结果表明该方法能显著提升模型性能,并且能进一步显示不同时刻模型产生信息对于预测不同单词的不同重要程度。

IEEE TIP

VIPL实验室入选IEEE TIP的3篇论文信息概要如下:

01

Multi-Scale Multi-View Deep Feature Aggregation for Food Recognition (Shuqiang Jiang, Weiqing Min, Linhu Liu and Zhengdong Luo)


食品图像识别技术在人类健康方面有着巨大的潜在应用,逐渐成为近年来计算机视觉的研究热点。现有食品图像识别方法大多都是通过卷积神经网络直接提取深度视觉特征,然而这些方法忽略了食物图像本身的特点,因而无法达到最优识别性能。相比于一般物体,食品图像通常具有不显著的空间布局。为此,我们提出了一种基于多尺度多视角融合的食品图像识别框架。该框架可以将高级语义特征、中级属性特征和深度视觉特征融合成统一的特征表示。这三种类型的特征从不同粒度更为全面准确的描述了食品图像。在该框架中,我们利用其原材料信息监督的卷积神经网络来提取中级属性特征,同时从类别监督的卷积神经网络中提取高级语义特征和深度视觉特征。考虑到食物图像不显著的空间布局,我们对于每种类型的特征分别进行多尺度融合,使其融合的特征更具有判别性和几何不变性。实验结果表明,我们的方法在当前主流的食品图像数据库(ETH Food-101, VireoFood-172)和近期发布的食品图像数据库ChineseFoodNet上均达到了当前最好性能。

02

Multi-Task Deep Relative Attribute Learning for Visual Urban Perception (Weiqing Min, Shuhuan Mei, Linhu Liu, Yi Wang, and Shuqiang Jiang)


视觉城市感知是通过大量的街景图像及其对应的成对比较来量化城市物理环境的感知属性。现有方法主要包括(1)利用图像特征和成对比较转化的排序得分训练回归模型进行感知属性预测;(2)采用Pairwise排序算法独立地学习每类感知属性。前者不能直接利用成对比较,而后者忽略了不同属性之间的关系。为了解决这些问题,我们提出了一个多任务深度相对属性学习网络(MTDRALN)。MTDRALN通过多任务孪生网络同时学习所有相对感知属性,其中每个孪生神经网络预测一种相对属性。MTDRALN将所有的属性根据语义相关性进行分组,结合深度相对属性学习,利用结构化稀疏性对分组属性的先验进行建模,因此能够通过多任务学习同时学习所有相对属性。除了排序子网络外,MTDRALN进一步引入了分类子网络,这两种类型的损失共同约束了深度网络的参数,从而使网络学习到了更有判别性的视觉特征。此外,我们的网络采用端到端的方式进行训练,使深度特征学习和多任务相对属性学习相互增强。在大规模的PlacePulse2.0数据集上进行了大量实验,验证了我们所提方法的优越性。

03

Image Representations with Spatial Object-to-Object Relations for RGB-D Scene Recognition. (Xinhang Song, Shuqiang Jiang, Bohan Wang, Chengpeng Chen, Gongwei Chen)

场景识别的挑战之一是场景间由于物体或局部区域相似或共生而导致的类间相似性。传统的方法一般基于全局特征或基于物体的中层描述表示场景图像,难以有效区分以上相似的场景。相反,本文围绕场景内物体与物体间空间关系展开研究,建立基于<物体、空间关系、物体>三元组的物体与物体间空间关系的图像描述以用于场景识别,包括统计三元组共生频率的统计性描述(COOR)和多关系扩展的图题描述表达(SOOR)。其中,COOR以三阶统计张量表示,将其拉伸成一位向量即可用于场景分类器训练,并用于场景识别。SOOR的表达形式更自由,以物体及其关系为内容组成场景局部区域的图题描述,再利用顺序迭代模型(RNN)实现特征嵌入,并用于场景分类器训练。特别的,我们引入RGB-D多模态数据,以提升空间关系描述的准确性,并提出RGB-D多模态候选区域融合技术用于物体及关系检测。本文所提出方法在公共RGB-D场景识别数据集SUN RGB-D和NYU D2上都能达到业内最优效果。

—END—

VIPL研究组隶属于中国科学院计算所及中科院智能信息处理重点实验室,同时也是先进人机通信技术联合实验室(JDL)的一部分。目前,VIPL研究组主要成员包括研究人员20余名、博士/硕士研究生50余名。研究组在相关领域发表研究论文500余篇,其中100余篇发表在计算机学会认定的领域A类国际期刊或会议上。研究成果获2015年度国家自然科学二等奖,2005年度国家科技进步二等奖等。


CV细分方向交流群

52CV已经建立多个CV专业交流群,包括:目标跟踪、目标检测、语义分割、姿态估计、人脸识别检测、医学影像处理、超分辨率、神经架构搜索、GAN、强化学习等,扫码添加CV君拉你入群,

(请务必注明相关方向,比如:目标检测

喜欢在QQ交流的童鞋,可以加52CV官方QQ群:805388940。

(不会时时在线,如果没能及时通过验证还请见谅)


长按关注我爱计算机视觉


http://chatgpt.dhexx.cn/article/HxIGvaY5.shtml

相关文章

CVPR2020 | 中科院VIPL实验室录取论文详解

编者按&#xff1a;近日&#xff0c;计算机视觉顶会 CVPR 2020 接收论文结果揭晓&#xff0c;从 6656 篇有效投稿中录取了 1470 篇论文&#xff0c;录取率约为 22%。中科院VIPL实验室共七篇论文录取&#xff0c;内容涉及弱监督语义分割、活体检测、手势识别、视觉问答、行人搜索…

深度优先搜索 广度优先搜索理解

深度优先搜索广度优先搜索 1. 什么是 “搜索” 算法 我们知道&#xff0c;算法都是作用于某种具体的数据结构上的&#xff0c;而深度优先搜索算法和广度优先搜索算法就是作用于图这种数据结构的。 图上的搜索算法&#xff0c;就是从图中的一个顶点出发&#xff0c;到另一个顶…

深度优先搜索广度优先搜索

1 概述 算法是作用于具体的数据结构之上的&#xff0c;深度优先搜索算法和广度优先搜索算法都是基于图这种数据结构的。主要原因是因为图的这种数据结构表达能力很强&#xff0c;大部分涉及搜索的场景都可以抽象成图。 图上的搜索算法&#xff0c;最直接的理解就是&#xff0c…

邻接矩阵的深度优先搜索技术

概述 深度优先搜索&#xff08;Depth First Search&#xff0c;DFS&#xff09;&#xff0c;是最常见的图搜索方法之一。深度优先搜索沿着一条路径一直走下去&#xff0c;无法行进时&#xff0c;回退回退到刚刚访问的结点&#xff0c;似不撞南墙不回头&#xff0c;不到黄河不死…

图-深度优先遍历

概述 深度优先遍历&#xff0c;从初始访问结点出发&#xff0c;初始访问结点可能有多个邻接结点&#xff0c;深度优先遍历的策略就是首先访问第一个邻接结点&#xff0c;然后再以这个被访问的邻接结点作为初始结点&#xff0c;访问它的第-一个邻接结点&#xff0c;可 以这样理解…

深度优先搜索python

深度优先搜索 概念 深度优先搜索和广度优先搜索一样&#xff0c;都是对图进行搜索的算法&#xff0c;目的也都是从起点开始搜索直到到达指定顶点&#xff08;终点&#xff09;。深度优先搜索会沿着一条路径不断往下搜索直到不能再继续为止&#xff0c;然后再折返&#xff0c;…

DFS——深度优先搜索

什么是DFS DFS&#xff0c;中文名深度优先搜索&#xff0c;是一种图的搜索方式&#xff0c;本质上是一种递归。 dfs相当自由&#xff0c;学dfs可能最高境界就和打太极似的&#xff0c;无招胜有招 DFS的经典应用&#xff1a; 1.全排列 虽然感觉没有贴题目的必要 这应该是大多数d…

算法详解之深度优先搜索算法

14天阅读挑战赛 文章目录 1、深度优先搜索&#xff08;Depth-First Search&#xff0c;DFS&#xff09;介绍2、深度优先搜索算法思想3、深度优先搜索算法步骤&#xff1a;4、深度优先搜索算法的应用 1、深度优先搜索&#xff08;Depth-First Search&#xff0c;DFS&#xff09…

第七章:深度优先搜索

不撞南墙不回头-深度优先搜索 广度优先搜索BFS是每次将当前状态能够一步拓展出的所有状态&#xff0c;全部拓展出来依次存入队列。而深度优先搜索是将当前状态按照一定的规则顺序&#xff0c;先拓展一步得到一个新状态&#xff0c;再对这个这个新状态递归拓展下去。如果无法拓…

Java实现深度优先搜索

Java实现深度优先搜索 图的遍历 图的遍历就是访问图中的每个节点并且每个节点只访问一次。但图中有那么多节点&#xff0c;要如何进行访问就是一个问题&#xff0c;所以我们需要有特定的策略来进行访问这些节点。图的访问策略一般有两种&#xff1a;深度优先搜索和广度优先搜…

深度优先搜索

深度优先搜索&#xff1a; 深度优先搜索是对先序遍历的一般化。我们从某个节点开始&#xff0c;先处理&#xff0c;并将标记为已知&#xff0c;然后任意选择的一个邻接顶点&#xff0c;对其进行深度优先搜索&#xff0c;这样就递归的遍历了图的所有顶点。当图中有圈时&#xf…

【基础知识】一文看懂深度优先算法和广度优先算法

概览 先上个图 现在我们要访问图中的每个节点&#xff0c;即图的遍历。 图的遍历是指&#xff0c;从给定图中任意指定的顶点&#xff08;称为初始点&#xff09;出发&#xff0c;按照某种搜索方法沿着图的边访问图中的所有顶点&#xff0c;使每个顶点仅被访问一次&#xff…

深度优先搜索(DFS),看这一篇就够了。

一&#xff0c;定义&#xff1a; 深度优先搜索的思路和树的先序遍历很像&#xff0c;下面是百度百科上的定义&#xff1a; 深度优先遍历图的方法是&#xff0c;从图中某顶点v出发&#xff1a; &#xff08;1&#xff09;访问顶点v&#xff1b; &#xff08;2&#xff09;依次从…

Python实现深度优先遍历(DFS)和广度优先遍历(BFS)

一&#xff0c;简介 深度优先遍历(Depth First Search, 简称 DFS) 与广度优先遍历(Breath First Search)是图论中两种非常重要的算法&#xff0c;生产上广泛用于拓扑排序&#xff0c;寻路(走迷宫)&#xff0c;搜索引擎&#xff0c;爬虫等&#xff0c;也频繁出现在 leetcode&am…

算法数据结构——图的遍历之深度优先搜索算法(Depth First Search)

1. 深度优先搜索简介 深度优先搜索算法&#xff08;Depth First Search&#xff09;&#xff1a;英文缩写为 DFS。是一种用于搜索树或图的算法。所谓深度优先&#xff0c;就是说每次都尝试向更深的节点走。 深度优先搜索采用了回溯思想&#xff0c;该算法沿着树的深度遍历树的节…

【新书速递】实用安全多方计算导论

安全多方计算&#xff08;MPC&#xff09;是解决数据安全与隐私保护问题的关键安全数据交换技术&#xff0c;近年来发展迅速&#xff0c;但由于MPC涉及复杂的密码学和工程实现技术&#xff0c;行业长期缺乏同时具备MPC研究、应用和实现能力的综合性人才&#xff0c;这阻碍了MPC…

百万富翁问题--安全多方计算

百万富翁问题—安全多方计算 是由图灵奖获得者姚期智提出的。 有A、B两个富翁&#xff0c;A资产i亿元&#xff0c;B资产j亿元&#xff0c;i、j均在0-10范围内&#xff0c;在互不让对方知道自己资产的情况下&#xff0c;比较A和B的资产谁多谁少。 那么如何去比较呢&#xff1f;…

隐私保护技术之安全多方计算

安全多方计算(Secure Multi-Party Computation&#xff0c;SMPC)用于解决一组互不信任的参与方各自持有秘密数据&#xff0c; 协同计算一个既定函数的问题。安全多方计算在保证参与方获得正确计算结果的同时&#xff0c;无法获得计算结果之外的任何信息。 在整个计算过程中&…

基于同态加密体制的安全多方计算

本文首发公众号VenusBlockChain&#xff0c;关注公众号后可免费阅读&#xff01;VenusBlockChain致力于区块链技术研究&#xff0c;传播区块链技术和解决方案、区块链应用落地、区块链行业动态等。有兴趣的小伙伴们&#xff0c;欢迎关注。 安全多方计算&#xff08;Secure Mu…

多方安全计算

说明&#xff0c;本文是转载的&#xff0c;个人觉得作者讲解清晰明了&#xff0c;收录用于学习&#xff0c;原文链接&#xff1a;https://blog.csdn.net/yuxinqingge/article/details/104588197。 如今&#xff0c;互联网已经完成了从IT时代向DT时代转变&#xff0c;数据已经成…