VIPL Lab 9篇ACM MM 2019和IEEE TIP 论文精解

点击我爱计算机视觉标星，更快获取CVML新技术

春华秋实，硕果累累。近期，中国科学院计算技术研究所视觉信息处理与学习研究组（VIPL实验室）再创佳绩，有6篇论文被ACM MM 2019接收，还有3篇文章被IEEE TIP接收。

ACM MM国际多媒体会议，全称是ACM Multimedia，是全球多媒体领域的顶级会议，被中国计算机学会（CCF）列为A类会议，汇聚世界各大专业机构分享、交流最新研究成果，10月将在法国尼斯召开。

IEEE TIP，全称是IEEE Transactions on Image Processing，图像/视频处理领域重要期刊，是CCF推荐的计算机图形学与多媒体方向的A类国际期刊，侧重图像处理的前沿理论与方法，2019年SCI影响因子为6.79。

VIPL实验室入选论文在食品识别、场景识别、视频结构化分析、视觉城市感知、图像文本匹配、弱监督指示表达定位等方面再度贡献了技术革新，通过提出全新识别框架、创新算法、引入研究方法更新，跳出实验室理想环境，克服真实环境中的各种异常因素对于识别精度的干扰，为计算机视觉在日常生活中的便捷应用提供先进的技术驱动力，促进计算机视觉技术更精确地为智慧城市、智能家居、智能零售等多场景多终端服务，为AI落地带去纵深延展。

ACM MM 2019

VIPL实验室入选ACM MM 2019的6篇论文信息概要如下：

Knowledge-guided Pairwise Reconstruction Network for Weakly Supervised Referring Expression Grounding ( Xuejing Liu, Liang Li, Shuhui Wang, Zheng-Jun Zha, Li Su, Qingming Huang )

弱监督指示表达定位（REG）旨在根据语言查询在图像中定位参考实体，其中图像区域（proposal）与查询之间的映射在训练阶段是未知的。在指示表达中，人们通常根据其与其他上下文实体的关系以及视觉属性来描述目标实体。然而，以前弱监督的REG方法很少关注实体之间的关系。在本文中，我们提出了一个知识引导的成对重建网络（KPRN），它建模目标实体（主体）和上下文实体（客体）之间的关系，并同时定位两个实体。具体来说，我们首先设计一个知识提取模块来指导主体和客体的候选框选择，以每个候选框与主体/客体之间的语义相似性作为先验知识。其次，在这些知识的指导下，我们设计了主体和客体注意模块来构建主客体候选框组合。主体注意模块在主体候选框中剔除了不相关的候选框。客体注意模块选择最合适的候选框作为上下文信息。第三，我们引入成对注意网络和自适应加权结构来学习这些候选框组合与查询之间的对应关系。最后，我们使用成对重建模块衡量弱监督定位的效果。在四个数据集上进行的大量实验表明，我们的方法优于现有的最先进方法。

Ingredient-Guided Cascaded Multi-Attention Network for Food Recognition ( Weiqing Min, Linhu Liu, Zhengdong Luo, Shuqiang Jiang )

现有的大多数食品识别方法都是利用流行的深度神经网络直接提取整张食品图像的视觉特征，而不考虑食物图像本身的特点。为此，我们提出了一种食物原材料知识引导的级联多注意网络（IG-CMAN）实现食物识别，该网络能够实现从类别级别到原料级别、从粗粒度到细粒度的多尺度图像区域定位。在第一级，IG-CMAN利用类别监督的空间转换网络（ST）生成初始注意区域。以这个注意区域为参考，在第二级，IG-CMAN将ST与LSTM结合起来从原料引导的子网络中发现不同的细粒度尺度的注意区域。此外，我们还引入了一个新的多模态食品数据集WikiFood-200，包含来自Wikipedia的200个食品类别，大约20万张食品图片和319种原材料。我们在当前基准食品数据集和新的WikiFood-200数据集上进行实验，其提出的方法均达到了当前最优性能。

MUCH: MUtual Coupling enHancement of scene recognition and dense captioning. ( Xinhang Song, Bohan Wang, Gongwei Chen, Shuqiang Jiang )

由于场景概念一般比较抽象，完整的场景理解也需要同时从全局和局部多个展开。场景识别是可以认为是一种全局场景理解方法，而稠密图题描述生成则可以认为是一种局部理解的方法。现有的工作一般对以上两种技术独立研究，难以实现更全面的场景理解。相反，我们在本文中提出了一种融合全局场景识别与局部稠密图题生成模型的多角度场景理解框架。两种模型的融合包括两步：一是监督信息的融合，场景标签和局部图题描述融合为新的描述；二是编解码模型的融合，分别面向场景识别和稠密图题描述的LSTM联合训练。特别的，为了调和场景识别与稠密图题生成模型的差异，我们提出了场景自适应的非极大值抑制技术以突出场景相关的候选区域，还提出了一种类别与区域大小加权的池化方法，以避免稠密重合区域对全局场景识别的影响。为实现模型训练，我们对视觉基因数据集重新标注场景标签，并在该数据集上验证了所提出方法在多角度场景理解任务上的有效性。同时，我们也在公共场景识别数据集MIT67和SUN397上验证了所提出模型也可以有效提升传统场景识别模型的准确率。

Aberrance-aware gradient-sensitive attentions for scene recognition with RGB-D videos ( Xinhang Song, Sixian Zhang, Yuyun Hua, Shuqiang Jiang )

在大规模RGB数据支撑下，传统的场景识别模型在理想环境下已经能获得较高识别准确率。然而现实环境中，多种不可避免的异常因素都会影响其准确率，影响因素包括光照变化、传感器的局限，如摄像头移动时产生模糊、深度摄像头响应距离短等。不同于传统面向理想环境的识别方法，本文提出一种在真实环境中对多种干扰因素鲁棒的RGB-D多模态视频场景识别框架。通过提出边缘梯度卷积核以获取梯度敏感的特征图，并在不同维度投影以分别获取时域、空域和模态注意力机制参数，以分别抑制因视频拍摄时摄像头移动造成的帧模糊问题、因深度摄像头响应距离有限而造成的深度缺失问题、以及光照变化问题。我们分别在不同挑战环境下验证了所提出方法的有效性。

Learning Fragment Self-Atention Embeddings for Image-Text Matching ( Yiling Wu, Shuhui Wang, Guoli Song, Qingming Huang )

本文提出了一种学习图像文本匹配的算法。为提高检索精度和保证检索效率，该算法挖掘图像和文本的细粒度信息，并分别将图像和文本映射到隐含空间。具体地，该算法使用bottom-up注意力得到包含显著物体的图像小块，使用wordpiece token得到文本小块，并使用自注意机制分别学习图像和文本内小块的关联，进一步聚合小块的信息得到图像和文本的隐含空间表示。其中建模自注意机制的层包括多头自注意力子层和对每个位置的前馈网络子层。进一步地，使用难例挖掘配合优化triplet损失和angular损失学习图像和文本到隐含空间的映射函数。我们进行了图像文本匹配的实验，该算法在FLICKR30K数据集上性能超过现有算法，在MSCOCO数据集上性能和最优算法相当，并且检索速度更快。

Attention-based Densely Connected LSTM for Video Captioning (Yongqing Zhu, Shuqiang Jiang )

长短时记忆网络被广泛应用于视频描述产生的任务中，因为该网络可以用来建模视频及其描述中的时序信息，然而在长短时记忆网络中一些较早时刻产生的信息不能直接作用于预测当前时刻被预测的单词，而这些时刻产生的上下文信息可能对于预测当前时刻单词也比较重要。为了更好的利用模型早期产生的上下文信息，本文提出了一种基于传统长短时记忆网络的循环神经网络模型，在预测每一个单词时该模型首先根据所有已产生的上下文信息通过注意力机制重构当前产生的已产生部分句子的特征，模型进一步根据重构的特征预测得到当前时刻单词。我们在视频描述产生的两个常用数据集上评估了该方法。实验结果表明该方法能显著提升模型性能，并且能进一步显示不同时刻模型产生信息对于预测不同单词的不同重要程度。

IEEE TIP

VIPL实验室入选IEEE TIP的3篇论文信息概要如下：

Multi-Scale Multi-View Deep Feature Aggregation for Food Recognition (Shuqiang Jiang, Weiqing Min, Linhu Liu and Zhengdong Luo)

食品图像识别技术在人类健康方面有着巨大的潜在应用，逐渐成为近年来计算机视觉的研究热点。现有食品图像识别方法大多都是通过卷积神经网络直接提取深度视觉特征，然而这些方法忽略了食物图像本身的特点，因而无法达到最优识别性能。相比于一般物体，食品图像通常具有不显著的空间布局。为此，我们提出了一种基于多尺度多视角融合的食品图像识别框架。该框架可以将高级语义特征、中级属性特征和深度视觉特征融合成统一的特征表示。这三种类型的特征从不同粒度更为全面准确的描述了食品图像。在该框架中，我们利用其原材料信息监督的卷积神经网络来提取中级属性特征，同时从类别监督的卷积神经网络中提取高级语义特征和深度视觉特征。考虑到食物图像不显著的空间布局，我们对于每种类型的特征分别进行多尺度融合，使其融合的特征更具有判别性和几何不变性。实验结果表明，我们的方法在当前主流的食品图像数据库（ETH Food-101, VireoFood-172）和近期发布的食品图像数据库ChineseFoodNet上均达到了当前最好性能。

Multi-Task Deep Relative Attribute Learning for Visual Urban Perception (Weiqing Min, Shuhuan Mei, Linhu Liu, Yi Wang, and Shuqiang Jiang)

视觉城市感知是通过大量的街景图像及其对应的成对比较来量化城市物理环境的感知属性。现有方法主要包括(1)利用图像特征和成对比较转化的排序得分训练回归模型进行感知属性预测；(2)采用Pairwise排序算法独立地学习每类感知属性。前者不能直接利用成对比较，而后者忽略了不同属性之间的关系。为了解决这些问题，我们提出了一个多任务深度相对属性学习网络(MTDRALN)。MTDRALN通过多任务孪生网络同时学习所有相对感知属性，其中每个孪生神经网络预测一种相对属性。MTDRALN将所有的属性根据语义相关性进行分组，结合深度相对属性学习，利用结构化稀疏性对分组属性的先验进行建模，因此能够通过多任务学习同时学习所有相对属性。除了排序子网络外，MTDRALN进一步引入了分类子网络，这两种类型的损失共同约束了深度网络的参数，从而使网络学习到了更有判别性的视觉特征。此外，我们的网络采用端到端的方式进行训练，使深度特征学习和多任务相对属性学习相互增强。在大规模的PlacePulse2.0数据集上进行了大量实验，验证了我们所提方法的优越性。

Image Representations with Spatial Object-to-Object Relations for RGB-D Scene Recognition. (Xinhang Song, Shuqiang Jiang, Bohan Wang, Chengpeng Chen, Gongwei Chen)

场景识别的挑战之一是场景间由于物体或局部区域相似或共生而导致的类间相似性。传统的方法一般基于全局特征或基于物体的中层描述表示场景图像，难以有效区分以上相似的场景。相反，本文围绕场景内物体与物体间空间关系展开研究，建立基于<物体、空间关系、物体>三元组的物体与物体间空间关系的图像描述以用于场景识别，包括统计三元组共生频率的统计性描述（COOR）和多关系扩展的图题描述表达（SOOR）。其中，COOR以三阶统计张量表示，将其拉伸成一位向量即可用于场景分类器训练，并用于场景识别。SOOR的表达形式更自由，以物体及其关系为内容组成场景局部区域的图题描述，再利用顺序迭代模型（RNN）实现特征嵌入，并用于场景分类器训练。特别的，我们引入RGB-D多模态数据，以提升空间关系描述的准确性，并提出RGB-D多模态候选区域融合技术用于物体及关系检测。本文所提出方法在公共RGB-D场景识别数据集SUN RGB-D和NYU D2上都能达到业内最优效果。

—END—

VIPL研究组隶属于中国科学院计算所及中科院智能信息处理重点实验室，同时也是先进人机通信技术联合实验室（JDL）的一部分。目前，VIPL研究组主要成员包括研究人员20余名、博士/硕士研究生50余名。研究组在相关领域发表研究论文500余篇，其中100余篇发表在计算机学会认定的领域A类国际期刊或会议上。研究成果获2015年度国家自然科学二等奖，2005年度国家科技进步二等奖等。

CV细分方向交流群

52CV已经建立多个CV专业交流群，包括：目标跟踪、目标检测、语义分割、姿态估计、人脸识别检测、医学影像处理、超分辨率、神经架构搜索、GAN、强化学习等，扫码添加CV君拉你入群，

（请务必注明相关方向，比如：目标检测）