CVPR2020 | 中科院VIPL实验室录取论文详解

article/2025/9/13 17:44:15

编者按:近日,计算机视觉顶会 CVPR 2020 接收论文结果揭晓,从 6656 篇有效投稿中录取了 1470 篇论文,录取率约为 22%。中科院VIPL实验室共七篇论文录取,内容涉及弱监督语义分割、活体检测、手势识别、视觉问答、行人搜索、无监督领域自适应方法等方面,本文将予以详细介绍。

01

1. Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation (Yude Wang, Jie Zhang, Meina Kan, Shiguang Shan, Xilin Chen)

基于类别标签的弱监督语义分割作为一个具有挑战性的问题在近年来得到了深入的研究,而类别响应图(class activation map,简称CAM)始终是这一领域的基础方法。但是由于强监督与弱监督信号之间存在差异,由类别标签生成的CAM无法很好地贴合物体边界。

本文提出了一种自监督同变注意力机制(self-supervised equivariant attention mechanism,简称SEAM),利用自监督方法来弥补监督信号差异。在强监督语义分割的数据增广阶段,像素层级标注和输入图像需经过相同的仿射变换,自此这种同变性约束被隐式地包含,而这种约束在只有类别标签的CAM的训练过程中是缺失的。因此,我们利用经过不同仿射变换的图片得到的类别响应图本应满足的同变性来为网络训练提供自监督信号。除此之外,我们提出像素相关模块(pixel correlation module,简称PCM),通过发掘图像表观信息,利用相似像素的特征来修正当前像素的预测结果,从而增强CAM预测结果的一致性。我们的方法在PASCAL VOC 2012数据集上进行了充分的实验,验证了算法的有效性,并取得当前最好性能。

02

2. Single-Side Domain Generalization for Face Anti-Spoofing (Yunpei Jia, Jie Zhang, Shiguang Shan, Xilin Chen)

由于不同数据集之间存在差异,很多活体检测方法进行跨数据集测试时性能下降明显。现有的一些方法借用领域泛化的思想,利用多个已有的源域数据去训练模型,以得到一个领域不变的特征空间,从而在未知的目标域中进行测试时能利用学习到的通用判别特征,去提升模型的泛化性能。但是,由于不同数据集之间,攻击样本相对于正常样本存在更大的差异(比如说攻击方式的不同,攻击样本之间采集的环境差异),努力让这些攻击样本去学习一个领域不变的特征空间是比较困难的,通常会得到一个次优解,如下图左边所示。因此,针对这一个问题,我们提出来一个端到端的单边领域泛化框架,以进一步提升模型的性能。

其中主要思想在于,对于不同数据集中的正常样本,我们去学习一个领域不变的特征空间;但是对于不同数据集中的攻击样本,我们去学习一个具有分辨性的特征空间,使相同数据集中的攻击样本尽可能接近,而不同数据集中的攻击样本尽可能远离。最终效果会使攻击样本在特征空间中张成更大的区域,而正常样本仅仅处在一个紧凑的区域中,从而能够学习到一个对于正常样本包围更紧致的分类器,以达到在未知的目标域上更好的性能,如下图右边所示。

具体来说,我们引用一个域判别器,利用一种单边的对抗学习,让特征提取器仅仅对于正常样本提取更具有泛化性能的特征。并且,我们提出一个不均衡的三元组损失函数,让不同数据集之间的正常样本尽可能接近而攻击样本尽可能远离,以使得攻击样本在特征空间中张成一个更大的范围。同时,我们还引入了特征和参数归一化的思想,进一步地提升模型的性能。大量实验表明,我们提出的方法是有效的,并且在四个公开数据库上均达到了最优的性能。

03

3. Cross-domain Face Presentation Attack Detection via Multi-domain Disentangled Representation Learning (Guoqing Wang,  Hu Han, Shiguang Shan, Xilin Chen)

目前,人脸呈现攻击检测(Presentation Attack Detection, 简称PAD)成为人脸识别系统中一个亟待解决的问题。传统的方法通常认为测试集和训练集来自于同一个域,结果表明这些方法并不能很好的推广到未知场景中,因为学到的特征表示可能会对训练集中的身份、光照等信息产生过拟合。

为此,本文针对跨域人脸呈现攻击检测提出一种高效的特征解耦方法。我们的方法包含特征解耦模块(DR-Net)和多域学习模块(MD-Net)。DR-Net通过生成模型学习了一对特征编码器,可以解耦得到PAD相关的特征和身份信息相关的特征。MD-Net利用来自于不同域中解耦得到的特征进一步学习和解耦,得到与域无关的解耦特征。在当前公开的几个数据集上的实验验证了所提方法的有效性。

04

4. An Efficient PointLSTM Network for Point Clouds based Gesture Recognition (Yuecong Min, Yanxiao Zhang, Xiujuan Chai, Xilin Chen)

现有的手势识别方法往往采用视频或骨架点序列作为输入,但手部在整张图片中所占比例较小,基于视频的方法往往受限于计算量并且更容易过拟合,而基于骨架点的方法依赖于获取的手部骨架点的精度。

本文提出了一个基于点云序列的长短期记忆模块 (PointLSTM),可以直接从手部点云序列中捕获手型特征和手部运动轨迹。该模块为点云序列中的每一个点保留了独立的状态,在更新当前点的状态时,通过一个权值共享的LSTM融合时空相邻点的状态和当前点的特征,可以在保留点云空间结构的同时提取长时序的空间和时序信息。此外,本文还提出了一个帧内状态共享的模块(PointLSTM-PSS)用于简化计算量和分析性能提升来源。我们在两个手势识别数据集 (NVGesture和SHREC’17) 和一个动作识别数据集 (MSR Action3D) 上验证了方法的有效性和泛化能力,提出的模型在4096个点(32帧,每帧采样128点)的规模下,优于目前最好的基于手部骨架点序列的手势识别方法和基于点云序列的动作识别方法。

05

5. Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text (Difei Gao, Ke li, Ruiping Wang, Shiguang Shan, Xilin Chen)

场景图像中的文字通常会包含丰富的信息,比如,饭店的名字,产品的信息,等等。能够理解这些场景文字,并回答与此相关的自然语言问题(即,场景文字问答任务,Text VQA)的智能体也将会有非常广泛的应用前景。然而,对于当前的模型,场景文字问答任务仍十分具有挑战。其关键的难点之一就是真实场景当中会出现大量的不常见的,多义的或有歧义的单词,比如,产品的标签,球队的名称等等。要想让模型理解这些单词的含义,仅仅诉诸于词表有限的预训练单词嵌入表示(word embedding)是远远不够的。一个理想的模型应该能够根据场景中周围丰富的多模态的信息推测出这些单词的信息,比如,瓶子上显著的单词很有可能就是它的牌子。

根据这样的思路,我们提出了一种新的视觉问答模型,多模态图神经网络(Multi-Modal Graph Neural Network,MM-GNN),它可以捕获图片当中各种模态的信息来推理出未知单词的含义。具体来说,如下图所示,我们的模型首先用三个不同模态的子图来分别表示图像中物体的视觉信息,文本的语言信息,以及数字型文本的数值信息。然后,我们引入三种图网络聚合器(aggregator),它们引导不同模态的消息从一个图传递到另一个图中,从而利用各个模态的上下文信息完善多模态图中各个节点的特征表示。这些更新后的节点特征进而帮助后续的问答模块。我们在近期提出的Text VQA和Scene Text VQA问答数据库上进行了实验,取得了state-of-the-art的性能,并验证了方法的有效性。

06

6. TCTS: A Task-Consistent Two-stage Framework for Person Search (Cheng Wang,Bingpeng Ma,Hong Chang, Shiguang Shan, Xilin Chen)

当前最先进的行人搜索方法将行人搜索分为检测和再识别两个阶段,但他们大多忽略了这两个阶段之间的一致性问题。一般的行人检测器对 query 目标没有特别的关注;再识别模型是在手工标注的裁剪框上训练的,在实际情况中是没有这样完美的检测结果的。

为了解决一致性问题,我们引入了一个目标一致的两阶段的行人搜索框架 TCTS,包括一个 identity-guided query(IDGQ)检测器和一个检测结果自适应(Detection Results Adapted ,DRA)的再识别模型。在检测阶段,IDGQ 检测器学习一个辅助的身份分支来计算建议框和查询图片的相似度得分。同时考虑查询相似度得分和前景得分,IDGQ为行人再识别阶段生成 query-like 的边界框。在再识别阶段,我们预测检测输出的 bounding boxes 对应的身份标签,并用使用这些样本为 DRA 模型构造一个更实用的混合训练集。混合训练提高了 DRA 模型对检测不精确的鲁棒性。我们在CUHK-SYSU和PRW这两个基准数据集上评估了我们的方法。我们的框架在CUHK-SYSU上达到了93.9%的mAP和95.1%的rank1精度,超越以往最先进的方法。

07

7. Unsupervised Domain Adaptation with Hierarchical Gradient Synchronization (Lanqing Hu,Meina Kan, Shiguang Shan, Xilin Chen)

无监督领域自适应方法的任务是,将已标注的源域数据集上的知识迁移到无标注的目标域,从而减小对新目标域的标注代价。而源域和目标域之间的差异是这个问题的难点,大多方法通过对齐两个域的特征的分布来减小域之间的差异,但是仍然很难做到两个不同分布的每一个局部块都完美对齐,从而保证判别信息的很好保留。

本文提出一种层级梯度同步的方法,首先在域、类别、类组三个级别通过对抗学习进行条件分布的对齐,然后通过约束不同级别的域判别器的梯度保证相同的方向和幅度,由此提高分布对齐的内在一致性,加强类别结构的保留,从而得到更准确的分类结果。该方法在当前主流测试集Office-31,Office-Home,VisDA-2017上的结果都验证了其有效性。

编辑:杨茹茵

--end--

该文章属于“深度学习大讲堂”原创,如需要转载,请联系 ruyin712。

往期精彩回顾

小样本学习,路在何方?【VALSE Webinar】

知面而知心(情感计算)-【VALSE Webinar】Panel实录

重磅|中科视拓开源SeetaFace2人脸识别算法

【CVPR2019】“识面知心”——基于自监督学习的微表情特征表达

【CVPR2019】弱监督图像分类建模

深度互学习-Deep Mutual Learning:三人行必有我师

“取长补短”的RefineDet物体检测算法

 

 

 

欢迎关注我们!

深度学习大讲堂是由中科视拓运营的高质量原创内容平台,邀请学术界、工业界一线专家撰稿,致力于推送人工智能与深度学习最新技术、产品和活动信息!

中科视拓(SeetaTech)将秉持“开源开放共发展”的合作思路,为企业客户提供人脸识别、计算机视觉与机器学习领域“企业研究院式”的技术、人才和知识服务,帮助企业在人工智能时代获得可自主迭代和自我学习的人工智能研发和创新能力。

中科视拓目前正在招聘:人脸识别算法研究员,深度学习算法工程师,GPU研发工程师, C++研发工程师,Python研发工程师,嵌入式视觉研发工程师,运营经理。有兴趣可以发邮件至:hr@seetatech.com,想了解更多可以访问,www.seetatech.com

中科视拓订阅号

深度学习大讲堂

点击阅读原文打开中科视拓官方网站


http://chatgpt.dhexx.cn/article/wKa32gyq.shtml

相关文章

深度优先搜索 广度优先搜索理解

深度优先搜索广度优先搜索 1. 什么是 “搜索” 算法 我们知道,算法都是作用于某种具体的数据结构上的,而深度优先搜索算法和广度优先搜索算法就是作用于图这种数据结构的。 图上的搜索算法,就是从图中的一个顶点出发,到另一个顶…

深度优先搜索广度优先搜索

1 概述 算法是作用于具体的数据结构之上的,深度优先搜索算法和广度优先搜索算法都是基于图这种数据结构的。主要原因是因为图的这种数据结构表达能力很强,大部分涉及搜索的场景都可以抽象成图。 图上的搜索算法,最直接的理解就是&#xff0c…

邻接矩阵的深度优先搜索技术

概述 深度优先搜索(Depth First Search,DFS),是最常见的图搜索方法之一。深度优先搜索沿着一条路径一直走下去,无法行进时,回退回退到刚刚访问的结点,似不撞南墙不回头,不到黄河不死…

图-深度优先遍历

概述 深度优先遍历,从初始访问结点出发,初始访问结点可能有多个邻接结点,深度优先遍历的策略就是首先访问第一个邻接结点,然后再以这个被访问的邻接结点作为初始结点,访问它的第-一个邻接结点,可 以这样理解…

深度优先搜索python

深度优先搜索 概念 深度优先搜索和广度优先搜索一样,都是对图进行搜索的算法,目的也都是从起点开始搜索直到到达指定顶点(终点)。深度优先搜索会沿着一条路径不断往下搜索直到不能再继续为止,然后再折返,…

DFS——深度优先搜索

什么是DFS DFS,中文名深度优先搜索,是一种图的搜索方式,本质上是一种递归。 dfs相当自由,学dfs可能最高境界就和打太极似的,无招胜有招 DFS的经典应用: 1.全排列 虽然感觉没有贴题目的必要 这应该是大多数d…

算法详解之深度优先搜索算法

14天阅读挑战赛 文章目录 1、深度优先搜索(Depth-First Search,DFS)介绍2、深度优先搜索算法思想3、深度优先搜索算法步骤:4、深度优先搜索算法的应用 1、深度优先搜索(Depth-First Search,DFS&#xff09…

第七章:深度优先搜索

不撞南墙不回头-深度优先搜索 广度优先搜索BFS是每次将当前状态能够一步拓展出的所有状态,全部拓展出来依次存入队列。而深度优先搜索是将当前状态按照一定的规则顺序,先拓展一步得到一个新状态,再对这个这个新状态递归拓展下去。如果无法拓…

Java实现深度优先搜索

Java实现深度优先搜索 图的遍历 图的遍历就是访问图中的每个节点并且每个节点只访问一次。但图中有那么多节点,要如何进行访问就是一个问题,所以我们需要有特定的策略来进行访问这些节点。图的访问策略一般有两种:深度优先搜索和广度优先搜…

深度优先搜索

深度优先搜索: 深度优先搜索是对先序遍历的一般化。我们从某个节点开始,先处理,并将标记为已知,然后任意选择的一个邻接顶点,对其进行深度优先搜索,这样就递归的遍历了图的所有顶点。当图中有圈时&#xf…

【基础知识】一文看懂深度优先算法和广度优先算法

概览 先上个图 现在我们要访问图中的每个节点,即图的遍历。 图的遍历是指,从给定图中任意指定的顶点(称为初始点)出发,按照某种搜索方法沿着图的边访问图中的所有顶点,使每个顶点仅被访问一次&#xff…

深度优先搜索(DFS),看这一篇就够了。

一,定义: 深度优先搜索的思路和树的先序遍历很像,下面是百度百科上的定义: 深度优先遍历图的方法是,从图中某顶点v出发: (1)访问顶点v; (2)依次从…

Python实现深度优先遍历(DFS)和广度优先遍历(BFS)

一,简介 深度优先遍历(Depth First Search, 简称 DFS) 与广度优先遍历(Breath First Search)是图论中两种非常重要的算法,生产上广泛用于拓扑排序,寻路(走迷宫),搜索引擎,爬虫等,也频繁出现在 leetcode&am…

算法数据结构——图的遍历之深度优先搜索算法(Depth First Search)

1. 深度优先搜索简介 深度优先搜索算法(Depth First Search):英文缩写为 DFS。是一种用于搜索树或图的算法。所谓深度优先,就是说每次都尝试向更深的节点走。 深度优先搜索采用了回溯思想,该算法沿着树的深度遍历树的节…

【新书速递】实用安全多方计算导论

安全多方计算(MPC)是解决数据安全与隐私保护问题的关键安全数据交换技术,近年来发展迅速,但由于MPC涉及复杂的密码学和工程实现技术,行业长期缺乏同时具备MPC研究、应用和实现能力的综合性人才,这阻碍了MPC…

百万富翁问题--安全多方计算

百万富翁问题—安全多方计算 是由图灵奖获得者姚期智提出的。 有A、B两个富翁,A资产i亿元,B资产j亿元,i、j均在0-10范围内,在互不让对方知道自己资产的情况下,比较A和B的资产谁多谁少。 那么如何去比较呢?…

隐私保护技术之安全多方计算

安全多方计算(Secure Multi-Party Computation,SMPC)用于解决一组互不信任的参与方各自持有秘密数据, 协同计算一个既定函数的问题。安全多方计算在保证参与方获得正确计算结果的同时,无法获得计算结果之外的任何信息。 在整个计算过程中&…

基于同态加密体制的安全多方计算

本文首发公众号VenusBlockChain,关注公众号后可免费阅读!VenusBlockChain致力于区块链技术研究,传播区块链技术和解决方案、区块链应用落地、区块链行业动态等。有兴趣的小伙伴们,欢迎关注。 安全多方计算(Secure Mu…

多方安全计算

说明,本文是转载的,个人觉得作者讲解清晰明了,收录用于学习,原文链接:https://blog.csdn.net/yuxinqingge/article/details/104588197。 如今,互联网已经完成了从IT时代向DT时代转变,数据已经成…

多方安全计算MPC

1.多方安全计算的价值 MPC是密码学的一个重要分支,旨在解决一组互不信任的参与方之间保护隐私的协同计算问题,为数据需求方提供不泄露原始数据前提下的多方协同计算能力。 在目前个人数据毫无隐私的环境下,对数据进行确权并实现数据价值显得…