点击蓝字

关注我们
AI TIME欢迎每一位AI爱好者的加入!

人类视觉感知的一个关键方面是能够将视觉场景解析为单个对象并进一步分解为对象部分,形成部分-整体层次结构。这种复合结构可以产生丰富的语义概念和关系,从而在视觉信号的解释和组织以及视觉感知和推理的泛化中发挥重要作用。
然而,现有的视觉推理基准主要关注对象而不是零件。由于更细粒度的概念、更丰富的几何关系和更复杂的物理,基于完整部分-整体层次结构的视觉推理比以对象为中心的推理更具挑战性。
因此,为了更好地服务于基于部分的概念、关系和物理推理,我们引入了一个名为 PTR 的新的大规模诊断视觉推理数据集。PTR 包含大约 70k RGBD 合成图像,其中包含关于语义实例分割、颜色属性、空间和几何关系以及某些物理属性(如稳定性)的地面实况对象和部分级别注释。这些图像与涵盖各种推理类型的 70 万个机器生成的问题配对,使其成为视觉推理模型的良好测试平台。
我们在这个数据集上检查了几个最先进的视觉推理模型,并观察到在人类可以轻松推断出正确答案的情况下,它们仍然会犯许多令人惊讶的错误。我们相信这个数据集将为基于部分的推理开辟新的机会。
目前在AI领域的一个挑战是。如何让机器像人类一样通过场景回答问题,即Visual Question Answering Ttask。
本期AI TIME PhD直播间,我们邀请到加州大学洛杉矶分校的博士生——洪逸宁,为我们带来报告分享《基于部分-整体关系的概念、关系和物理场景认知推理》。

洪逸宁:
加州大学洛杉矶分校博士生,师从朱松纯教授,MIT-IBM Watson AI Lab实习生,2019年毕业于上海交通大学,研究方向为多模态认知推理,曾在ICML、NeurIPS 、ICCV、ECCV等会议上发表文章。
Visual Question Answering Datasets
很多数据集如VQA在之前也被提出,然而这些数据集也存在着一些问题。首先,他们需要非常庞大的人力来标注这些数据集。其次,也存在很多噪声和错误的标注。最后,因为我们没有办法去控制整个数据生成的过程和他的分布,所以这些数据集通常是biased的。
之后的研究者提出了Synthetic datasets,首先这些数据是完全可控的,我们也可以控制其生成。另外,含有比较少的噪声和bias,因为我们可以去控制数据集的分布。最后,因为这个数据集是可控的,所以我们很容易将模型分解开以便于诊断我们的模型在每一个模块会有什么问题。
CLEVR - Diagnostic Visual Reasoning Dataset
我们发现一系列模型在CLEVR数据集上已经达到了饱和。

这个一数据集不仅是完全可控的,而且具有较少的bias,同样因为容易将模型分解开而便于诊断我们的模型在每一个模块会有什么问题。
所以我们提出以下问题:接下来,对于诊断性的视觉推理,我们需要做些什么?我们随之提出了The PTR dataset。
1
What’s next for diagnostic visual reasoning?
The PTR dataset
The PTR dataset数据集包含70k的图片和700k的问题,我们有以下5种数据类型,包括:
Concept概念型
Relation关系型
Analogy类比
Arithmetic数字题
Physics物理问题
同时,我们尽量去控制bias,并提出了一些诊断性的标注:比如我们提供了物体的一些mask,同时提出每个question可以拆解成多个problem方便我们去诊断模型。
The PTR Universe

我们会有一些物体,比如椅子、桌子、床。物体之间存在着一定关系和物理属性,比如方向和是否稳定、平衡。
同时,每个物体也会有一些部分,比如椅子会有平面、靠背和椅子腿。
接下来,我们展示一下datasets中的example。
2
The PTR Dataset - Examples
Conceptual Reasoning
对于概念型问题,比如在下图中多少物体有紫色的腿?

Relational Reasoning
对于关系型问题,可以有以下Question: What is the color of the part in the chair that can be considered a line, and is perpendicular to the purple part of the refrigerator?
Analogical Reasoning
对于类比型问题,可以有以下Question: the thing with five legs has certain positional relation to the object with blue seat. By analogy, how many objects does the bed have the same positional relation to ?

我们先找到具有5条腿的红色椅子,之后又发现了床。通过类比,我们得到最终的答案是2。
Arithmetic Reasoning
对于数字题,可以有以下Question: What is the sum of the number of legs in the chair, and number of wheels in the cart?

Physical Reasoning
对于数字题,可以有以下Question: Towards which direction shall the cart move to become stable?

Moving front!
3
Experimental Results
下面我们来看下实验结果。

我们发现在过去的数据集上都不能取得较好的结果。


这些数据集表现不好,也同时说明我们的数据集提出了一个非常具有挑战性的问题。
Data Efficiency

我们也做了一些跨类别的泛化实验。
Cross-Category Generalization

我们可以看到,NS-VQA可以表现出比较好的泛化能力。
Ablative Studies on NS-VQA

同时,我们还做了一个Ablative Study:假设我们提供了groundtruth,那么NS-VQA会表现得如何?
我们可以看到,我们提供的这些在较难的问题类型中还是不能够达到一个很好效果。这也说明我们数据集提出的问题也是更多在考量模型能否真正做一个和人类一样的推理。
4
Summary
视觉推理数据集是建立在一个整体-部分关系上的推理。
5种问题类型:
Concept概念型
Relation关系型
Analogy类比
Arithmetic数字题
Physics物理问题
需要有一个针对neural / neural-symbolic models的baseline分析
和人类的思维表现相比,仍然还有一段漫长的路要走。
提
醒
论文题目:
PTR: A Benchmark for Part-based Conceptual, Relational, and Physical Reasoning
论文链接:
http://ptr.csail.mit.edu/
点击“阅读原文”,即可观看本场回放
整理:林 则
作者:洪逸宁
往期精彩文章推荐

记得关注我们呀!每天都有新知识!
关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了600多位海内外讲者,举办了逾300场活动,超170万人次观看。

我知道你
在看
哦
~

点击 阅读原文 查看回放!

















