干货！基于部分-整体关系的概念、关系和物理场景认知推理

article/2025/10/26 9:09:07

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

人类视觉感知的一个关键方面是能够将视觉场景解析为单个对象并进一步分解为对象部分，形成部分-整体层次结构。这种复合结构可以产生丰富的语义概念和关系，从而在视觉信号的解释和组织以及视觉感知和推理的泛化中发挥重要作用。

然而，现有的视觉推理基准主要关注对象而不是零件。由于更细粒度的概念、更丰富的几何关系和更复杂的物理，基于完整部分-整体层次结构的视觉推理比以对象为中心的推理更具挑战性。

因此，为了更好地服务于基于部分的概念、关系和物理推理，我们引入了一个名为 PTR 的新的大规模诊断视觉推理数据集。PTR 包含大约 70k RGBD 合成图像，其中包含关于语义实例分割、颜色属性、空间和几何关系以及某些物理属性（如稳定性）的地面实况对象和部分级别注释。这些图像与涵盖各种推理类型的 70 万个机器生成的问题配对，使其成为视觉推理模型的良好测试平台。

我们在这个数据集上检查了几个最先进的视觉推理模型，并观察到在人类可以轻松推断出正确答案的情况下，它们仍然会犯许多令人惊讶的错误。我们相信这个数据集将为基于部分的推理开辟新的机会。

目前在AI领域的一个挑战是。如何让机器像人类一样通过场景回答问题，即Visual Question Answering Ttask。

本期AI TIME PhD直播间，我们邀请到加州大学洛杉矶分校的博士生——洪逸宁，为我们带来报告分享《基于部分-整体关系的概念、关系和物理场景认知推理》。

洪逸宁：

加州大学洛杉矶分校博士生，师从朱松纯教授，MIT-IBM Watson AI Lab实习生，2019年毕业于上海交通大学，研究方向为多模态认知推理，曾在ICML、NeurIPS 、ICCV、ECCV等会议上发表文章。

Visual Question Answering Datasets

很多数据集如VQA在之前也被提出，然而这些数据集也存在着一些问题。首先，他们需要非常庞大的人力来标注这些数据集。其次，也存在很多噪声和错误的标注。最后，因为我们没有办法去控制整个数据生成的过程和他的分布，所以这些数据集通常是biased的。
之后的研究者提出了Synthetic datasets，首先这些数据是完全可控的，我们也可以控制其生成。另外，含有比较少的噪声和bias，因为我们可以去控制数据集的分布。最后，因为这个数据集是可控的，所以我们很容易将模型分解开以便于诊断我们的模型在每一个模块会有什么问题。

CLEVR - Diagnostic Visual Reasoning Dataset

我们发现一系列模型在CLEVR数据集上已经达到了饱和。

这个一数据集不仅是完全可控的，而且具有较少的bias，同样因为容易将模型分解开而便于诊断我们的模型在每一个模块会有什么问题。

所以我们提出以下问题：接下来，对于诊断性的视觉推理，我们需要做些什么？我们随之提出了The PTR dataset。

What’s next for diagnostic visual reasoning?

The PTR dataset

The PTR dataset数据集包含70k的图片和700k的问题，我们有以下5种数据类型，包括：

Concept概念型
Relation关系型
Analogy类比
Arithmetic数字题
Physics物理问题

同时，我们尽量去控制bias，并提出了一些诊断性的标注：比如我们提供了物体的一些mask，同时提出每个question可以拆解成多个problem方便我们去诊断模型。

The PTR Universe

我们会有一些物体，比如椅子、桌子、床。物体之间存在着一定关系和物理属性，比如方向和是否稳定、平衡。

同时，每个物体也会有一些部分，比如椅子会有平面、靠背和椅子腿。

接下来，我们展示一下datasets中的example。

The PTR Dataset - Examples

Conceptual Reasoning

对于概念型问题，比如在下图中多少物体有紫色的腿？

Relational Reasoning

对于关系型问题，可以有以下Question: What is the color of the part in the chair that can be considered a line, and is perpendicular to the purple part of the refrigerator?

Analogical Reasoning

对于类比型问题，可以有以下Question: the thing with five legs has certain positional relation to the object with blue seat. By analogy, how many objects does the bed have the same positional relation to ?