干货!基于部分-整体关系的概念、关系和物理场景认知推理

article/2025/10/26 9:09:07

点击蓝字

063bb5918fea8f681311d333c100fd6d.png

关注我们

AI TIME欢迎每一位AI爱好者的加入!

ff67ce369b908f0ec76d3f9d791fc3e2.gif

人类视觉感知的一个关键方面是能够将视觉场景解析为单个对象并进一步分解为对象部分,形成部分-整体层次结构。这种复合结构可以产生丰富的语义概念和关系,从而在视觉信号的解释和组织以及视觉感知和推理的泛化中发挥重要作用。

然而,现有的视觉推理基准主要关注对象而不是零件。由于更细粒度的概念、更丰富的几何关系和更复杂的物理,基于完整部分-整体层次结构的视觉推理比以对象为中心的推理更具挑战性。

因此,为了更好地服务于基于部分的概念、关系和物理推理,我们引入了一个名为 PTR 的新的大规模诊断视觉推理数据集。PTR 包含大约 70k RGBD 合成图像,其中包含关于语义实例分割、颜色属性、空间和几何关系以及某些物理属性(如稳定性)的地面实况对象和部分级别注释。这些图像与涵盖各种推理类型的 70 万个机器生成的问题配对,使其成为视觉推理模型的良好测试平台。

我们在这个数据集上检查了几个最先进的视觉推理模型,并观察到在人类可以轻松推断出正确答案的情况下,它们仍然会犯许多令人惊讶的错误。我们相信这个数据集将为基于部分的推理开辟新的机会。

目前在AI领域的一个挑战是。如何让机器像人类一样通过场景回答问题,即Visual Question Answering Ttask。

本期AI TIME PhD直播间,我们邀请到加州大学洛杉矶分校的博士生——洪逸宁,为我们带来报告分享《基于部分-整体关系的概念、关系和物理场景认知推理》。

d90bc1127028e8d690e8f65cc885c390.png

洪逸宁:

加州大学洛杉矶分校博士生,师从朱松纯教授,MIT-IBM Watson AI Lab实习生,2019年毕业于上海交通大学,研究方向为多模态认知推理,曾在ICML、NeurIPS 、ICCV、ECCV等会议上发表文章。

Visual Question Answering Datasets

  • 很多数据集如VQA在之前也被提出,然而这些数据集也存在着一些问题。首先,他们需要非常庞大的人力来标注这些数据集。其次,也存在很多噪声和错误的标注。最后,因为我们没有办法去控制整个数据生成的过程和他的分布,所以这些数据集通常是biased的。

  • 之后的研究者提出了Synthetic datasets,首先这些数据是完全可控的,我们也可以控制其生成。另外,含有比较少的噪声和bias,因为我们可以去控制数据集的分布。最后,因为这个数据集是可控的,所以我们很容易将模型分解开以便于诊断我们的模型在每一个模块会有什么问题。

CLEVR - Diagnostic Visual Reasoning Dataset

我们发现一系列模型在CLEVR数据集上已经达到了饱和。

5a509e7f36f5a82202502e9f5b04f55a.png

这个一数据集不仅是完全可控的,而且具有较少的bias,同样因为容易将模型分解开而便于诊断我们的模型在每一个模块会有什么问题。

所以我们提出以下问题:接下来,对于诊断性的视觉推理,我们需要做些什么?我们随之提出了The PTR dataset。

1

What’s next for diagnostic visual reasoning?

The PTR dataset

The PTR dataset数据集包含70k的图片和700k的问题,我们有以下5种数据类型,包括:

  • Concept概念型

  • Relation关系型

  • Analogy类比

  • Arithmetic数字题

  • Physics物理问题

同时,我们尽量去控制bias,并提出了一些诊断性的标注:比如我们提供了物体的一些mask,同时提出每个question可以拆解成多个problem方便我们去诊断模型。

The PTR Universe

ec4889c3a4324412a35b21580f616b7d.png

我们会有一些物体,比如椅子、桌子、床。物体之间存在着一定关系和物理属性,比如方向和是否稳定、平衡。

同时,每个物体也会有一些部分,比如椅子会有平面、靠背和椅子腿。

接下来,我们展示一下datasets中的example。

2

The PTR Dataset - Examples

Conceptual Reasoning

 对于概念型问题,比如在下图中多少物体有紫色的腿?

629782ef5795b11697a0a93f09ff3d19.png

Relational Reasoning

对于关系型问题,可以有以下Question: What is the color of the part in the chair that can be considered a line, and is perpendicular to the purple part of the refrigerator?

Analogical Reasoning

对于类比型问题,可以有以下Question: the thing with five legs has certain positional relation to the object with blue seat. By analogy, how many objects does the bed have the same positional relation to ?

3cb7bb83aa8e26f3b56f2b17f42cdc56.png

我们先找到具有5条腿的红色椅子,之后又发现了床。通过类比,我们得到最终的答案是2。

Arithmetic Reasoning

对于数字题,可以有以下Question: What is the sum of the number of legs in the chair, and number of wheels in the cart?

857bd02586c1cf87a4eee59d0b8ab6b1.png

Physical Reasoning

对于数字题,可以有以下Question: Towards which direction shall the cart move to become stable?

f32a5f94d61d5440a88c75de302a7dc5.png

Moving front!

3

Experimental Results

下面我们来看下实验结果。

8978aa7d06bc58eda3e16fa281f20dec.png

我们发现在过去的数据集上都不能取得较好的结果。

e46cd985c6a0397e6215c636b5315daf.png

d4c705900a2cf73dcca33538a7fe8df8.png

这些数据集表现不好,也同时说明我们的数据集提出了一个非常具有挑战性的问题。

Data Efficiency

38de388549cf4563756deb3a8ee32be5.png

我们也做了一些跨类别的泛化实验。

Cross-Category Generalization

823fd872f81a003d2c94f3f643d93bce.png

我们可以看到,NS-VQA可以表现出比较好的泛化能力。

Ablative Studies on NS-VQA

4bda087f501fa61df9bc10b118a36d17.png

同时,我们还做了一个Ablative Study:假设我们提供了groundtruth,那么NS-VQA会表现得如何?

我们可以看到,我们提供的这些在较难的问题类型中还是不能够达到一个很好效果。这也说明我们数据集提出的问题也是更多在考量模型能否真正做一个和人类一样的推理。

4

Summary

  • 视觉推理数据集是建立在一个整体-部分关系上的推理。

  • 5种问题类型:

  • Concept概念型

  • Relation关系型

  • Analogy类比

  • Arithmetic数字题

  • Physics物理问题

  • 需要有一个针对neural / neural-symbolic models的baseline分析

  • 和人类的思维表现相比,仍然还有一段漫长的路要走。

论文题目:

PTR: A Benchmark for Part-based Conceptual, Relational, and Physical Reasoning

论文链接:

http://ptr.csail.mit.edu/

点击“阅读原文”,即可观看本场回放

整理:林   则

作者:洪逸宁

往期精彩文章推荐

4ace8b75032e7bad30cdd6bdd8a2a2a0.png

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了600多位海内外讲者,举办了逾300场活动,超170万人次观看。

99ca40cd8e84a6eddfb970f8bb2ea1bb.png

我知道你

在看

~

4fadfc6424a75e2fa42201e188444372.gif

点击 阅读原文 查看回放!


http://chatgpt.dhexx.cn/article/a6jKl6yB.shtml

相关文章

设计模式.组合模式(整体和部分关系, 树和Node,透明组合和完全组合)

抽象角度看 一棵树有很多节点,根据位置可以分为:根节点,中间节点,叶子节点 所有的节点都是树节点 这两句话转换为代码就是: 你可以有三个Node类,RootNode,TempNode,LeafNode。当然…

HINSTANCE (句柄相关)

在win32下与HMODULE是相同的东西,在Win32下还存在主要是因为win16   程序使用HINSTANCE来区别task。   区别:   Handle 是代表系统的内核对象,如文件句柄,线程句柄,进程句柄。   HMODULE 是代表应用程序载入的…

为什么需要传递HINSTANCE给CreateWindow?

Win32中有两个API函数,CreateWindow和RegisterClass。它们有一个HINSTANCE参数,很多人对这个参数不是很理解,今天就来讲一讲。 窗口类的名称还不足以唯一地确定这个窗口类。每一个进程都会拥有它自己的窗口类列表,而在这个列表中…

HINSTANCE数据类型

作者:马 岩(Furzoom) (http://www.cnblogs.com/furzoom/)版权声明:本文的版权归作者与博客园共同所有。转载时请在明显地方注明本文的详细链接,未经作者同意请不要删除此段声明,感谢…

【引用】HINSTANCE

在win32下与HMODULE是相同的东西,在Win32下还存在主要是因为win16 程序使用HINSTANCE来区别task。 区别: Handle 是代表系统的内核对象,如文件句柄,线程句柄,进程句柄。 HMODULE 是代表应用程序载入的模块,…

hInstance是什么参数?

熟悉C编程的人都知道main函数带有2个参数:arc和argv,完整的main函数定义是:int main(int argc, char *argv[])。argc指示程序启动时命令行参数的个数,argv则包含具体的参数字符串。 如果有程序叫“hello.exe”,直接启动…

hInstance是什么参数

熟悉C编程的人都知道main函数带有2个参数:arc和argv,完整的main函数定义是:int main(int argc, char *argv[])。argc指示程序启动时命令行参数的个数,argv则包含具体的参数字符串。 如果有程序叫“hello.exe”,直接启…

外卖小程序邀请入口获取推广路径

外卖小程序邀请入口 饿了么小程序邀请入口 1.手机应用商城搜索 淘宝联盟app,让后下载,登录建议直接选淘宝登录,让后按照下图的步揍即可. 淘宝联盟APP获取推广appid和path的地方,这是两个不同的每日红包。 2.另外饿了么小程序里面有个邀请有礼的,通过上…

万能门店小程序可diy完整前后端源码

这个是一位朋友付费分享的万能门店小程序,听他说功能挺强大的,功能也挺全面的。 有必须提醒一下:小程序代码分为前端和后端。 前端代码:例如:用“微信开发者工具”上传至微信官方审核就可以了。 后端代码&#xff1…

uniapp 生成微信小程序码

第一步创建一个容器&#xff0c;展示图片 <view style"margin: 49rpx auto;width: 300rpx;height: 300rpx;"><image :src"maskData" style"width: 100%;" longtap"longtap"></image> </view> 功能是&#x…

微信小程序的推广思路与方法,详细思路解析

简单来说&#xff0c;小程序就是微信上的APP&#xff0c;它内生于微信&#xff0c;坐享10亿流量&#xff0c;而且不需要下载安装即可使用的应用&#xff0c;它实现了应用“触手可及”的梦想&#xff0c;用户扫一扫或者搜一下即可打开应用。今天&#xff0c;我们就来看一看微信小…

替你发优惠券,为了推广小程序微信真是豁出去了

微信iOS 6.6.6版本上线了! 虽然App Store的新功能里,只写了“可保留未编辑完的朋友圈”。但心细如发的道爷依然发现几大重要更新,解决的痛点,必将让10亿用户为之小嗨一把,小程序也迎来了新的春天!另外,安卓版已经正式上线了! 微趋道,就是小程序 本次主要更新了以下内…

小程序介绍

1. 小程序介绍 微信小程序&#xff0c;简称小程序&#xff0c;英文名 Mini Program &#xff0c;是一种不需要下载安装即可使用的应用&#xff0c;它实现 了应用“触手可及”的梦想&#xff0c;用户扫一扫或搜一下即可打开应用 1.1 为什么是微信小程序&#xff1f; 微信有海…

小程序快速推广方法,你知道多少?

很多人觉得小程序的风口已经过去&#xff0c;其实不然&#xff01;就从这次疫情看&#xff0c;很多平时只做线下的大型餐饮店&#xff0c;都开始上线外卖平台&#xff0c;如果品牌具有一定规模的话&#xff0c;比起依托第三方的外卖平台&#xff0c;肯定是开发自己的小程序性价…

视频号推广小程序是什么;助你快速引流变现;丨国仁网络资讯

目前微信已经退出了视频号推广小程序,但对于大多数创作者来说还不知道它是干啥的。视频号推广小程序可以比喻视频号“dou+”, 它是腾讯官方专门为视频号博主打造的,以推广视频号内容为主,主要针对三个方向:基础定向投放,可以限定性别、年龄、地域的人群;投放指定账号的粉…

如何快速推广微信小程序,并通过微信小程序赚取睡后收入

微信小程序的搭建&#xff1a; 1、使用邮箱注册微信小程序帐号。 2、完善小程序主体。个人认为小程序的名称以及图标很重要。名称要言简意干&#xff0c;让用户根据名称就能知道小程序是做什么的。图标要简洁、清爽&#xff0c;并且符合主题。 3、开发小程序。自己具有开发能…

获取小程序appid和path教程详细版

打开你需要获取appid的小程序&#xff0c;这里以“饿了么”小程序为例&#xff0c;然后点击右上角的图标 以下为小程序path获取方法 登录你的小程序的微信公众平台https://mp.weixin.qq.com点击右上角的工具&#xff0c;进入后是下面的页面 然后用你输入的微信号微信浏览“饿了…

微信小程序实现展示图片(图片推广小程序可以使用)

实现效果图&#xff1a; 首先就是这个封面是一些图片展示界面&#xff0c;后台返回的都是图片。然后根据返回数据数组的下标进行分类&#xff0c;第一排只显示数组为1&#xff0c;4&#xff0c;7一次类推&#xff0c;第二列是2&#xff0c;5&#xff0c;8的index&#xff0c;第…

微信公众号如何推广自己的小程序以及操作步骤

微信公众号如何推广自己的小程序以及操作步骤 在使用微信公众号推广自己的小程序之前&#xff0c;首先要关联您的小程序。操作步骤如下&#xff1a; 微信公众号如何绑定自己的小程序的第一步&#xff0c;点微信公众号后台的左侧里有个小程序管理&#xff0c; 第二步&#xff…

如何在大学推广小程序?

如何在大学推广你的小程序&#xff1f; 最近是开学季&#xff0c;对于小程序运营者来说&#xff0c;这又是小程序推广的一个较佳时期。为什么这样说呢&#xff1f;在这之前&#xff0c;我们先来看一句话&#xff1a;利用用户关系链进行小程序的裂变传播能够最大程度曝光小程序。…