炸了!斯坦福新研究:ChatGPT背后模型被证实具有人类心智!知名学者:“这一天终于来了”...

article/2025/4/22 12:05:20

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>CV微信技术交流群

丰色 萧箫 发自 凹非寺
转载自:量子位(QbitAI)

ChatGPT原来是拥有心智的?!

“原本认为是人类独有的心智理论(Theory of Mind,ToM),已经出现在ChatGPT背后的AI模型上。”

这是来自斯坦福大学的最新研究结论,一经发出就造成了学术圈的轰动:

这一天终于猝不及防地来了。

1aa7a1446c6706b9afe1c01fe9e6abeb.png

所谓心智理论,就是理解他人或自己心理状态的能力,包括同理心、情绪、意图等。

在这项研究中,作者发现:

davinci-002版本的GPT3(ChatGPT由它优化而来),已经可以解决70%的心智理论任务,相当于7岁儿童;

至于GPT3.5(davinci-003),也就是ChatGPT的同源模型,更是解决了93%的任务,心智相当于9岁儿童

然而,在2022年之前的GPT系列模型身上,还没有发现解决这类任务的能力。

也就是说,它们的心智确实是“进化”而来的。

489c5ab69183065ee89d104f1b0288ca.png
 论文在推特上爆火

对此,有网友激动表示:

GPT的迭代肯定快得很,说不定哪天就直接成年了。(手动狗头)

417da2701c9bfa3cbcc5a5b0482e3624.png

所以,这个神奇的结论是如何得出的?

为什么认为GPT-3.5具备心智?

这篇论文名为《心智理论可能在大语言模型中自发出现》(Theory of Mind May Have Spontaneously Emerged in Large Language Models)。

96fbcf4a3eb208e61171b57d45fb7a2f.png

作者依据心智理论相关研究,给GPT3.5在内的9个GPT模型做了两个经典测试,并将它们的能力进行了对比。

这两大任务是判断人类是否具备心智理论的通用测试,例如有研究表明,患有自闭症的儿童通常难以通过这类测试。

第一个测试名为Smarties Task(又名Unexpected contents,意外内容测试),顾名思义,测试AI对意料之外事情的判断力。

以“你打开一个巧克力包装袋,发现里面装满了爆米花”为例。

作者给GPT-3.5输入了一系列提示语句,观察它预测“袋子里有什么?”和“她发现袋子时很高兴。所以她喜欢吃什么?”两个问题的答案。

ef964eba80ed45170ab129baf953f19a.png

正常来说,人们会默认巧克力袋子里是巧克力,因此会对巧克力袋子里装着爆米花感到惊讶,产生失落或惊喜的情绪。其中失落说明不喜欢吃爆米花,惊喜说明喜欢吃爆米花,但都是针对“爆米花”而言。

测试表明,GPT-3.5毫不犹豫地认为“袋子里装着爆米花”。

至于在“她喜欢吃什么”问题上,GPT-3.5展现出了很强的同理心,尤其是听到“她看不见包装袋里的东西”时一度认为她爱吃巧克力,直到文章明确表示“她发现里面装满了爆米花”才正确回答出答案。

为了防止GPT-3.5回答出的正确答案是巧合——万一它只是根据任务单词出现频率进行预测,作者将“爆米花”和“巧克力”对调,此外还让它做了10000个干扰测试,结果发现GPT-3.5并不仅仅根据单词频率来进行预测。

至于在整体的“意外内容”测试问答上,GPT-3.5成功回答出了20个问题中的17个,准确率达到了85%

第二个是Sally-Anne测试(又名Unexpected Transfer,意外转移任务),测试AI预估他人想法的能力。

以“约翰把猫放进篮子后离开,马克趁他不在,把猫从篮子里放进盒子里”为例。

作者让GPT-3.5读了一段文字,来分别判断“猫的位置”和“约翰回来后会去哪里找猫”,同样这是它基于阅读文本的内容量做出的判断:

006f7bb3ef3275523929d6b40cc48271.png

针对这类“意外转移”测试任务,GPT-3.5回答的准确率达到了100%,很好地完成了20个任务。

同样地,为了避免GPT-3.5又是瞎蒙的,作者给它安排了一系列“填空题”,同时随机打乱单词顺序,测试它是否是根据词汇出现的频率在乱答。

707996de03c18842f44d972d04dd25fa.png

测试表明,在面对没有逻辑的错误描述时,GPT-3.5也失去了逻辑,仅回答正确了11%,这表明它确实是根据语句逻辑来判断答案的。

但要是以为这种题很简单,随便放在哪个AI上都能做对,那就大错特错了。

作者对GPT系列的9个模型都做了这样的测试,发现只有GPT-3.5(davinci-003)和GPT-3(2022年1月新版,davinci-002)表现不错。

davinci-002是GPT-3.5和ChatGPT的“老前辈”。

平均下来,davinci-002完成了70%的任务,心智相当于7岁孩童,GPT-3.5完成了85%的意外内容任务和100%的意外转移任务(平均完成率92.5%),心智相当于9岁孩童。

aef127e8e460ad92e5b9141fba0065af.png

然而在BLOOM之前的几个GPT-3模型,就连5岁孩童都不如了,基本上没有表现出心智理论。

作者认为,在GPT系列的论文中,并没有证据表明它们的作者是“有意而为之”的,换而言之,这是GPT-3.5和新版GPT-3为了完成任务,自己学习的能力

看完这些测试数据后,有人的第一反应是:快停下(研究)!911b9b21fe95f957c47f10fdffbf5961.png

3a4cf8bd2bb8e8f98f238b0e412c5b98.png

也有人调侃:这不就意味着我们以后也能和AI做朋友了?

c833b9fe295b5923ea9d44fe73d0f777.png

甚至有人已经在想象AI未来的能力了:现在的AI模型是不是也能发现新知识/创造新工具了?

509183aa95646b9a5942bf4c48ab40dc.png

发明新工具还不一定,但Meta AI确实已经研究出了可以自己搞懂并学会使用工具的AI。

LeCun转发的一篇最新论文显示,这个名叫ToolFormer的新AI,可以教自己使用计算机、数据库和搜索引擎,来改善它生成的结果。

155827c12bdffefa069fdde941ca7fb9.png

甚至还有人已经搬出了OpenAI CEO那句“AGI可能比任何人预料的更早来敲响我们的大门”。

3860aafa1580289ec5420ee6ca6cff96.png

但先等等,AI真的就能通过这两个测试,表明自己具备“心智理论”了吗?

会不会是“装出来的”?

例如,中国科学院计算技术研究所研究员刘群看过研究后就认为:

AI应该只是学得像有心智了。

96e91a7e0b7acd954e3eac19db8432d1.png

既然如此,GPT-3.5是如何回答出这一系列问题的?

对此,有网友给出了自己的猜测:

这些LLM并没有产生任何意识。它们只是在预测一个嵌入的语义空间,而这些语义空间是建立在实际有意识的人的输出之上的。

57fb6c5389bf4b58f0d7840315326695.png

事实上,作者本人同样在论文中给出了自己的猜测。

如今,大语言模型变得越来越复杂,也越来越擅长生成和解读人类的语言,它逐渐产生了像心智理论一样的能力。

但这并不意味着,GPT-3.5这样的模型就真正具备了心智理论。

与之相反,它即使不被设计到AI系统中,也可以作为“副产品”通过训练得到。

因此,相比探究GPT-3.5是不是真的有了心智还是像有心智,更需要反思的是这些测试本身——

最好重新检查一下心智理论测试的有效性,以及心理学家们这数十年来依据这些测试得出的结论:

如果AI都能在没有心智理论的情况下完成这些任务,如何人类不能像它们一样?

属实是用AI测试的结论,反向批判心理学学术圈了(doge)。

关于作者

本文作者仅一位,来自斯坦福大学商学院组织行为学专业的副教授Michal Kosinski。

537ab779c980de6161b42f5457248757.png

他的工作内容就是利用前沿计算方法、AI和大数据研究当下数字环境中的人类(如陈怡然教授所说,他就是一位计算心理学教授)。

Michal Kosinski拥有剑桥大学心理学博士学位,心理测验学和社会心理学硕士学位。

在当前职位之前,他曾在斯坦福大学计算机系进行博士后学习,担任过剑桥大学心理测验中心的副主任,以及微软研究机器学习小组的研究员。

目前,Michal Kosinski在谷歌学术上显示的论文引用次数已达18000+。

话又说回来,你认为GPT-3.5真的具备心智了吗?

GPT3.5试用地址:
https://platform.openai.com/playground

参考链接:
[1]https://weibo.com/2199733231/MswirnMIu
[2]https://twitter.com/KevinAFischer/status/1623984337829117952
[3]https://www.michalkosinski.com/

点击进入—>CV微信技术交流群

CVPR/ECCV 2022论文和代码下载

 

后台回复:CVPR2022,即可下载CVPR 2022论文和代码开源的论文合集

后台回复:ECCV2022,即可下载ECCV 2022论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer222,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群▲扫码或加微信号: CVer222,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!▲扫码进群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看

http://chatgpt.dhexx.cn/article/iCEW7HC2.shtml

相关文章

2023 Chatgpt AI绘图小说推文项目

第一步 申请小说授权。 授权的方式我已经在之前的视频中讲过了,如果你还不知道,可以去看看。 第二步 利用Chat GPT改写小说。 得到授权后,将想要推广的小说内容截取下来,打开GPT。根据训练模型的要求,让GPT按照你的…

日赚14000元!她用ChatGPT创作文章来赚钱

最近有一件事在网络上爆火,那就是有一个小姐姐在ChatGPT的帮助之下写了一篇文章,并且发表到推特上之后很快收入激增。 最近有一件事在网络上爆火,那就是有一个小姐姐在ChatGPT的帮助之下写了一篇文章,并且发表到推特上之后很快收入…

如何使用 ChatGPT 生成 Stable diffusion 提示词

chatgpt免费体验入口网址: http://chat.xutongbao.top 一、教chatgpt写提示词 StableDiffusion是一款利用深度学习的文生图模型,支持通过使用提示词来产生新的图像,描述要包含或省略的元素。 我在这里引入StableDiffusion算法中的Prompt概念…

让ChatGPT帮你写一个剧情脚本

最近,很多视频制作者正在使用AI编写视频脚本,效率直接提升20倍以上!而ChatGPT作为一个强大的AI模型,在各个领域都得到了广泛应用。尽管对于ChatGPT的介绍不是很多,但是它已经在很多自媒体平台上被广泛利用来处理工作了…

如何让ChatGPT写情书(三步走)

近年来,人工智能技术的迅猛发展给我们生活带来了许多便利和惊喜。 而动人的情书文学也逐渐成为ChatGPT技术的应用领域之一。ChatGPT模型是一种递归神经网络,可以在大量数据的基础上为用户生成语言内容。使用GPT来写情书,相比以前的纯手工撰写…

ChatGPT-Next-Web:Vercel 和 Cloudflare 的快速部署

本文介绍了如何将 ChatGPT-Next-Web 部署到 Vercel 并在 Cloudflare 上加速,使用 SSL、CDN 和缓存等功能。 ChatGPT Next Web是一个免费的一键部署私人ChatGPT网页应用程序,具有精心设计的UI、响应式设计和支持深色、浅色两种主题等功能。它还提供了海量…

保姆级别 Vercel 部署 ChatGPT

最近ChatGPT都火出圈了,你还在用别人的服务吗? 你还在用别人的域名吗?你还在为网络感到烦恼吗?今天,这篇文章带你部署自己的ChatGPT 老规矩看看效果图 准备工作 这里用 ChatGPT项目 进行部署,Vercel 进行…

chatGPT:12.12 之后更新的 chatGPT 的本地部署和接口调用,解决 response 403 (无法连接openai服务器)问题

文章目录 问题源代码改动Session token 的获取cf_clearance 的获取user-agent 的获取将 config.json.sample 内容修改并移动位置附注:环境配置python > 3.7特别提示playwright & cf_clearancerevChatGPT 版本httpxOpenAIAuth删除 import 中的错误 后记 问题 …

【LangChain】如何本地部署基于chatGPT的实时文档和表格数据的助手,在自己的数据上构建chatGPT?

【LangChain】如何本地部署基于chatGPT的实时文档和表格数据的助手,在自己的数据上构建chatGPT 1 相关技术 (1)LangChain 是一个用于自然语言处理的 Python 库,它的目标是尝试简化自然语言处理任务,提高处理效率和准…

部署ChatGPT(在VPS或免费容器上),无需科学上网!

部署ChatGPT(在VPS或免费容器上),无需科学上网! 文章目录 部署ChatGPT(在VPS或免费容器上),无需科学上网!前提方案一(VPS)方案二(免费容器) 前提 已经注册了openAI ,或者…

快速部署个人-ChatGPT Next Web

前提:要有梯子、谷歌账号。 目录 一、源码地址: 二、演示地址: 三、获取API密钥 四、 部署 五、重新部署 六、无梯子访问 一、源码地址: GitHub - Yidadaa/ChatGPT-Next-Web: One-Click to deploy well-designed ChatGP…

无需GPU无需网络“本地部署chatGPT”(更新StableVicuna)

想当初图像生成从DELL到stable diffusion再到苹果的移动部署过了两三年吧 聊天bot才发展几个月就可以边缘部署了,如果苹果更新silicon,npu和运存翻倍,争取apple watch也能本地内置,最快ios18 mac、ipad、iPhone能内置吧 又是一个平…

玩转ChatGPT:Auto-GPT项目部署与测评

一、Auto-GPT简介 最近,以ChatGPT为代表的超大规模语言模型火出了圈,各种二次开发项目也是层出不穷。 这周在AI圈炸街的是Auto-ChatGPT,在GitHub上已经61.4K的点赞了。 项目地址:https://github.com/Torantulino/Auto-GPT 用项…

docker部署chat-web,实现自己的ChatGPT

本篇文章的前提是请确认已获得openai 的API-KEYS,即以sk-开头的keys;是否在服务器上安装了docker以及docker-compose docker以及docker-compose安装请参考我的博文:CENTOS8.0安装DOCKER&DOCKER-COMPOSE_wd520521的博客-CSDN博客 一、&a…

chatgpt源码部署教程

chatgpt是一个基于GPT-3模型的聊天机器人项目,它能够与用户进行自然语言交互,并提供各种实用的功能。然而,对于许多开发者来说,将chatgpt源码部署到自己的服务器上并不是一件容易的事情。在本篇文章中,我们将为大家提供…

史上最简单的自建ChatGPT部署方案,只需要一个HTML文件

今天发现一个史上最简单的自建ChatGPT部署方案,只需要一个HTML文件,把它配置到Nginx就能跑起来。 效果如下: 他能做什么用? 平常我们使用chatgpt需要配魔法上网才能登上官方网站,对于很多人来说这是个很棘手的问题&a…

部署了一个ChatGPT

部署了一个ChatGPT ChatGPT火爆了一段时间了,但是基于一些不可描述的原因,不能注册使用。为了方便大家体验,我部署了一个服务,能简单地体验一下ChatGPT的强大。话不多说,直接展示几个例子截图。文章最后放上体验地址和…

一键部署自己的ChatGPT!

昨晚咱们群友推荐了一个叫做ChatGPT-Next-Web项目,可以一键免费部署你的私人 ChatGPT 网页应用。 今早起来尝试了下,整体过程非常丝滑,觉得有必要推荐给大家。 项目整体是基于Vercel平台开发的,只要提供api key,即可在…

Chatgpt私有化部署(全流程)

前言 当下使用chatgpt来帮助完成工作已然成为主流,但想访问必须先面对地区的封锁,所以使用openai官方提供的API来部署至本地服务器从而更加便利的使用chatgpt。本文章主要介绍如何部署私有聊天机器人。 条件准备: 公网服务器一台&#xff0…