用ChatGPT操控机器人,微软开启居家机器人新纪元!

article/2024/12/22 13:03:05

57c2016d737aa9ed7fc257643970a425.jpeg

编|LRS 

源|新智元

ChatGPT不止会动嘴,还能帮你操控无人机!

虽然ChatGPT已经被调教为符合人类的偏好,但在各种反向操作下,还是能够逼问出一些「不道德的内容」,比如ChatGPT可以给你列一份详细的毁灭世界计划列表,具体到每一步。
d85dbeac0f57bc2976943144105633ef.png
不过,现在的ChatGPT只会动动嘴皮子,并没有任何接触现实物理世界的能力,顶多也就是当个科幻小说看看。
但要是ChatGPT真的可以操控机器人呢?
最近,微软发表了一篇论文,公布了他们正在把ChatGPT应用于机器人上的研究成果。
83822dd091ca73e795778baee31bbaac.png

论文链接:

https://www.microsoft.com/en-us/research/uploads/prod/2023/02/ChatGPT___Robotics.pdf

不过微软的目标并非是「毁灭世界」,而是加快机器人的开发速度。

addc076fa1d8b1cfb587acad9339973f.png

实际上在现代的生活和生产流程中,处处都离不开机器人,从工厂里制造产品的机械臂,到家庭里用的吸尘器,都可以算作是机器人(robot)。

每次想开发一个新产品,或者让现有的机器执行一个新功能,都需要一个高级工程师编写代码,同时尽可能编写测试覆盖所有场景。

微软在论文中提出了一套新的设计原则,通过ChatGPT这样的大型语言模型来给机器人提供指令。

ChatGPT:机器人控制器

ChatGPT之所以爆火,其根本原因就在于:AI终于在一定程度上能「听懂人话」了,而非只是按照语法胡乱生成内容;而且它的功能也很强大,问答、写论文、写诗、写代码,只要prompt写得够好,ChatGPT的表现也会更惊人。

要是把这种能力迁移到机器人身上,假设几十年以后,各家各户都有机器人,只要说一声「给我热一下午餐」,它就能自己找到微波炉,再把菜端回来,人机交互直接迈入新时代。

虽然「自然语言」很简洁,但现有的机器人开发还是依赖于「编程语言」。

be39912278bdbeb127d9ad67b5980109.png

ChatGPT 是一个基于大量文本和人类反馈训练得到的语言模型,能够针对各种各样的提示和问题产生连贯且语法正确的回应。
这项研究的目的是观察 ChatGPT 是否能够在文本之外的领域进行思考,并推理出物理世界来帮助机器人完成任务。

研究人员预期ChatGPT能够帮助用户更容易地与机器人交互,而不需要学习复杂的编程语言或机器人系统的细节,其中的关键难题就是教 ChatGPT 如何使用物理定律、操作环境的背景以及了解机器人的物理行为如何改变世界状态,并以此来解决指定的任务。

286d9c96ea5c1a56edea3cfe94422215.png

实验证明,ChatGPT 可以独立完成很多工作,但是它仍然需要一些辅助,论文中描述了一系列的设计原则,可以用来指导语言模型解决机器人任务,包括但不限于特殊的提示结构、高级 API 和基于文本的人类反馈等,一场机器人系统的开发革命即将到来。

全新的代码设计流程

给大型语言模型写prompt是一门高度经验主义的科学,通过反复试验,研究人员建立了一套方法论和设计原则,专门用于为机器人任务撰写提示:

263fa24e2164a6f55bad1b6866679b85.png

1. 定义了一组高级机器人 API 或函数库。

这个库可根据特定的机器人类型进行设计,并且应该从机器人的控制栈或感知库映射到现有的低层次具体实现。
对高级 API 使用的描述性名称非常重要,可以帮助 ChatGPT推断函数的功能。

2. 为 ChatGPT 编写一个文本提示,用来描述任务目标,同时显式说明高级库中的哪些函数是可用的。

提示中还可以包含有关任务约束的信息, 或者 ChatGPT 应该如何组织它的答案,包括使用特定的编程语言,使用辅助解析组件等 ;

3. 用户在循环中评估 ChatGPT 的代码输出,可以直接执行代码以检查正确性,也可以使用模拟器。

如果有需要的话,用户可以使用自然语言向 ChatGPT 提供有关答案质量和安全性的反馈。

41bae859a3f41b4ce9126f09b5a418a6.png

当用户对解决方案感到满意时,就可以将最终的代码部署到机器人上。

ChatGPT+机器人能做什么?

下面是几个例子,更完整的ChatGPT能力列表参见代码仓库。

155be63132b8d8ac14fea164eff85d3e.png

代码链接:

https://github.com/microsoft/PromptCraft-Robotics

Zero-shot任务规划

当ChatGPT遇上无人机,研究人员首先让 ChatGPT 能够控制一台真正的无人机的全部功能,然后按照下面视频中进行的对话,实验结果证明,一个完全不懂技术的用户,只需要通过对话就能实现控制无人机,「自然语言」是一个非常直观、高效的用户接口。

当用户的指令含糊不清时,ChatGPT 会要求用户进一步说明问题,并为无人机编写复杂的代码结构,例如飞行之字(zig-zag)图案,以便可视化地检查货架;甚至还能给用户来一张自拍。
研究人员还在 MicrosoftAirSim 模拟器中对工业检查场景中使用ChatGPT进行模拟,结果显示该模型能够有效地解析用户的高级意图和几何线索,以准确地控制无人机。

复杂的任务需要用户参与反馈

当把ChatGPT用于机械臂的操作场景时,研究人员使用「会话反馈」(conversational feedback)来教模型如何将最初提供的 API 组合成更复杂的高级函数,即ChatGPT自己内部编码的函数。

使用以课程为基础(curriculum-based)的策略,ChatGPT能够将这些学到的技能有逻辑地链接在一起,以执行诸如堆叠块之类的操作。

此外,还有一个例子能展现出ChatGPT的强大能力,研究人员要求模型用木块构建微软标志,即需要将文本域和物理域连接起来。

02cbc9e37fb0f6524c6918caa23d01e3.png

ChatGPT不仅能够从内部知识库中回忆出微软的logo,还能够用SVG的代码「绘制」出这个标志 ,然后利用上面学到的技能来确定现有的机器人动作可以组成它的物理形式。

还有一个例子,研究人员让 ChatGPT 编写一个算法,让无人机在不撞上障碍物的情况下,在空中达到目标。

只需要告诉模型,它操控的这架无人机有一个前向距离传感器,ChatGPT 立即能够为算法编码了大部分关键构件,这个任务需要与人类进行一些对话,ChatGPT 仅通过自然语言反馈就能进行局部代码修改。

在行动之前感知世界

在算法决定做某事(action)之前能够感知世界(perception)是打造一个机器人系统的基础。

为了测试 ChatGPT 对指定概念的理解,研究人员设计了一个框架,要求ChatGPT不断探索环境,让模型访问诸如目标检测和目标距离 API 之类的函数,直到找到用户指定的对象,整个过程称为感知-行动循环(Perception-action loops)。
在实验环节,研究人员进行了额外的实验来评估 ChatGPT 是否能够根据传感器的实时反馈来决定机器人应该去哪里,而不是让 ChatGPT 生成一个代码循环来做出这些决定。
实验结果验证了用户可以在聊天的每一步输入一个相机图像的文本描述,并且模型能够找出如何控制机器人,并驱使机器人到达一个特定的对象。

开源PromptCraft:收集有价值的prompt

「良好的prompting工程」对于ChatGPT等大型语言模型成功执行机器人任务来说至关重要。

但prompting完全是一门经验主义的科学、缺乏全面的总结,并且相关资源也很少,没有数据集来帮助该领域的研究人员和爱好者判断什么是一个好的prompt为了弥补这一劣势,研究人员开源了一个平台 PromptCraft,任何用户都可以在其上分享不同机器人类别的提示策略示例。

这次研究项目的所有提示和对话都已经放在了仓库中,感兴趣的读者可以继续参与贡献!

008edd0689720f45b9a0b9019de494ae.png

除了快速设计之外,研究人员还计划未来开发多个机器人模拟器和接口,以允许用户测试ChatGPT生成的算法性能,目前已经发布了一个集成ChatGPT的AirSim环境。

把机器人带出实验室,走向世界

微软发布这些技术的目的是将机器人技术推广到更广泛的受众,研究人员认为,基于语言的机器人控制系统是把机器人从科学实验室带到日常用户手中的基础。
也就是说,ChatGPT 的输出不应该在没有仔细分析的情况下直接部署在机器人上。
通过在模拟环境中获得实验结果,能够在未来现实部署之前对算法进行评估,并采取必要的安全预防措施。

2df529c4a0d22947670ab5475579d35c.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

 73819ff379ad52781ddf530261d55a20.png

[1]https://www.microsoft.com/en-us/research/group/autonomous-systems-group-robotics/articles/chatgpt-for-robotics/


http://chatgpt.dhexx.cn/article/XpjGZQeF.shtml

相关文章

【ChatGPT】如何用十分钟部署一个属于自己的chatgpt网站

💖 作者简介:大家好,我是Zeeland,全栈领域优质创作者。📝 CSDN主页:Zeeland🔥📣 我的博客:Zeeland📚 Github主页: Undertone0809 (Zeeland) (github.com)&…

ChatGPT聊天app(基于autojs)

这是一个调用ChatGPT的例子 在安卓上运行,我已经打包好了的 下面是测试功能 我已经打包好了,图方便用的是auto.js写的,你也可以用原生安卓写 我用蓝奏浏览器分享了[ChatGPT测试_1.0.0], 下载链接:https://wwp.lanzoup.com/iL8Q50nab43c 提取码 : wumi…

本地部署chatgpt

下载python3.7以上版本 安装 pip install pandora-chatgpt 安装完成 输入网址(要先登录chatgpt) https://chat.openai.com/api/auth/session 复制accseeToken的内容存为token.txt 在token.txt同一个目录下进入cmd 输入 pandora.exe -t .\token.txt 或者 然后在浏览器输入127…

ChatGPT API 技巧教程

导语:ChatGPT作为一种基于人工智能的自然语言处理工具,可以帮助你更好地解决这些问题,提高质量和效率。那么,本文将介绍如何使用ChatGPT的API接口,高效响应结果。 介绍了如何全流程使用ChatGPT,在实际应用…

ChatGPT教程之 03 ChatGPT 中构建 Python 解释器

这个故事的灵感来自于一个类似的故事,在 ChatGPT 中构建虚拟机。我印象深刻并决定尝试类似的东西,但这次不是 Linux 命令行工具,而是让 ChatGPT 成为我们的 Python 解释器。 这是初始化 ChatGPT 的初始命令: I want you to act as a Python interpreter. I will type com…

谷歌浏览器兼容chatgpt教程

#插件下载地址 https://download.csdn.net/download/qq_37191690/87793063 https://download.csdn.net/download/qq_37191690/87793061 2个插件分别是谷歌账号申请工具,要不然打不开登录页面,一个是chatgpt搜索插件 1、打开谷歌浏览器,在右上…

ChatGPT教程之深入了解魔术背后的技术

解开谜团:深入探索 ChatGPT 的技术奇迹。 ChatGpt 无处不在,无论是在播客、博客、YouTube 还是社交媒体上。当我注意到这项新技术如此受欢迎时,我决定试一试,我被震惊了!有很多关于 ChatGpt 及其魔力的博客,但在这篇博客中,我将深入探讨其内部技术及其工作原理! ChatG…

chatgpt系列文章-23.2.15(主要还在发现chatgpt的不足,偏探索,像报告)

Will ChatGPT get you caught? Rethinking of Plagiarism Detection 推荐指数:2 主要内容 文章主要是研究chatgpt出现后,在学术界中可能出现的学术抄袭和剽窃现象。 这篇文章就比较了几种剽窃抄袭软件,来测试是否能够识别chatgpt编写的内…

ChatGPT写新闻-ChatGPT写文章

ChatGPT写新闻 ChatGPT可以用于生成新闻稿件,但需要注意的是,由ChatGPT生成的新闻稿件可能存在语义、逻辑、事实准确性等方面的问题,因此需要进行人工审核和编辑,确保其准确性。 下面是一个示例过程,大致了解如何使用…

ChatGPT写作:快速生成优质博客文章的神器

今天我们将聊聊如何使用ChatGPT快速生成优质的博客文章,并且在短时间内提高写作效率。 首先,让我们简单介绍一下ChatGPT。它是一种基于深度学习的自然语言处理模型,能够自动地生成人类般的文本。通过训练大量的文本数据,ChatGPT可…

用 ChatGPT 写了篇文章!

阅读本文大概需要1.66 分钟。 这几天大家应该看到很多人,尤其做技术的,互联网圈子的人都在刷屏一个ai玩意,叫 ChatGPT。在写这篇之前,我也试了试,感觉还挺好玩。看到很多人在问这是个啥,今天就来简单说说。…

ChatGPT如何批量生成文章,ChatGPT自动写作工具!

ChatGPT是一种基于GPT接口的人工智能机器人,它具备自动写作的能力,可以用来生成文章、翻译、问答等多种语言处理任务。在实际应用中,很多用户需要使用ChatGPT来批量生成文章,那么,ChatGPT如何实现批量文章生成呢&#…

2分钟用ChatGPT写一篇高质量文章文案,让它告诉你:如何靠短视频赚钱?

如何利用 ChatGPT 快速编写一篇高质量的文章 一、文章结构剖析 如果我们经常去写文章或者是去看别人的文章,你会发现文章分为以下几部分: 标题大纲前言/导语正文(不同的结构)结尾呼吁 当然了,如果我们去问 ChatGPT&…

完爆基金经理?ChatGPT炒股,一年多回报率超500%

郑雅烁 中国证券报 2023-05-21 02:48 发表于北京 天天财经独家,速关注 近日,美国顶级公立大学佛罗里达大学金融学院公布的一项研究表明,将ChatGPT融合在投资模型中,可以预测股市的走势,其投资回报率甚至高达惊人的500%…

ChatGPT基础原理和基础应用

CHatGPT ChatGPT 能以不同样式、不同目的生成文本,并且在准确度、叙述细节和上下文连贯性上具有更优的表现。GPT是Generative Pre-trained Transformer(生成型预训练变换模型)的缩写 OpenAI 使用监督学习和强化学习的组合来调优 ChatGPT&…

ChatGPT炒股:批量下载北交所上市公司的招股说明书

打开北京证券交易所官网,点击发行上市,然后点击公开发行信息披露,然后在查询框里面输入关键词:在北京证券交易所上市招股说明书,然后选择时间,点击查询,就可以看到所有北交所上市公司的招股说明…

chatgpt赋能python:Python如何获取股票数据——详细介绍

Python如何获取股票数据——详细介绍 Python作为一款专业的编程语言,其应用领域十分广泛,其中之一就是股票数据的获取。本文将详细介绍Python如何获取股票数据的方法,帮助大家快速获取所需的股票信息。 一、使用pandas-datareader获取股票数…

chatgpt赋能python:使用Python操作股票软件:探索股票市场的新方式

使用Python操作股票软件:探索股票市场的新方式 在当今股票市场中,许多投资者正在寻找新的方式来更好地管理其投资组合。一种新的方式是使用Python编程语言操作股票软件。Python拥有简洁的语法和丰富的库来帮助投资者更好地理解和管理股票。在本文中&…

ChatGPT炒股:爬取氢能行业企业名录

全球氢能网有氢能源相关企业的列表,怎么全部爬取下来呢? 先看翻页规律: http://h2.china-nengyuan.com/company/company_0.html http://h2.china-nengyuan.com/company/company_1.html http://h2.china-nengyuan.com/company/company_21.h…

chatgpt赋能python:Python编程炒股软件:优秀的股票市场分析工具

Python 编程炒股软件:优秀的股票市场分析工具 Python 编程语言一直以来在数据分析和科学计算领域处于领先地位。由于它强大的数据处理能力和易于使用的编程语言特性,Python成为了许多股票市场分析工具的首选。 现在,越来越多的投资者使用Py…