微软再扔AI聊天画图炸弹!图文版ChatGPT诞生了

article/2025/4/20 5:26:19

 Datawhale干货 

发布:Visual ChatGPT,来源:新智元

【导读】要说ChatGPT已经是核弹级的现象,那么微软发布的Visual ChatGPT可以称的上宇宙大爆炸。在视觉模型加持下的ChatGPT,聊天生图全拿捏了。

图文版ChatGPT诞生了!

刚刚,微软亚研院发布了一个炸弹级模型Visual ChatGPT。

0c1b8cc9cf7ccc21a586266f6a9f917b.png

论文地址:https://arxiv.org/abs/2303.04671

以前的ChatGPT虽然具有卓越的对话能力和推理能力,但也有短板——还不能处理或生成视觉图像。

而Visual Transformers或Stable Diffusion,虽然在视觉理解和生成能力上很强大,却只有一轮固定的输入和输出。

微软亚研院学者提出的模型,就把视觉模型信息注入了ChatGPT,使用户能够与ChatGPT以语言和图像的形式交互,还能提供复杂的视觉指令,让多个模型通过多步骤协作。

微软前不久推出的Kosmos-1,就属于多模态大语言模型,传言下周发布的GPT4,据说也是转向了多模态。看来,微软在下一盘多模态的大棋

作画、上色、抠图,一键拿捏


注入视觉模型后,ChatGPT直接化身艺术大师,想要什么作品,动动嘴就行了。

-帮我画一个苹果。Visual ChatGPT直接生成了一张画好的图。

2a5ffd9f0eca9ef805742df3587b32f8.png

这还仅是前菜,Visual ChatGPT各种画风全能hold住,比如:

随便给个草图框架,它便能输出一幅精美的画作。

fa30a758a13d3ab76540cf61a7f33a39.png

另外,上色、「抠图」、深度图、基于深度图再生成图片都能拿捏。

一张简陋的图经过你的精心调教后,就变成了这个样子。

beefd991c35d4188bb4963f1e1a83811.png

当然了,Visual ChatGPT没有忘本,让它进行创作的同时,还能描述图片、回答问题。

04e437fb52efc702e47ca563afd2f515.gif

有了Visual ChatGPT的加持,微软必应简直可以制霸全世界了。

41309c9ae463c24d7f82e0dc583f669d.png

Prompt Manager,让视觉模型立刻和ChatGPT合体


研究者是如何想到这个点子的呢?

当红炸子鸡ChatGPT能输入输出文字类的信息,但是在图像理解和生成方面能力有限。

Visual ChatGPT并非是从头训练的,而是直接基于ChatGPT构建,并向其注入了许多可视化模型(VFMs)。Stable Diffusion就是可视化模型的典型代表。

VFMs虽然在文本-图像生成上展现出巨大能力,但在人机交互上却不如对话语言模型灵活。

微软亚研院的研究人员便get了一个点,将这两者结合,提出Visual ChatGPT,岂不是强强联合。

点子有了,那视觉模型信息如何注入ChatGPT呢?就是通过一系列提示。

论文中提出了Prompt Manager,具体步骤是——

1 首先明确告诉ChatGPT每个VFM的能力,并指定输入-输出格式。

2 然后转换不同的视觉信息,比如将Png图、深度图和掩模矩阵,转换为语言格式。

3 最后处理不同VFMs的历史、优先级和冲突。

d4667e8754ef7ffbb3e0b505d0ae7b61.png

在Prompt Manager的帮助下,ChatGPT可以利用这些VFMs,并以迭代的方式接收其反馈,直到满足用户的要求或达到结束条件。

如图,上传一个黄色花朵的图像,然后输入一个复杂语言指令「请根据图像的预测深度生成一朵红色花朵,然后一步一步地把它做成卡通形象」。

Visual ChatGPT便开始执行任务链:

首先应用深度估计模型来检测深度信息,然后利用深度图像模型生成一个带有深度信息的红色花朵图形,最后利用基于Stable Diffusion的风格转换VFM,将该图像转化为卡通风格。

在上述管道中,Prompt Manager通过提供可视化格式的类型,和记录信息转换的过程,来充当ChatGPT的调度器。

最后,当 Visual ChatGPT从Prompt Manager获得「卡通」提示时,将结束执行管道,并显示最终结果。

模型概述


对于一个由N个问题-答案对dfaae8aa42da66654bab729bfcc7e85c.png构成的集合,想要从第i轮对话中得到答案ed828f6302541132eca78f371737df8d.png,就需要一系列的VFM和中间输出。

我们记第i轮对话中,第j次的工具调用中间答案e3b92499d4ae1f8034caf10974e3b24d.png

这种工作机制可用一个公式表示,这个公式也定义了什么是Visual ChatGPT。

3e280c147742727312f2e000c171aaac.png

其他符号代表:P是全局原则,F是各个视觉基础模型,b09b31f8246a375d96d5640a0648fe94.png是历史会话记忆,62f3bac0adb212adecda852735b36f8a.png是这一轮的用户输入,83b0584799d8d04971483e8779058286.png是这轮对话里的推理历史,4bc3e8768c20c1a60336a6865dd68950.png是中间答案,M是Prompt Manager,用来把上面各个功能转化成合理的文本prompt,进而将其交给ChatGPT处理。

df092e695a942c0e818f200f3aa47d7c.png

左边是进行的三轮对话;中间是Visual ChatGPT如何迭代调用VFMs并提供答案的流程图;右侧是第二个QA的详细过程。

M(P)

Visual ChatGPT为了能让不同的VFM理解视觉信息并生成相应答案,需要设计一系列系统原则,并将其转化为ChatGPT能够理解的提示。

通过生成这样的提示,Prompt Manager能够帮助Visual ChatGPT完成生成文本、图像的任务,能够访问一系列VFM并自由选择使用哪个基础模型,提高对文件名的敏感度,进行链式思考和严格推理。

M(F)

Prompt Manager需要帮助Visual ChatGPT区分不同的VFM,以便准确地完成图像任务。

为此,Prompt Manager对各个基础模型的名称、应用场景、输入和输出提示以及实例给出了具体定义。

M(Q)

Prompt Manager会对用户新上传的图像生成唯一文件名,并生成假的对话历史,其中提到该名称的图片已经收到,这样可以在涉及引用现有图像的查询时忽略文件名的检查。

Prompt Manager会在查询问题之后加上一个后缀提示,来确保成功触发VFM,强制Visual ChatGPT进行思考,给出言之有物的输出。

M(F(A))

VFM给出的中间输出,Prompt Manager会为其生成链式文件名,作为下一轮内部对话的输入。

ChatGPT生成最终答案要经历一个不断迭代的过程,它会不断自我询问,自动调用更多VFM。而当用户指令不够清晰时,Visual ChatGPT会询问其能否提供更多细节,避免机器自行揣测甚至篡改人类意图。

1c4d36295c2970be78f8a3c04398f222.png

Prompt Manager概述

每个视觉基础模型的GPU显存使用情况如下:

98eacb2b4971437f2fe05f17f08c53fe.png

通过修改self.tools来调整模型的使用数量,便可以节省显存。

案例研究


此外,论文还分析了在各个模块,如果Prompt Manager的设计不到位,会各自出现什么问题。

比如,对于工具包的描述,需要对其名字、功能、输入输出有严格的设计。不过举例影响不大,只要描述清楚,ChatGPT便可以理解。

005bb159fefc589e93e86f24ffe94db8.png

另外,在M(P)中,不强调对图片文件名的敏感,没有严格的思考链格式、不强调可靠性、还有可以使用链式使用工具,模型在输出时就会产生错误。

论文中,作者也指出了当前Visual ChatGPT存在的一些局限。

比如,需要大量的提示来将VFMs转换成语言,实时能力有限、token长度有限制等等。

作者介绍


论文一作吴晨飞,高级研究员,2020年加入微软亚洲研究院自然语言计算组,研究领域为多模型的预训练、理解和生成。

ec91cb672a025e4c562c5a278a6e6a93.png

通讯作者段楠,微软亚洲研究院首席研究员及自然语言计算组研究经理,中国科学技术大学兼职博导,天津大学兼职教授,研究领域为自然语言处理、代码智能、多模态智能和机器推理等。

2b289444ff55af9a0d751100854212b9.png

Visual ChatGPT的横空出世,让ChatGPT聊天更加丝滑了。

525aa9eea8b8812aea8129d3aa1f698b.png

有网友预测,这个功能会迅速集成到新必应中,可能作为付费服务,让日常消费者更接近与「人类」的对话……

也有网友说,这个应用简直堪比早期的智能手机,相当于人们早期的应用程序开发。可以想象,它们最终的使用范围会比最初设想的要广泛得多。

下一步,没准儿ChatGPT生成视频指日可待了。

参考资料:

https://arxiv.org/abs/2303.04671

https://www.reddit.com/r/MachineLearning/comments/11mlwty/r_visual_chatgpt_talking_drawing_and_editing_with/

ce76256343b6aa31979119de810083f6.png

一起“赞”三连


http://chatgpt.dhexx.cn/article/JMEDORP2.shtml

相关文章

ChatYuan元语AI: 类似ChatGPT功能型对话大模型 部署实践

个人使用感受 1.中英翻译超越了翻译软件,变成本地翻译最好软件了,回答英文时 有时单词之间没有空格 2.中文对话能基本理解意图,回答时会出现搜索式回答.相关内容,照抄网页相关内容原封不动显示出来,不精简提炼 3.不会做数学,简单23都不会 ,不然会更加强大 ChatYuan元语AI 元…

四天工作制究竟香不香;复旦发布类ChatGPT模型Moss;苹果上新348元省电保护膜 | EA周报...

EA周报 2023年2月24日 每个星期1分钟,元宝带你喝一杯IT人的浓缩咖啡,了解天下事、掌握IT核心技术。 周报看点 1、周鸿祎:ChatGPT可能两三年内就会产生自我意识威胁人类 2、余承东:华为没有必要下场造车,问界不会涉及 2…

ChatGPT fine tune微调+prompt介绍

目录 1 如何使用ChatGPT1.1 图片生成 (image generation)1.2 对话(chat)1.3 中文纠错 (Chinese Spelling Correct)1.4 关键词提取 (keyword extract)1.5 抽取文本向量 (Embedding)1.6 微调 (fine tune) 2 如何写好prompt2.1分类任务2.2 归纳总结3.3 翻译2.4 API接口…

ChatGPT的平替来了?一文总结 ChatGPT 的开源平替,你值得拥有

文章目录 【AIGC精选】总结 ChatGPT 的开源平替,你值得拥有1.斯坦福发布 Alpaca 7B,性能匹敌 GPT-3.52.弥补斯坦福 Alpaca 中文短板,中文大模型 BELLE 开源3.国产AI大模型 ChatGLM-6B 开启内测4.中文 Alpaca 模型 Luotuo 开源5. ChatGPT 最强…

分享一个苹果Siri接入ChatGPT的方法,让你的Siri更智能

今天我给大家分享一个苹果Siri接入ChatGPT的方法,让你的Siri更智能; 方法很简单,只需要几步: 1、只需添加一个快捷指令 2、在唤醒Siri后,说出指令名称即可 3、Hey Siri 智能助手,我在 4、长按指令可以…

【ChatGPT】多国“围堵”,万人抵制,AI发展的红线到底在哪?

个人主页:【😊个人主页】 文章目录 前言Chatgpt💻💻💻多国拟发ChatGPT禁令🈲🈲🈲开端发展高潮 联名抵制自我辩解🎛️🎛️🎛️名家争言比尔盖茨&am…

ChatGPT或要推出APP,OpenAI官宣为ChatGPT招募移动端开发工程师

文 | 兔子酱 OpenAI官方招聘页面放出了英雄帖,他们正在为ChatGPT招聘移动端工程师: 传送门: https://openai.com/careers/mobile-engineering-manager-chatgpt 其中,跨iOS和Android的工程主管年薪为20至37万美元,总薪酬还包括慷慨…

把ChatGPT的所有插件整理成中文后!真要说卧槽了..

大家好,我是五竹。 ChatGPT如约向用户开放了联网功能和众多插件,五竹从上周开始满怀着热情等待着,看别人的测评效果都快把我羡慕哭了。最终等来的却是Plus账号给封了,而且至今也没有续上,只能说非常无奈。算了&#x…

【回眸】ChatGPT Plus(GPT4体验卡)

前言 没忍住诱惑,开了个GPT4.0的会员,给大家表演一波 开通成功 开始问问题 写一个CNN疲劳驾驶监测代码,要求{使用Python语言,使用包,能成功运行,需要调用电脑摄像头,要求GUI界面有一些参数…

手把手教你做一个 ChatGPT !丝滑小白版,只需一张单卡 GPU,轻松开启个性化训练!...

大家好,我是贺同学。 一直以来密切关注 ChatGPT 的趋势,最近相关的话题可谓是热度不减,虽然从事互联网行业,但一直对 LLM 相关领域关注较少。 最近的 ChatGPT 的火热,让我对 LLM 相关开源社区也关注了起来,…

Python+ChatGPT实战之进行游戏运营数据分析

文章目录 一、数据二、目标三、解决方案1. DAU2. 用户等级分布3. 付费率4. 收入情况5. 付费用户的ARPU 最近ChatGPT蛮火的,今天试着让ta写了一篇数据分析实战案例,大家来评价一下! 一、数据 您的团队已经为您提供了一些游戏数据,…

使用ChatGPT实现可视化操作扫雷小游戏 【java代码实现】

代码 package com.atguigu.java4;/*** author zyz* version 1.0* data 2023/2/20 14:55* Description:*/import javax.swing.*; import java.awt.*; import java.awt.event.ActionEvent; import java.awt.event.ActionListener; import java.util.Random;class MineSweeper ex…

ChatGPT惊人语录大赏

作者 | 智商掉了一地 编辑 | 夕小瑶的卖萌屋 点击下方卡片,关注“自动驾驶之心”公众号 ADAS巨卷干货,即可获取 点击进入→自动驾驶之心【全栈算法】技术交流群 这几天ChatGPT实在太火了,笔者的朋友圈已经被ChatGPT的各种金句刷屏了&#xff…

ChatGPT实现游戏 NPC 对话

游戏 NPC 对话 玩游戏的一个必要过程,就是和 NPC 对话,领取任务,获取线索。有趣的游戏,会根据用户和 NPC 交流时的不同选择,触发不同剧情走向。甚至多个 NPC 之间还能有罕见的隐藏剧情,等待用户发掘。可以…

ChatGPT使用Java编写猜数游戏

目录 使用ChatGPT编写的代码如下 存在的问题 改进的Java代码 猜数游戏相信很多学编程的同学都听说过,在学习循环的那一节的课后作业相信就有这个题目,正好现在ChatGPT正火的时候,我也尝试了让它写一下这个代码,很遗憾&#xff0…

调戏chatGPT(一)玩个猜数字游戏

最近chatGPT火得不要不要的,本着热情拥抱新生事物的原则,我也去测试了一下,发现这货果然很智能,我们是不是已经处在AI技术革命性突破的前夜了呢。 chatGPT的功能远远不止聊天,所以我用一个专栏来展示一下,…

ChatGPT 设计游戏剧情 | 基于 AI 5 天创建一个农场游戏,完结篇!

欢迎使用 AI 进行游戏开发! 在本系列中,我们将使用 AI 工具在 5 天内创建一个功能完备的农场游戏。到本系列结束时,您将了解到如何将多种 AI 工具整合到游戏开发流程中。本文将向您展示如何将 AI 工具用于: 美术风格 游戏设计 3D 素材 2D …

ChatGPT设计的游戏火了!玩法代码一力搞定,自称「原创」却被指:抄袭了

鱼羊 发自 凹非寺量子位 | 公众号 QbitAI ChatGPT,现在多了一重“游戏制作人”的身份。 不仅游戏玩法由它设计,连游戏代码和网页,也全部由ChatGPT搞定。 游戏界面长这样: ChatGPT还亲自给这个小游戏取了个名字:Sumplet…

用ChatGPT做一款二次元卡牌游戏!完成度超90%,即将开放源码!

1.0 游戏策划设计 孙二喵,继上次借助ChatGPT做了一个3D小游戏后,很多朋友问,AI可以做大型项目么?还是仅限于简单的小游戏。 *AI生成的3D小游戏 所以二喵准备接着用 AI 设计一款中型体量的卡牌游戏,发布到微信小游戏和海…

【广州华锐互动】ChatGpt在元宇宙游戏领域有哪些应用场景?

游戏已经成为了许多人的娱乐方式。然而,如何提高游戏体验仍然是一个关键的问题。这里,我们介绍一种新型的技术:ChatGpt。 ChatGpt是一种基于自然语言处理的人工智能技术,可以帮助游戏开发人员制作出更加智能的游戏。它可以在元宇宙…