Visual ChatGPT论文阅读笔记

article/2024/12/22 9:32:25

Visual ChatGPT论文阅读

  • 做笔记的目的
  • 介绍
  • 论文贡献
  • Visual ChatGPT
    • 总体框架
    • 总体流程
  • 实验
  • 限制
  • 总结

做笔记的目的

1、读完了论文,做一下笔记让自己别忘的那么快
2、蹭一波热度(好像有点晚了)
3、这是第一次看纯工程论文,所以做一下笔记

介绍

大的自然语言模型,在自然语言处理任务上展现出了强大的能力,但难以处理视觉任务。同时大的视觉模型在特定的任务上表现的非常好,但受限于输入输出格式等等不如语言模型一样灵活。对于如何让ChatGPT支持多模态聊天这个问题,比较直观的想法是训练一个多模态聊天模型,但是这样做需要耗费大量的数据和计算资源,同时可拓展性也不高。因此作者从Prompt工程出发,构建了Visual ChatGPT,将ChatGPT和22个视觉模型一起包在一个壳里面,组成了Visual ChatGPT。

论文贡献

  1. We propose Visual ChatGPT, which opens the door of combining ChatGPT and Visual Foundation Models and enables ChatGPT to handle complex visual tasks;
  2. We design a Prompt Manager, in which we involve 22 different VFMs and define the internal correlation among them for better interaction and combination;
  3. Massive zero-shot experiments are conducted and abundant cases are shown to verify the understanding and generation ability of Visual ChatGPT.

Visual ChatGPT

总体框架

Prompt Manager
整体框架如上图所示,就是在query输入ChatGPT之前添加一些Prompt来让ChatGPT能够知道要掉用什么模型。
首先输入的是系统准则P,主要包括:

  1. 系统是Visual ChatGPT能够调用很多视觉模型
  2. Visual ChatGPT对文件命名非常严格(帮助系统区分图片文件)
  3. 定义推理格式
  4. 忠于图片内容不乱扯
  5. Chain-of-Thought,让模型能够连续处理视觉问题
    **

M(F)是关于视觉模型的描述:
1.名字
2.用法
3.输入输出格式

大概的样子长这样
在这里插入图片描述
M(Q)是对query进行处理:

  1. 产生唯一的文件名(帮助ChatGPT根据名字区分不同图片)
  2. 让Visual ChatGPT强制思考需不需要调用VFM

M ( F ( A i ( j ) ) ) M(F(A_i^{(j)})) M(F(Ai(j)))是对模型返回的结果进行处理
1.首先是定义了链式命名(让模型知道这个图片由哪张图片变过来,做了什么,可以让模型知道还需不需要调用VFM)
2.Call for more VFMs,让Visual ChatGPT自动的调用更多的VFM,来完成多个视觉相关指令。

总体流程

在这里插入图片描述
每次输入的P和F是相同的,历史对话是直接加进去和历史reasoning都是直接加进去的。当输入 Q 2 Q_2 Q2时由于还没有进行推理,也没有调用语言模型所以 R 2 ( < 1 ) R_2^{(<1)} R2(<1) A 2 1 A_2^{1} A21都等于 ϕ \phi ϕ。将Prompt输入ChatGPT输出,判断输出的内容是需要调用模型,并且ChatGPT会自动将要调用的模型名字和输入输出的样式给出,之后自动化调用VFM就可以。完成第一次后,更新 R 2 ( < 1 ) R_2^{(<1)} R2(<1) A 2 1 A_2^{1} A21,在输入到ChatGPT中,第二次也需要调用VFM,因此重复上面的步骤。当ChatGPT判断不需要VFM的时候就输出结果,一次Visual ChatGPT的调用就结束了。可以看到一次Visual ChatGPT的调用可能涉及多次ChatGPT的调用。

实验

使用的ChatGPT模型是“text-davinci-003“,使用的视觉模型是从HuggingFace Transformers,Maskformer 和ControlNet 上收集的。
实验主要是验证了总体框架中的每个部分都不少,不然Visual ChatGPT可能工作的不是很好。下面是Visual ChatGPT的对话实例:
在这里插入图片描述
下面这张图证明了P的每一个部分都很有必要
在这里插入图片描述
下面这张图证明了M(F)的名字、用处、输入输出格式很重要,样例可有可无;
在这里插入图片描述
下面这种图证明了剩下的部分设计的很有必要
在这里插入图片描述

限制

  1. Dependence on ChatGPT and VFMs 模型的效果依赖于ChatGPT模型效果和VFMs模型的效果
  2. Heavy Prompt Engineering 需要大量的Prompt工作
  3. Limited Real-time Capabilities 由于ChatGPT没有实时能力,Visual ChatGPT当然也没有这个能力
  4. Token Length Limitation ChatGPT的token限制让这个系统不能无限制的加入模型,同时由于输入了很多Prompt,可能query并不能很长。
  5. Security and Privacy 可能有隐私问题

总结

在这项工作中,我们提出了Visual ChatGPT,这是一个集成了不同VFM的开放系统,使用户能够超越语言格式与ChatGPT进行交互。构建这样一个系统,我们精心设计了一系列提示帮助将视觉信息注入ChatGPT从而可以逐步解决复杂的视觉问题。大量实验和选定的案例已经证明Visual ChatGPT的巨大潜力和能力不同的任务。除了上述限制之外,另一个令人担忧的问题是,由于VFM的故障和促使因此,一个自校正模块对于检查执行结果与人类意图之间的一致性,并相应地做出编辑。这种自我纠正行为会导致更多模型的复杂思维,显著增加推理时间。我们将来会解决这样一个问题。


http://chatgpt.dhexx.cn/article/0q4PAJtE.shtml

相关文章

ChatGPT论文润色

好像确实不会记住内容 参考文献十分不靠谱 链接1进去 链接2进去

chatgpt论文 chatgpt写论文

ChatGPT作品展示&#xff1a; 当代青少年的生活离不开自媒体&#xff0c;自媒体对当代青少年的影响是巨大的。首先&#xff0c;自媒体为当代青少年提供了一个展示自我的平台&#xff0c;让他们可以更好地表达自己的想法和感受&#xff0c;更好地展示自己的才华和能力&#xff0…

使用ChatGPT帮我们写一篇论文,最后查重的重复率会是多少?

使用ChatGPT帮我们写一篇论文&#xff0c;最后查重的重复率会是多少&#xff1f; ChatGpt一经发布就大火&#xff0c;迅速应用在各个领域&#xff0c;尤其在程序圈自动帮我们写代码着实是圈了一大波粉。那么它用在科研领域会出现怎样的效果呢&#xff0c;当我们写论文纠结几个…

如何用ChatGPT辅助写论文

ChatGPT先进功能创造了巨大的需求&#xff0c;该AI工具在推出后的两个月内就积累了超过1亿用户。最突出的功能之一是它能够在几秒钟内编写各种文本&#xff0c;包括歌曲、诗歌、睡前故事和散文。 但是ChatGPT可以做的不仅仅是写一篇文章。更有用的是它如何帮助指导写作过程。今…

【ChatGPT】ChatGPT 原理全解析——读完这10篇论文,你就懂了。

2022年11月,OpenAI推出人工智能聊天原型ChatGPT,再次赚足眼球,为AI界引发了类似AIGC让艺术家失业的大讨论。 ChatGPT 是一种专注于对话生成的语言模型。它能够根据用户的文本输入,产生相应的智能回答。这个回答可以是简短的词语,也可以是长篇大论。其中 GPT 是 Generativ…

建议收藏:超详细ChatGPT(GPT 4.0)论文润色指南+最全提示词/咒语

在这篇文章中&#xff0c;我将分享如何利用ChatGPT 4.0辅助论文写作的技巧&#xff0c;并根据网上的资料和最新的研究补充更多好用的咒语技巧。 本篇文章持续更新&#xff0c;祝大家写作顺利&#xff0c;如果对你有帮助&#xff0c;记得三连&#xff01; 欢迎大家在评论区补充…

ChatGPT评测

总结&#xff1a;ChatGPT很强大&#xff0c;用作学术方面的问答或者软件行业的辅助工具是有一定的作用&#xff0c;但是有些回答设置了限制&#xff0c;并且中文回答方面总是回答一半&#xff0c;需要一直让他继续说&#xff0c;篇幅不是很长&#xff0c;但是往往能说道精髓&am…

解析ChatGPT背后的工作原理

ChatGPT 是 OpenAI 发布的最新语言模型&#xff0c;比其前身 GPT-3 有显著提升。与许多大型语言模型类似&#xff0c;ChatGPT 能以不同样式、不同目的生成文本&#xff0c;并且在准确度、叙述细节和上下文连贯性上具有更优的表现。它代表了 OpenAI 最新一代的大型语言模型&…

最近大火的chatGPT是什么?它是怎样聊天的?

ChatGPT是一款革命性的聊天机器人软件&#xff0c; ChatGPT&#xff08; ChatGPT AI&#xff0c;聊天机器人欢迎您&#xff01;&#xff09;的核心功能是自动回复&#xff0c;可以根据客户的输入自动生成回复&#xff0c;从而提高客户服务的效率。还可以根据客户的输入自动生成…

ChatGPT 背后的经济账

拿投资和赚钱之前&#xff0c;要先去了解下成本。 来源&#xff1a;OneFlow 原文地址&#xff1a;https://sunyan.substack.com/p/the-economics-of-large-language-models 作者&#xff1a;Sunyan 翻译&#xff1a;杨婷、徐佳渝、贾川 原标题&#xff1a;ChatGPT 背后的经济账…

ChatGPT,背后的核心是什么?

来源&#xff1a;远川科技评论 作者&#xff1a;钟靖怡 马冰莹 编辑&#xff1a;董指导 2022年12月份的时候&#xff0c;ChatGPT还只是个被人各种撩的聊天工具。但进入2023年后&#xff0c;已经向着效率工具迈进了。 微软宣布正和ChatGPT开发团队OpenAI进行洽谈&#xff0c;投资…

最近大火的ChatGpt,到底给我们带来了哪些改变?

我相信最近大家都有听说这个ChatGpt了吧&#xff01; 即使没有听说过也没有关系&#xff0c;我来给大家掰扯掰扯。 OpenAI公司推出了一款名为ChatGPT的人工智能聊天机器人&#xff0c;该技术通过利用大量训练数据&#xff0c;实现了人类般的自然语言处理能力&#xff0c;并能…

探索ChatGPT背后的网络基础设施

ChatGPT是OpenAI公司开发的一款聊天机器人应用&#xff0c;自2022年11月推出以来以迅雷不及掩耳盗铃之势火爆全球。ChatGPT不仅可以模仿人类对话&#xff0c;还可以创建音乐、电视剧、童话故事和学生论文&#xff0c;甚至是编写和调试计算机程序。 截至2023年1月&#xff0c;C…

Stable Diffusion、ChatGPT爆火的背后!

整编 | Carol 参考 |《AIGC 发展趋势报告 2023》 出品 | AI科技大本营 “Generative AI&#xff08;生成式AI&#xff09;有什么社会价值&#xff1f;” 当腾讯研究院的研究员将上面这个问题输入到ChatGPT中&#xff0c;得到如下回复&#xff1a; "生成式AI是一种人工智能…

ChatGPT最近大火?教你实现破产版ChatGPT(一)数据预处理

目录 一.前言 二.下载数据文件 三.导包并设置使用GPU 四.加载和预处理数据 五.为模型准备数据 一.前言 最近ChatGPT大火&#xff0c;成功破圈&#xff0c;到底是个啥&#xff1f; 简单说&#xff0c;它是一个模型&#xff0c;一个语言模型&#xff01;它是以对话方式与人进…

爆火的ChatGPT 背后的大模型与大数据创新

最近&#xff0c;ChatGPT 迅速引爆 AIGC 领域&#xff0c;依托全网大数据与海量智能模型训练&#xff0c;一举成为 Stable Diffusion 之外的 AI 新宠。不同于过往初阶聊天机器人&#xff0c;这位“懂王”似乎可以取代大型搜索平台&#xff0c;与用户展开高质量同频对话。网友也…

ChatGPT背后有哪些关键技术?CSIG企业行带你一探究竟

目录 1 ChatGPT的时代2 CSIG企业行3 议题&嘉宾介绍3.1 对生成式人工智能的思考3.2 对话式大型语言模型研究3.3 文档图像处理中的底层视觉技术 4 观看入口 1 ChatGPT的时代 2015年&#xff0c;马斯克、美国创业孵化器Y Combinator总裁阿尔特曼、全球在线支付平台PayPal联合…

ChatGPT背后的模型三兄弟

ChatGPT作为最接近强人工智能的系统&#xff0c;具有强大的信息理解和信息抽象总结能力&#xff0c;在这个信息过剩的时代&#xff0c;为我们提供了一个非常好的智能辅助工具。在我们日常的工作中&#xff0c;怎么充分的利用ChatGPT等类似的智能系统&#xff0c;会给我们生活和…

ChatGPT火爆,背后的核心到底是什么?

点击上方“小麦大叔”&#xff0c;选择“置顶/星标公众号” 福利干货&#xff0c;第一时间送达 2022年12月份的时候&#xff0c;ChatGPT还只是个被人各种撩的聊天工具。但进入2023年后&#xff0c;已经向着效率工具迈进了。 微软宣布正和ChatGPT开发团队OpenAI进行洽谈&#xf…

ChatGPT背后的模型

文章目录 1.RLHF方法2.ChatGPT中的RLHF方法2.1 微调模型GPT-32.2 训练奖励模型2.3 利用强化学习进一步微调语言模型 3.效果4.面临挑战5.参考 InstructGPT语言模型&#xff0c;是一个比 GPT-3 更善于遵循用户意图&#xff0c;同时使用通过我们的对齐研究开发的技术使它们更真实、…