Chatgpt论文笔记——MiNiGPT4解读

article/2024/12/31 1:46:10

前言

代码地址:https://github.com/Vision-CAIR/MiniGPT-4

摘要

在这里插入图片描述
摘要写的就很简单了,标黄的是重点,可以看到这个方法很简单,就是拿了一个视觉的encoder(Blip-2)以及拿了一个文本的encoder(Vicuna),最后外加上一个projection层就构成了MiniGPT4,并且在训练的时候视觉和文本的encoder都是冻结参数的,所以相当于只是拿视觉和文本的编码器来用,训练只训外加的projection层。

方法

在这里插入图片描述
方法就是说了视觉编码器用的Blip-2,他是由vit+q-former构成的。文本用的是vicuna,基于LLaMA设计的。就当作文本和图像的backbone就好了,具体细节可以不看,基本就是transformer的结构。
然后就介绍了训练的细节,训练分了两个阶段,第一阶段预训练用的是500w的图文对训模型,并且视觉和文本的encoder都是冻结参数的,第二阶段用精修的数据集3500条图文对精调模型参数。

第一阶段预训练

在这里插入图片描述
没啥可说的,介绍了下训练的参数,用了4张A100训500w图文对的数据,训了10个小时。第一阶段训练完作者测试模型发现模型生成的文本有很多重复的,不完整的,没有逻辑的句子,对人类来说阅读是十分不友好的,所以有了第二阶段的精调。

第二阶段训练

数据构建

第二阶段的主要目的是用高质量的图文对数据来消除视觉和语言的领域差异,通俗点说就是让模型说的话更加的人类可读。
构建精修数据集的具体做法如下:

  • 一:从Conceptual Caption dataset随机选择了5000个数据
  • 二:用一阶段训练的模型对这些数据做提问生成答案。
    • 提问的prompt:###Human: Describe this image in detail. Give as many details as possible. Say everything you see. ###Assistant:
    • 如果回答的内容少于80个单词(论文写的token感觉应该差不多意思),就追问,追问的prompt是:###Human: Continue ###Assistant:
    • 然后拼接得到最后的回答,这个回答是详细的图像的描述。
  • 三:这样生成的描述还是存在噪声以及错误的回答(重复的回答,不连贯的回答),接下来用chatgpt来修正这些回答:
    • 输入给chatgpt的提示词为:Fix the error in the given paragraph. Remove any repeating sentences, meaningless characters, not English sentences, and so on. Remove unnecessary repetition. Rewrite any incomplete sentences. Return directly the results without explanation. Return directly the input paragraph if it is already correct without explanation.
  • 四:人工验证图像描述的正确性并且有些chatgpt无法检测的冗余句子也人工修正。最后从5000里面精挑了3500条。

fintune

在这里插入图片描述
finetune就比较简单了,拿3500条精修的数据直接finetune就好了,输入的模版是###Human: ###Assistant:
训练的机器是一张A100,batch size12,跑了400个step。

最后

MiNiGPT4安装记录:MiNiGPT4安装记录


http://chatgpt.dhexx.cn/article/kIAEMVCj.shtml

相关文章

Visual ChatGPT论文阅读笔记

Visual ChatGPT论文阅读 做笔记的目的介绍论文贡献Visual ChatGPT总体框架总体流程 实验限制总结 做笔记的目的 1、读完了论文,做一下笔记让自己别忘的那么快 2、蹭一波热度(好像有点晚了) 3、这是第一次看纯工程论文,所以做一下…

ChatGPT论文润色

好像确实不会记住内容 参考文献十分不靠谱 链接1进去 链接2进去

chatgpt论文 chatgpt写论文

ChatGPT作品展示: 当代青少年的生活离不开自媒体,自媒体对当代青少年的影响是巨大的。首先,自媒体为当代青少年提供了一个展示自我的平台,让他们可以更好地表达自己的想法和感受,更好地展示自己的才华和能力&#xff0…

使用ChatGPT帮我们写一篇论文,最后查重的重复率会是多少?

使用ChatGPT帮我们写一篇论文,最后查重的重复率会是多少? ChatGpt一经发布就大火,迅速应用在各个领域,尤其在程序圈自动帮我们写代码着实是圈了一大波粉。那么它用在科研领域会出现怎样的效果呢,当我们写论文纠结几个…

如何用ChatGPT辅助写论文

ChatGPT先进功能创造了巨大的需求,该AI工具在推出后的两个月内就积累了超过1亿用户。最突出的功能之一是它能够在几秒钟内编写各种文本,包括歌曲、诗歌、睡前故事和散文。 但是ChatGPT可以做的不仅仅是写一篇文章。更有用的是它如何帮助指导写作过程。今…

【ChatGPT】ChatGPT 原理全解析——读完这10篇论文,你就懂了。

2022年11月,OpenAI推出人工智能聊天原型ChatGPT,再次赚足眼球,为AI界引发了类似AIGC让艺术家失业的大讨论。 ChatGPT 是一种专注于对话生成的语言模型。它能够根据用户的文本输入,产生相应的智能回答。这个回答可以是简短的词语,也可以是长篇大论。其中 GPT 是 Generativ…

建议收藏:超详细ChatGPT(GPT 4.0)论文润色指南+最全提示词/咒语

在这篇文章中,我将分享如何利用ChatGPT 4.0辅助论文写作的技巧,并根据网上的资料和最新的研究补充更多好用的咒语技巧。 本篇文章持续更新,祝大家写作顺利,如果对你有帮助,记得三连! 欢迎大家在评论区补充…

ChatGPT评测

总结:ChatGPT很强大,用作学术方面的问答或者软件行业的辅助工具是有一定的作用,但是有些回答设置了限制,并且中文回答方面总是回答一半,需要一直让他继续说,篇幅不是很长,但是往往能说道精髓&am…

解析ChatGPT背后的工作原理

ChatGPT 是 OpenAI 发布的最新语言模型,比其前身 GPT-3 有显著提升。与许多大型语言模型类似,ChatGPT 能以不同样式、不同目的生成文本,并且在准确度、叙述细节和上下文连贯性上具有更优的表现。它代表了 OpenAI 最新一代的大型语言模型&…

最近大火的chatGPT是什么?它是怎样聊天的?

ChatGPT是一款革命性的聊天机器人软件, ChatGPT( ChatGPT AI,聊天机器人欢迎您!)的核心功能是自动回复,可以根据客户的输入自动生成回复,从而提高客户服务的效率。还可以根据客户的输入自动生成…

ChatGPT 背后的经济账

拿投资和赚钱之前,要先去了解下成本。 来源:OneFlow 原文地址:https://sunyan.substack.com/p/the-economics-of-large-language-models 作者:Sunyan 翻译:杨婷、徐佳渝、贾川 原标题:ChatGPT 背后的经济账…

ChatGPT,背后的核心是什么?

来源:远川科技评论 作者:钟靖怡 马冰莹 编辑:董指导 2022年12月份的时候,ChatGPT还只是个被人各种撩的聊天工具。但进入2023年后,已经向着效率工具迈进了。 微软宣布正和ChatGPT开发团队OpenAI进行洽谈,投资…

最近大火的ChatGpt,到底给我们带来了哪些改变?

我相信最近大家都有听说这个ChatGpt了吧! 即使没有听说过也没有关系,我来给大家掰扯掰扯。 OpenAI公司推出了一款名为ChatGPT的人工智能聊天机器人,该技术通过利用大量训练数据,实现了人类般的自然语言处理能力,并能…

探索ChatGPT背后的网络基础设施

ChatGPT是OpenAI公司开发的一款聊天机器人应用,自2022年11月推出以来以迅雷不及掩耳盗铃之势火爆全球。ChatGPT不仅可以模仿人类对话,还可以创建音乐、电视剧、童话故事和学生论文,甚至是编写和调试计算机程序。 截至2023年1月,C…

Stable Diffusion、ChatGPT爆火的背后!

整编 | Carol 参考 |《AIGC 发展趋势报告 2023》 出品 | AI科技大本营 “Generative AI(生成式AI)有什么社会价值?” 当腾讯研究院的研究员将上面这个问题输入到ChatGPT中,得到如下回复: "生成式AI是一种人工智能…

ChatGPT最近大火?教你实现破产版ChatGPT(一)数据预处理

目录 一.前言 二.下载数据文件 三.导包并设置使用GPU 四.加载和预处理数据 五.为模型准备数据 一.前言 最近ChatGPT大火,成功破圈,到底是个啥? 简单说,它是一个模型,一个语言模型!它是以对话方式与人进…

爆火的ChatGPT 背后的大模型与大数据创新

最近,ChatGPT 迅速引爆 AIGC 领域,依托全网大数据与海量智能模型训练,一举成为 Stable Diffusion 之外的 AI 新宠。不同于过往初阶聊天机器人,这位“懂王”似乎可以取代大型搜索平台,与用户展开高质量同频对话。网友也…

ChatGPT背后有哪些关键技术?CSIG企业行带你一探究竟

目录 1 ChatGPT的时代2 CSIG企业行3 议题&嘉宾介绍3.1 对生成式人工智能的思考3.2 对话式大型语言模型研究3.3 文档图像处理中的底层视觉技术 4 观看入口 1 ChatGPT的时代 2015年,马斯克、美国创业孵化器Y Combinator总裁阿尔特曼、全球在线支付平台PayPal联合…

ChatGPT背后的模型三兄弟

ChatGPT作为最接近强人工智能的系统,具有强大的信息理解和信息抽象总结能力,在这个信息过剩的时代,为我们提供了一个非常好的智能辅助工具。在我们日常的工作中,怎么充分的利用ChatGPT等类似的智能系统,会给我们生活和…

ChatGPT火爆,背后的核心到底是什么?

点击上方“小麦大叔”,选择“置顶/星标公众号” 福利干货,第一时间送达 2022年12月份的时候,ChatGPT还只是个被人各种撩的聊天工具。但进入2023年后,已经向着效率工具迈进了。 微软宣布正和ChatGPT开发团队OpenAI进行洽谈&#xf…