教ChatGPT学会看图的方法来了

article/2025/4/22 2:13:12
羿阁 发自 凹非寺
量子位 | 公众号 QbitAI

2022年流行“文生图”模型,那2023年流行什么?

机器学习工程师Daniel Bourke的答案是:反过来!

这不,一个最新发布的“图生文”模型在网上爆火,其优秀的效果引发众多网友纷纷转发、点赞。

d02ac5f841d30697f27edd75cd49d086.png

不仅是基础的“看图说话”功能,写情诗讲解剧情给图片中对象设计对话等等,这个AI都拿捏得稳稳的!

比如,当你在网上刷到诱人的美食时,只需把图片发给它,它就会立马识别出需要的食材做菜步骤

82073b9da866e9ecbb3cd835d5de2b3d.png

甚至图片中的一些列文虎克的细节也能“看”得清清楚楚。

当被问到如何才能从图片中倒着的房子里离开,AI的回答是:侧面不是有滑梯嘛!

a05793c14e7a89006d6462cad2316aa9.png

这只新AI名为BLIP-2 (Bootstrapping Language-Image Pre-training 2),目前代码已开源。

最重要的是,和以前的研究不同,BLIP-2使用的是一种通用的预训练框架,因此可以任意对接自己的语言模型

有网友已经在畅想把接口换成ChatGPT后的强强组合了。

25152f742774c92714f97c31a812e0ee.png

作者之一Steven Hoi更是放话:BLIP-2未来就是“多模态版ChatGPT”。

f766e4a7ed0d1d7074bf185559e2d001.png

那么,BLIP-2神奇的地方还有哪些?一起往下看。

理解能力一流

BLIP-2的玩法可以说非常多样了。

只需提供一张图片,你就可以与它对话,让它看图讲故事、推理、生成个性化文本等各种要求都能满足。

举个例子,BLIP-2不仅能轻松识别图片中的景点是长城,还能介绍出长城的历史:

中国的长城是公元前221年秦始皇为了保护帝都不受北方侵略而建造的。

22f9452e8f69a711268bdc2eb72fe9ce.png

给它一张电影剧照,BLIP-2不光知道出自哪,还知道故事的结局是be:泰坦尼克号沉没,男主淹死。

6116cc06747f54b5df92a5112dfd6202.png

在对人类神态的拿捏上,BLIP-2同样把握得非常准确。

被问到这张图片中的男人是什么表情,他为什么这样时,BLIP-2的回答是:他害怕那只鸡,因为它正朝他飞来。

5276b8d490c531bf3451890f3982a13d.png

更神奇的是,在许多开放性问题上,BLIP-2的表现也很出色。

让它根据下面的图片写一句浪漫的话:

a439f7c5a3e3934104c518f5635a8b59.png

它的回答是这样的:爱情就像日落,很难预见它的到来,但当它发生时,它是如此的美丽。

c465e9f22f827bec0e3328801e98e58a.png

这不光理解能力满分,文学造诣也相当强啊!

da4d1685928d3b7fb4ad8afe74e820bc.png

让它给图片中的两只动物生成一段对话,BLIP-2也能轻松拿捏傲娇猫猫x蠢萌狗狗的设定:

猫: 嘿,狗狗,我能骑在你背上吗?

狗: 当然,为什么不呢?

猫: 我已经厌倦了在雪地里行走。

badab86a761afc8f90ae3302ff14d260.png

那么,如此强大的理解能力背后,BLIP-2究竟是怎么做到的?

多项视觉语言任务上实现新SOTA

考虑到大规模模型的端到端训练成本越来越高,BLIP-2使用的是一种通用且高效的预训练策略:

从现成的冻结预训练图像编码器和冻结的大型语言模型中引导视觉语言预训练。

这也意味着,每个人都可以选择自己想用的模型接入使用。

而为了弥补了模态之间的差距,研究者提出了一个轻量级的查询Transformer。

该Transformer分两个阶段进行预训练:

第一阶段从冻结图像编码器引导视觉语言表示学习,第二阶段将视觉从冻结的语言模型引导到语言生成学习。

63b4432b4dec76e5010e29970d1c96e2.png

为了测试BLIP-2的性能,研究人员分别从零样本图像-文本生成、视觉问答、图像-文本检索、图像字幕任务上对其进行了评估。

最终结果显示,BLIP-2在多项视觉语言任务上都实现了SOTA。

c6d3576b5face12b5d6470101cc66ce3.png

其中,BLIP-2在zero-shot VQAv2上比Flamingo 80B高8.7%,且训练参数还减少了54倍。

而且显而易见的是,更强的图像编码器或更强的语言模型都会产生更好的性能。

f74af5074c25180327c9293cefd2e1b2.png

值得一提的是,研究者在论文最后也提到,BLIP-2还存在一个不足,那就是缺乏上下文学习能力:

每个样本只包含一个图像-文本对,目前还无法学习单个序列中多个图像-文本对之间的相关性。

研究团队

BLIP-2的研究团队来自Salesforce Research。

6b5b31fdb5fd318321b63a039bcfd6ef.png

第一作者为Junnan Li,他也是一年前推出的BLIP的一作。

目前是Salesforce亚洲研究院高级研究科学家。本科毕业于香港大学,博士毕业于新加坡国立大学。

研究领域很广泛,包括自我监督学习、半监督学习、弱监督学习、视觉-语言。

以下是BLIP-2的论文链接和GitHub链接,感兴趣的小伙伴们可以自取~

论文链接:
https://arxiv.org/pdf/2301.12597.pdf

GitHub链接:
https://github.com/salesforce/LAVIS/tree/main/projects/blip2

参考链接:
[1]https://twitter.com/mrdbourke/status/1620353263651688448
[2]https://twitter.com/LiJunnan0409/status/1620259379223343107

「人工智能」、「智能汽车」微信社群邀你加入!

欢迎关注人工智能、智能汽车的小伙伴们加入交流群,与AI从业者交流、切磋,不错过最新行业发展&技术进展。

PS. 加好友请务必备注您的姓名-公司-职位噢 ~

246711af54d448f475f6576a6ab6fb9c.jpeg

点这里👇关注我,记得标星哦~


http://chatgpt.dhexx.cn/article/IkSSdIof.shtml

相关文章

当ChatGPT遇上StableDiffusion ChatGPT指导StableDiffusion绘画

ChatGPT指导StableDiffusion 前言开始使用场景1:繁华的街道场景2:桥上的女生 项目及教程地址,附GPT访问地址安装教程及安装包地址:点我下载开源项目:点我下载GPT访问地址,点我访问 前言 Stable Diffusion …

ChatGPT 拓展资料:Stable Diffusion:零基础学会 AI 绘画

ChatGPT 拓展资料:Stable Diffusion:零基础学会 AI 绘画

怎么使用ChatGPT 和 Midjourney 绘画,让ChatGPT教你绘画

最近一直在探索如何让ChatGpt来写绘画的关键词,把ChatGpt给的答案直接出图都相当不错。 那如何让ChatGpt辅助力AI绘画呢? 一、给主题让ChatGPT描述 上面给了一个简易主题演示一下,这是完全我没有细化的提问,然后把直接把这些关键…

ChatGPT(小程序版)- 可AI绘画、内置各种功能

chatGP在网络上可是出了名的火爆,无论是圈内还是圈外的人,都希望能尝试一下,不过因为没有办法在中国注册,所以门槛拦住了一大半人的使用。 再加上近来大量的 GPT头衔被封,人们在用它的时候,都会感到有心无力…

如何利用ChatGPT画图,无需插件,原生ChatGPT,实测有效

ChatGPT 很智能,很聪明。但是它被困在了互联网里,只能通过网页上的文字,和我们交流。 就像历史上的一个个有趣的灵魂,我们只能通过书中的文字和故事,才能领会到他们的千古风流。 纯文字的方式,还是太单…

【社区图书馆】读《一本书读懂AIGC:ChatGPT、AI绘画、智能文明与生产力变革》所感

文章目录 《一本书读懂AIGC:ChatGPT、AI绘画、智能文明与生产力变革》目录作者简介我的体会: AI带来的挑战和机遇是不可避免的 《一本书读懂AIGC:ChatGPT、AI绘画、智能文明与生产力变革》 作者:a15a 著 贾雪丽 0xAres 张炯 主编 …

chatGPT+Midjourney制作绘画本

chatGPTMidjourney制作绘画本 灵感来源:https://www.bilibili.com/video/BV1N24y1F7ga/?spm_id_from888.80997.embed_other.whitelist&vd_source6dd97671c42eb7cf111063714216bd0b 最终效果: 绘本故事 故事塑造能力弱的人可以使用chatGPT来帮助编…

最新ChatGPT网站源码运营版+支持ai绘画+GPT4.0

1.网站系统源码介绍: 2023最新ChatGPT网站源码支持ChatGPT4.0支持Midjourney绘画用户会员套餐用户每日签到领取后台管理一键更新版本,支持手机电脑不同布局页面自适应。 ChatGPT提问: ChatGPT-AI付费创作系统: 如果后续程序有…

ChatGPT科研绘图(基于python)【chatgpt使用指南-python绘图】

🥑 Welcome to Aedream同学 s blog! 🥑 文章目录 背景chatgpt操作结果 chatgpt可以通过编写Python、matlab等代码实现绘图功能。经过试验,其中以Python最为高效准确,基本不会出现报错。本文以Python绘图为例进行辅助绘图&#xff…

快!体验文心一言;ChatGPT关键词优化指南;Midjourney从入门到精通;AI绘画资料合集;Midjourney v5效果相当不错 | ShowMeAI日报

👀日报合辑 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 🤖 『文心一言』没邀请码?这个方式能跟「文心一言」聊天! 文心一言正式发布,普通的对话效果好于预期&#xff0…

从 AI 绘画到 ChatGPT,聊聊生成式 AI

我们小时候经常有幻想,未来不用再去上班了,在工厂工作的都是机器人。在家也不用打扫卫生,机器人可以包揽一切。不知不觉间,我们小时候的幻想已经慢慢变成现实,工厂里有了多种型号的机械臂,代替了部分流水线…

数画自研chatgpt,imagegpt人工智能语言技术,颠覆对AI绘画的认知

2023年1月1日,数画AI绘画又爆火了,这一次是数画团队自研了chatGPTimageGPT人工智能技术,值得人们注意的是,并非引用海外的openAI人工智能语言模型,而是完全自研首发的国产人工智能技术,数画团队来自于温州专…

无聊写个 chatgpt 玩玩!这不得试一试 openai 的聊天和绘画功能

chatgpt 最近很火。使用 chatgpt 问一些问题还是很有用的。比如面试题,面试题的答案。简直不要太爽。 不过闲来无事,也使用 openai 提供的api ,写了几个小页面,可以进行聊天,和绘画。 项目放在 github 上了&#xff…

ChatGPT与AI绘画,该上车了!

前几天的GPT-4发布会,大家都看了吗? ChatGPT有多么火爆多么强大?相信不需要再做解释,网上的各界精英早就讨论过无数次了。 自然语言处理工具这一新赛道,国内的同行也在积极参与,百度刚刚开了发布会&#xf…

用ChatGPT优化AI绘画提示词的探索

注:本文中的AI绘画模型为Stable Diffusion 2.0,平台工具采用白海科技涌现AIGC引擎. 用ChatGPT优化AI绘画提示词的探索 这是一篇关于如何使用ChatGPT优化文生图提示词的简短经验说明。 自ChatGPT发布以来,大家已经探索了ChatGPT的各种各样的使…

让ChatGPT教你AI绘画|如何将ChatGPT与Midjourney结合使用,赶紧实践起来

转载 近期最火的人工智能应用莫过于ChatGpt了,上架短短3个月就已经有几个亿的用户了。反反复复地体验ChatGpt近一个月,感受就两个字​:牛批​! 简单介绍一下什么是Chatgpt,算了让它自己介绍自己吧 回答的还行吧​&a…

【ChatGPT】通过 ChatGPT 用文字描述来绘制插画

点击上方“独立开发者杂谈” 喜欢本文,请置顶或星标 使用文字描述绘制插画具有以下好处 无需绘画技巧,体验与AI结合,创意灵活性,节省时间。 使用 Figma 工具 Figma (https://www.figma.com)是一款流行的设计…

ChatGPT辅助AI绘画攻略

AI工具一定是近期设计圈爆火的话题,ChatGPT和Midjourney这两款工具不知道大家都体验过没有? 如果你是一个懒惰的艺术家,又或者作为设计师的你今天脑海里没有任何画面的情况下,那么ChatGPT和Midjourney这两款工具可以帮你解决&…

如何使用ChatGPT辅助AI绘画?

如何使用ChatGPT辅助AI绘画? AI自动化内容生成(AIGC)是一种利用人工智能技术生成新内容的方法。它可以快速、自动、准确地从大量原始数据中生成新内容,大大提高了内容创作效率。AIGC 使用机器学习算法,自动识别文本特…

支持绘画-教你部署一个属于自己的chatgpt网站-收费版(源码)

废话不多少,上截图源码 支持绘画 前端页面 后端管理 源码下载链接: https://wwhj.lanzoue.com/b04jyfwza 密码:3csb