文心一言的发布会定档3月16日,不出意外,百度创始人李彦宏、CTO王海峰将出现在北京总部的发布会现场。这是百度版ChatGPT最新的官方消息,2月7日,文心一言首次官宣,当时称,产品“3月见”。
3月如期而至,距离发布会还剩10天,各种消息烘托出期待:3月16日用户就能用上文心一言了。有心人也在围观,文心一言面世后能否达到ChatGPT的能力。
这个结果恐怕要等到文心一言产品正式向公众开放后才能评估,而《元宇宙日爆》从内部获悉,3月16日当日,公众还无法直接使用文心一言,“内测及可能的公测”之后产品才会直达用户。毕竟,谷歌、微软的同类产品翻车在前,百度有前车之鉴,以多测确保重点产品的稳妥。
文心一言长什么样?百度内部密不透风,些许信号透露,搜索引擎大概率是百度版ChatGPT最主要应用方向,“云输出"文心一言的AI能力也是百度会涉及的业务。
这些信号有文心一言底层“文心大模型”的过往应用方向可印证,而当微软将ChatGPT的模型GPT3.5语言整合进Azure的云服务后,上岗7年多的百度智能云自然会顺势“一言”。
产品封闭开发 测后才示众
一个大概率的事件是,文心一言最终以产品的形态供大众用户使用,要等到测试之后了,测试很可能会在3月16日之后,百度内部人士的说法是,“先内测,可能还有公测”。
公开消息可见,内测用户为百度文心一言的首批生态合作伙伴,主要以企事业单位为主,其中媒体机构最为庞大,包括上海报业集团旗下的澎湃新闻、四川日报报业集团下的封面新闻等超过超过160家媒体将成为百度版ChatGPT最先“尝鲜”的一批用户。
“输入文字、获得回答”的ChatGPT已经展现了文本对话型AI机器人对自然语言理解能力的提升,天天和文字打交道的媒体自然展现出对文心一言的刚需。
内测之后,可能还有公测,测试不断,足见百度对推出“国产ChatGPT”所持的谨慎且重视的态度。毕竟,谷歌和微软在抢占“对话机器人”的先机时都先后翻了车。
2月10日,在巴黎的一场活动上,谷歌展示Bard“如何向9岁小孩介绍詹姆斯·韦伯空间望远镜(JWST)的成果”时,这个机器人将2004年智利的甚大射电望远镜(VLA)的重要成果安在JWST头上,“张冠李戴”的错误结果被网友指摘不说,展示活动当天,谷歌股价下跌超7%,创下去年10月26日以来的最大日跌幅,谷歌市值瞬间蒸发1000亿美元。
“一本正经地胡说八道”也是ChatGPT存在的问题,而微软将该机器人的底层模型引入搜索引擎必应(Bing)后,不只会出现错误知识,甚至还出现了“伦理问题”。有获得体验权限的网友晒出长时间与Bing的机器人聊天称,该搜索引擎弹出了要和提问者“恋爱”甚至“劝离婚”的内容;还有记者反馈,他指出Bing机器人的错误后,遭遇了它的嘲讽,后来被不认错的Bing以“你没有好好使用我”指责了。
这两大互联网巨头的对话机器人亮相后,中国市场自然会将目光投向百度的文心一言,拿来比较、体验是一定会出现的。如此瞩目,百度要“测了再测”也就不难理解了。
至于文心一言到底长什么样,百度的内部人士称,产品一直处于封闭研发中,“估计只有李彦宏和王海峰知道了,但两人会在发布会上说什么,也没人知道。”3月16日,也就再等10天,答案将揭晓。
百度内部对文心一言的产品终态密不透风,倒是这类文本生成式的产品,百度有不少,最值得注意的是2021年年底发布的百亿级“知识增强大模型”文心ERNIE3.0。
飞桨社区成员放出的ERNIE3.0模型功能
有程序员在百度的飞桨社区中放出过ERNIE3.0在“文本理解与创作”上的效果,截图显示,该模型可实现同义改写、写作文、对对联、写小说、补全文本等功能,其中也支持自由问答,输入问题后,点击立即生成,就会获得AI的答案。
《元宇宙日爆》发现,现在在文心大模型官网上,如果你在“开放API”栏目中点击“ERNIE3.0文本理解与创作”选项时,直接弹出的是文心一言的官宣预告。这或许暗示着,ERNIE3.0身上的本事很可能将在文心一言中展现,双方的关系类似GPT-3模型与ChatGPT。
大模型露玄机 “搜索+云”追微软
ERNIE3.0模型的存在至少证明了百度在对话机器人上已有技术积累。
如果类比的话,百度的ERNIE文心大模型类似于Open AI的GPT模型,于2019年推出,从单一的自然语言理解延申到多模态,包括视觉、文档、文图、语音等,不断迭代到了3.0。
文心一言和去年8月推出的AI生图应用“文心一格”一样,名字部分直取于文心大模型,那么基于ERNIE系列,文心一言就可以在这个模型上进行泛化和性能调整。ERNIE 3.0的文本理解与创作能力也说明了这一点。按百度内部人士的说法,文心一言不是什么新鲜物种,是大模型基础上的迭代。
那么,脱胎于文心大模型的文心一言,到底是网页版的ChatGPT还是搜索引擎式的新Bing?
更大的概率会集成进搜索引擎中。
一方面,百度最为人知的产品是国人天天都要“百度一下”的搜素引擎,同类竞品中,谷歌、微软这两大巨额投入AI的公司也最先将对话机器人的模型和技术嵌入到搜索中。
此外,生成式AI和搜索引擎在技术上本身“很搭”。今年1月,百度Create AI开发者大会前夕,李彦宏表态,将基于百度自研的生成式模型升级为“生成式搜索”,“生成式AI和搜索引擎是互补关系而不是替代。”
将文心一言引入搜索引擎,对百度的大模型也有好处。要知道,ChatGPT预训练大模型的语料数据主要来自互联网的文本数据库,包括从网络文本、维基百科、文章中获取的高达570GB的数据。那么,文心一言如果接入百度搜索引擎,与用户的交互和聊天将为文心大模型提供更具数量级的自然语言模型的训练数据,这些大规模结构化、非结构化的数据将为中文版的ChatGPT提供更充分的预训练语料。
文心大模型诸多产品化
综合分析,文心一言接入百度搜索的可行性很高。而除了搜索,这个Bot可嵌入的另外一块百度基建是“云”。
ChatGPT爆火后,微软几乎将全线产品都加上了OpenAI研发的GPT 3.5模型,除了Bing和Office外,Azure云服务是其中的重头戏,微软试图通过Azure+GPT3.5的方式对外输出AI基础设施、模型和工具链,服务于想要构建应用程序的第三方。
如果说“文心一言+搜索”是面向C端的产品,那么“文心一言+云”会直取B端,这意味着商业化。
在云市场上,百度智能云已经上岗7年,在AI高需求的算法、算力上均有布局,比如位于阳泉、定兴、徐水的三个云计算中心,这些基建的存在十分必要,毕竟,国产版ChatGPT上线后,首先得“不崩”。应对有高并发需求的产品,ERNIE大模型将再次验证百度云高并发、高弹性、高精度的能力。
反观AI,百度也极其擅长将大模型的能力产品和场景化,光文心大模型,就整合出适配医疗、金融等各种具体场景的子模型,去年还搞了AI生图的文心一格。
文心一言首批生态合作伙伴已是企业云集,百度要“交朋友”,各家公司也不吝惜友情。百度内部人士透露,每天都会收到“求内测”的企业客户。ChatGPT这口鲜货,无论是主营线上业务的互联网公司,还是主打线下场景的传统企业,都跃跃欲试。海外跨境调用难,百度国产自然成了香饽饽。
C端有搜索引擎,B端有云服务,文心一言能整合的百度产品不少。发布会在即,测试将近,这个“本地媳妇”是丑是俊、能否和“外来媳妇”一拼,3月16日之后将见分晓。
你期待文心一言吗?