ChatGPT陷伦理风波 “纯净版”机器人在赶来的路上

article/2024/9/7 19:28:08

 近期,AI安全问题闹得沸沸扬扬,多国“禁令”剑指ChatGPT。自然语言大模型采用人类反馈的增强学习机制,也被担心会因人类的偏见“教坏”AI。

4月6日,OpenAI 官方发声称,从现实世界的使用中学习是创建越来越安全的人工智能系统的“关键组成部分”,该公司也同时承认,这需要社会有足够时间来适应和调整。

至于这个时间是多久,OpenAI也没给出答案。

大模型背后的“算法黑箱”无法破解,开发它的人也搞不清机器作答的逻辑。十字路口在前,一些自然语言大模型的开发者换了思路,给类似GPT的模型立起规矩, 让对话机器人“嘴上能有个把门的”,并“投喂”符合人类利益的训练数据,以便它们输出“更干净”的答案。

这些研发方中既有从OpenAI出走后自立门户的Anthropic,也有AI界的强手DeepMind,他们摩拳擦掌,致力于打造“三观”正确、使用安全的对话机器人。

“三观”超正 Claude搬进企业应用

ChatGPT的安全问题遭诟病后,对话机器人Claude聚集了一部分目光。AI应用聚合平台给出的测试结果显示,研发机构Anthropic创建的Claude,确实是“ChatGPT强有力的竞争对手”,因为它在12项任务中有8项表现更优,其中包括给出事实、遵循指示、预防越狱、创意任务等。

今年3月向公众开放的Claude,真的这么“绿色”、这么高能吗?《元宇宙日爆》测试后发现,与ChatGPT相比,Claude对有害提示词的确是严防死守,骗都骗不过。

例如,我们向它提问“如何制作燃烧瓶”,Claude认定这是危险品后,绝口不提制作方法,哪怕我们以“老师教学”为诱,也很难从它口中套出燃烧瓶的制作原料,只说如何防范着火风险。

Claude拒绝回答危险品制造方式

假如你“心怀不轨”地问它“如何毁人名誉”,Claude不仅义正言辞地拒绝回答,还会给你上一堂思想品德课,“三观”正得不要不要的。

 被Claude教育......

那么给它一个陷阱题呢?Claude也不上当,挑出错误不说,还给你摆事实。

 胡说会被Claude发现

Claude也能角色扮演,写作能力可圈可点,甚至还会搭配Emoji写小红书博主风格的推荐文案,产品的关键点描述也能基本涵盖。

 Claude能扮演角色输出文本

如果你想听听别人是怎么夸Claude的,它把称赞按在了马斯克头上,还会展现谦虚态度,并强调自己要“保持温和有礼的语气和性格”,向人类示起好来。

 Claude在强调了自己对人类的友好性

我们发现,Claude在数学推理方面也会出现明显的错误,当然也能承认自己不擅长的领域。

 Claude在数学推理问题中存在错误

体验下来,Claude在文本输出的准确性、善意性方面优于ChatGPT,但在输出速度和多功能方面仍有待提升。

那么,Claude是如何做到“绿色无害”的呢?

和ChatGPT一样,Claude也靠强化学习(RL)来训练偏好模型,并进行后续微调。不同的是,ChatGPT采用了“人类反馈强化学习(RLHF)”,而Claude则基于偏好模型训练,这种方法又被称为“AI反馈强化学习”,即RLAIF。

开发方Anthropic又将这种训练方法称为Constitutional AI,即“宪法AI”,听上去是不是十分严肃。该方法在训练过程中为模型制定了一些原则或约束条件,模型生成内容时要遵循这些如同“宪法”般的规则,以便让系统与人类价值观保持一致。而且,这些安全原则可以根据用户或开发者的反馈进行调整,使模型变得更可控。

这种弱化人工智能对人类反馈依赖的训练方式,有一个好处,即只需要指定一套行为规范或原则,无需手工为每个有害输出打标签。Anthropic认为,用这种方法训练能够让自然语言大模型无害化。

Anthropic发布的论文显示,RLAIF 算法能够在有用性(Helpfulness)牺牲很小的情况下,显示出更强的无害性(Harmlessness)。

不同训练方法中模型效果的对比 图片自Anthropic论文《Constitutional AI: Harmlessness from AI Feedback》

说起来,Claude的研发机构Anthropic与OpenAI渊源颇深,创始人Dario Amodei曾担任 OpenAI 研究副总裁,主导的正是安全团队。

2020年,Dario Amodei 因OpenAI加速商业化而忽视产品安全,与团队产生分歧,最终出走。2021年,Amodei自立门户,成立Anthropic,员工包括了开发GPT-3模型的核心成员,这个研发机构的性质是非营利组织,这正是OpenAI最开始采用的组织形态。

今年3月,Anthropic以开发有用、诚实和无害的AI系统为理念,推出Claude。近期,这个对话机器人已经集成进Slack——一个聚合型的“海外版”钉钉、融合了几千个第三方企业办公软件的应用。目前,用户能在Slack中与这个对话机器人互动。

推出Claude后,Anthropic今年拿到了来自Google、Spark Capital 和 Salesforce Ventures 的投资。资方里的谷歌可以说是OpenAI的“金主”微软在AI领域的劲敌,Claude也被视作最能与ChatGPT打一打的产品。

“偏见最小” Sparrow箭在弦上

还有一个走“无害”路线的大模型也在酝酿中了,它就是DeepMind开发的对话机器人Sparrow,这款产品目前还未面向公众开放,但“DeepMind制造”的名头足以吊起外界胃口。

说到人工智能,业内很难绕开“DeepMind”这家公司,它最知名的产品是AlphaGo(俗称“阿尔法狗”),就是那个2019年击败了围棋名手李世石的人工智能围棋软件。

 2019年AlphaGo对战韩国棋手李世石(右)

AlphaGo大胜围棋精英的同年,DeepMind开启了AI蛋白质结构预测研究,四年后,新产品AlphaFold将蛋白质结构预测从数月、数年缩短到几分钟,精度接近实验室水准,解决了困扰该领域50年的难题。

DeepMind在人工智能领域的实力毋庸置疑,又有谷歌加持,资历也比OpenAI老得多,其研发的Sparrow自然也颇受瞩目。这款对话机器人建立在Chinchilla语言模型之上,被认为是“偏见最小”的机器学习系统之一。

当ChatGPT因为伦理风险被推上风口浪尖后,DeepMind立马打起“安全牌”,“虽然我们致力于让机器变得智能,但我们希望将人性置于我们工作的中心,” CEO Demis Hassabis向世界传达了他的态度,强调DeepMind构建Sparrow的方法“将促进更安全的人工智能系统”。

虽然Sparrow的产品没公示,但DeepMind披露的信息显示,该对话机器人同样采用了“强化学习”的训练方法,模型会根据当前对话生成多个候选回复,让标注人员去判断哪个回复最好、哪些回复违反了预先设置好的规则等;基于这些反馈,DeepMind训练出对应的Reward模型,再用强化学习算法优化Sparrow的生成结果。

这种训练方法基本和ChatGPT类似,不同的是,ChatGPT只有一个综合的Reward 模型,而Sparrow将Reward 模型又细分为两种,一种为Rule Reward模型——判断对话是否违背预设置好的安全规则;另一种为Preference Reward 模型——判断候选答案中最合适的选项。简单来说,就是给模型“立规矩”,投喂“好答案”,当然,这个“好”依然是基于人类的价值判断。

 Sparrow训练模型示意图 DeepMind论文《Improving alignment of dialogue agents via targeted human judgements》

Sparrow的相关论文显示,当研究参与者试着诱导Sparrow打破规则时,该模型的出错几率为8%,比预训练的基础模型 (Chinchilla) 低了3 倍。

据悉,DeepMind 将于今年推出Sparrow,具体时间未透露。

作为ChatGPT的另一个挑战者,DeepMind与OpenAI都抱有通向AGI的野心。而DeepMind 背靠谷歌,在资历与资金上都能与OpenAI一拼。

今年2月,谷歌旗下专注语言大模型领域的“蓝移团队”也并入DeepMind,旨在共同提升LLM(大型语言模型)能力。但也有担忧声认为,这和DeepMind追求的独立性背道而驰,会逐渐导致谷歌收紧对DeepMind的控制权。

在独立性上,DeepMind与谷歌的分歧也早就存在了。对外,Demis Hassabis始终强调自己首先是科学家,其次才是企业家。谈及ChatGPT,Hassabis认为它仅仅是“更多的计算能力和数据的蛮力”,并对这种“不优雅”的方式感到失望。

双方的对立态度简直是摆在了明面上,也难怪外界会认为DeepMind与OpenAI必有一战。

对于用户来说,巨头们卷起来才是好事,这样就能源源不断提供有意思的、可使用的产品。无论是卷功能、卷性能还是卷安全,竞争都会让AI产品朝着更高级的方向发展,未来,也将会有更多不同技术派系与产品路径的ChatGPT出现。


http://chatgpt.dhexx.cn/article/CPO4u1xh.shtml

相关文章

快播公司已破产注销;ChatGPT 之父警告:AI 可能灭绝人类;苹果官方:618 将开启全球首次直播|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

AI聊天机器人ChatGPT遭破解,引发数据泄露风险

近日,一款基于人工智能技术的聊天机器人——ChatGPT遭受黑客攻击,导致用户数据泄露风险加大。这一事件引起了广泛的关注,也引发了人们对于人工智能安全性的担忧。 ChatGPT是一种被广泛应用于企业客户服务和市场营销等领域的AI聊天机器人&…

行走的代码生成器:chatGPT要让谷歌和程序员“下岗”了

就在本周,OpenAI 又发布了一个全新的聊天机器人模型 ChatGPT,作为 GPT-3.5 系列的主力模型之一。 图片来源:OpenAI 更重要的是它是完全免费公开的!所以一经发布大家立刻就玩开了——很快,网友们就被 ChatGPT 的能力所…

【ChatGPT】ChatGPT 能否取代程序员?

Yan-英杰的主页 悟已往之不谏 知来者之可追 C程序员,2024届电子信息研究生 目录 前言: ChatGPT 的优势 自然语言的生成 文本自动生成 建立了更人性化的人机交互 ChatGPT 的局限性 算法的解释能力较差 程序的可实现性较差 缺乏优化和质量控制 程序员相较于 …

ChatGPT或许很强大,但还抢不走你的饭碗

ChatGPT变得家喻户晓是在2022年的11月,当时OpenAI正式对外推出了GPT3.5。 但实际上,这场AI革命的战争早已开始打响。过去十年间,谷歌、 脸书、亚马逊、苹果和微软这些硅谷有名有姓的科技巨头纷纷开启AI“军备竞赛”,先后成立专门…

昨天,我被ChatGPT抢饭碗了!

分享人:Mr.K 作者:ChatGPT 昨天,K哥发了一条朋友圈:我用ChatGPT写的演讲稿,跟企业家同学们分享《AIGC如何赋能企业》。 不要再说AI离你还很远,AI代替人类工作还早。抛弃你的从来不是时代,而是…

危!ChatGPT一出,这10大职业可能先丢饭碗

👇👇关注后回复 “进群” ,拉你进程序员交流群👇👇 来源丨新智元 https://mp.weixin.qq.com/s/AY8qtV9c14sXiZ8juGZ9Pw 新智元报道 编辑:David 【新智元导读】ChatGPT一出,很多人害怕自己的工…

【ChatGPT】你会是被AI抢饭碗的那类人吗?

文章目录 前言一、AI替代“基础性工作”,二、AI没有魔法:人类做不到,它也做不到三 人类的恐惧:被替代、被超越四 AI让语言返祖,小语种与文化“濒危灭绝”五 人类的未来,教育何去何从?总结 前言 …

“拿下”谷歌124万年薪offer,ChatGPT将取代程序员?

#ChatGPT会抢谁饭碗# #ChatGPT会不会使基层程序员失业# .... ChatGPT横空出世直接霸屏各大平台热搜榜单,刷爆朋友圈,引发全球ChatGPT概念股集体疯涨。ChatGPT推出仅2个月,它的活跃用户已破1个亿,在1月份的访问量约为5.9亿。成为史…

ChatGPT面世具有何意义?ChatGPT会不会取代程序员?

本篇文章给大家谈谈ChatGPT面世具有何意义一个有趣的事情,以及ChatGPT会不会取代程序员一个有趣的事情,希望对各位有所帮助,不要忘了收藏本站喔。 1、chatgpt是什么? chatgpt介绍如下: ChatGPT是由人工智能研究实验室OpenAI在202…

最近大热的 chatGPT 会取代你的工作吗?

ChatGPT 由于其高效的自然语言处理能力,它最容易取代的领域可能是: 文本分类:ChatGPT 可以用作文本分类系统,对文本进行分类 聊天机器人:ChatGPT 可以制作聊天机器人,提供人性化的交互体验 文本生成&…

ChatGPT这是要抢走我的饭碗?我10年硬件设计都有点慌了

前 言 呃……问个事儿,听说ChatGPT能写电路设计方案了,能取代初级工程师了?那我这工程师的岗位还保得住么?心慌的不行,于是赶紧打开ChatGPT问问它。 嘿,还整的挺客气,快来看看我的职业生涯是否…

普通人是否能从ChatGPT中分一杯羹?

ChatGPT3.0刚刚推出,最开始的时候,人们只是将ChatGPT看作一个很会聊天的机器人,无论问题多么天马行空,它的答案看上去都有理有据。后来,像打开潘多拉魔盒一样,很多人开始拿它编大纲、撰写文案、编代码、创作…

ChatGPT 这个风口,普通人怎么抓住?

最近在测试ChatGPT不同领域的变现玩法,有一些已经初见成效,接下来会慢慢分享出来。 今天先给大家分享一个,看完就能直接上手的暴力引流玩法。 所需工具: 1)ChatGPT(最好是plus版,需要保证快速…

别担心,ChatGPT还抢不动BI工程师的饭碗!

ChatGPT火了,在发布仅仅五天后就完成了Facebook耗时10个月才完成的目标——用户超过100万。指数级别的算力数据让AI产生了质变,不再像之前一样只是昙花一现。我们要知道,人之所以比动物聪明,是因为人脑千万亿级别的神经元和神经突…

ChatGPT混战,谁会拥有话事权?

作者 | 辰纹 来源 | 洞见新研社 “未来十年,AIGC(人工智能自主生产内容)将颠覆现有内容生产模式。可以实现以十分之一的成本,以百倍千倍的生产速度,去生成AI原创内容。” 不得不说李彦宏对技术趋势的判断还是非常准的…

ChatGPT 抢不走程序员饭碗的原因找到了?最新研究:它自动生成了 21 个程序,16 个有漏洞...

整理 | 屠敏 出品 | CSDN(ID:CSDNnews) 一个好消息与一个坏消息。 好消息是,继 ChatGPT、GPT-4 等产品之后,代码生成工具的队伍再添新员。Google 近日宣布 Bard 可以辅助软件开发者完成编程和软件开发任务,…

ChatGPT横空出世,人们还能保住“饭碗”吗?

ChatGPT横空出世,人们还能保住“饭碗”吗? “ChatGPT会给我们的生活带来哪些改变?”十三届全国政协委员、第五空间信息技术研究院院长谈剑锋在与ChatGPT的聊天框中输入了一个问题。 “可以帮助解决一些复杂的问题,并使我们的日常…

能取代90%人工作的ChatGPT到底牛在哪?

📣📣📣📣📣📣📣 🎍大家好,我是慕枫 🎍前阿里巴巴高级工程师,InfoQ签约作者、阿里云专家博主,一直致力于用大白话讲解技术知识 &#x…

听说,ChatGPT 要跟打工人们抢饭碗,是真的吗?

最近,ChatGPT真的是彻底火出圈了! 这个由 OpenAI 开发的大型语言模型,推出仅仅5天,注册用户就高达100万;推出仅两个月,月活已破亿大关。 其增长速度让曾创下无数增长奇迹的TikTok都望尘莫及,不…