ChatGPT背后的模型三兄弟

article/2025/1/24 9:48:27

ChatGPT作为最接近强人工智能的系统,具有强大的信息理解和信息抽象总结能力,在这个信息过剩的时代,为我们提供了一个非常好的智能辅助工具。在我们日常的工作中,怎么充分的利用ChatGPT等类似的智能系统,会给我们生活和工作带来不一样的体验。

后面我们将从chatGPT算法流程作为切入点,分别介绍ChatGPT背后的三个深度学习模型,正是这三个基础的模型铸就了ChatGPT强大的文本信息理解表达能力。

chatGPT算法流程

书归正传,让我们来体验下chatGPT大道至简的神奇算法。

首先从数据库中采样一批prompt提示,然后让人工标注人员编写对应prompt答案。我们利用<prompt,prompt答案>来微调预训练好的GPT-3模型,微调后的模型SFT模型。
第二步,随机采样的一个prompt,让我们微调好的GPT-3模型预测多个答案【<prompt, 答案1>, <prompt, 答案2>…】,人工对比排序同一个prompt好坏情况,然后排序。在利用微调后的GPT-3模型构造一个RM奖励模型,利用人工标注答案顺序,训练RM奖励模型,类似于LambdaRank思想。
第三步,构造一个双头PPO模型,对于一个新采样的prompt提示,生成对应的答案,然后利用RM奖励模型,评测当前生成答案的得分score,并用score反向更新优化PPO模型。
SFT监督模型
SFT模型是微调后的GPT模型,说到GPT模型就不能介绍下大名鼎鼎的Transformer模型,Transformer模型是一个典型的encode-decode模型结构,模型是为了解决LSTM等序列生成模型训练速度慢的问题。

GPT模型和BERT模型是一对孪生兄妹,BERT模型使用了Transformer模型的encoder部分,而GPT模型使用的正好是Transformer模型的decoder部分(改造去掉了第二层multi-head attention),为什么GPT要使用decoder部分而不是encoder部分呢?这就要说到GPT设计之初要解决的问题,和BERT用来抽取文本序列信息不同,GPT生来就是为了生成序列,为了结合前序提示,生成我们后续的答案,所以我们要用Masked Attention,不能让模型看到答案,这就是GPT和BERT的本质区别。

GPT模型结构如下图所示,GPT-3将模型层数升级到了百层,模型参数升级到几千亿,在这千亿的参数中,总会储存想要的信息。

Transformer【左】GPT【右】

RM模型
如果我们是有SFT模型,那模型对于我们输入的prompt提示或者问题,是不会给出我们满意答案的,为什么呢?因为SFT模型训练的目标并不是让人类满意,所以他诞生和成长之初,压根也没有打算让人类满意,他训练自身的目的就是更大概率的生成下一个字符,这显然不能完全代表人类的喜好。

那我们怎么解决这样的一个问题呢?那就构造一个可以代替人来评估生成结果好坏的RM模型,这个模型结构和SFT模型是完全一样的,只不过将输出层改造成输出张量的模型层。对于同一个prompt输出的多个答案,人工评测排序后,使用lambdarank的思想,优化RM奖励模型。RM模型学习的就是对于一个prompt,人类对答案的喜好程度。

RM模型【左】RM损失函数【右】

PPO模型
上面我们花了这么大力气,训练了代表人类喜好的RM模型,这样一个喜好函数有什么用呢?这就要说到我们的PPO模型,我们之前微调的SFT模型,虽然也能够生成prompt answer,但是这是一个没有感情的answer,完全是根据海量文本中上下文共现概率生成的,没有加入任何的人类喜好和意志。

怎么让这个SFT模型按照人类的喜好,生成人类喜欢的prompt呢?这就我们RM模型的作用,RM模型通过上一步人工排序标注的方式,学习到了每对<prompt, prompt answer>人类评测的好坏程度。我们利用SFT模型对输出进行改造,构造一个双头PPO模型,模型一头输出一个张量,代表生成序列每个元素的价值value;另一头将输出映射成prompt answer词典答案。

我们将<prompt, prompt answer>输入到RM模型中,获得一个评估当前prompt对的奖励R,然后用R作为奖励,反向更新每个元素的价值value,这也就是所谓的PPO强化学习算法。

PPO模型【左】PPO目标函数【右】

以上就是ChatGPT基本的模型算法和背后的三个主要的算法模型,其实模型基本的结构和背后的算法并是不第一次提出和应用,但是ChatGPT创新的应用,将强化学习和NLP文本生成很好的结合在了一起,将生成的文本序列融入了人类的喜好,生成的内容更像是一个人在回答我们的prompt,这也就是为什么生成的内容,让我们看起来更舒服更自然。


http://chatgpt.dhexx.cn/article/15CVw68A.shtml

相关文章

ChatGPT火爆,背后的核心到底是什么?

点击上方“小麦大叔”&#xff0c;选择“置顶/星标公众号” 福利干货&#xff0c;第一时间送达 2022年12月份的时候&#xff0c;ChatGPT还只是个被人各种撩的聊天工具。但进入2023年后&#xff0c;已经向着效率工具迈进了。 微软宣布正和ChatGPT开发团队OpenAI进行洽谈&#xf…

ChatGPT背后的模型

文章目录 1.RLHF方法2.ChatGPT中的RLHF方法2.1 微调模型GPT-32.2 训练奖励模型2.3 利用强化学习进一步微调语言模型 3.效果4.面临挑战5.参考 InstructGPT语言模型&#xff0c;是一个比 GPT-3 更善于遵循用户意图&#xff0c;同时使用通过我们的对齐研究开发的技术使它们更真实、…

ChatGPT既然这么火,有没有弊端呢?

介绍 在现代社会中&#xff0c;人们越来越依赖技术来解决问题。聊天机器人是一种最新的技术趋势&#xff0c;这种技术可以为人们带来很多便利。而ChatGPT聊天机器人则是其中的一种&#xff0c;它使用了大型的语言模型GPT&#xff08;Generative Pre-trained Transformer&#…

突发!ChatGPT疯了!

‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 今天&#xff0c;笔者正常登录ChatGPT&#xff0c;试图调戏一下他。但是&#xff0c;突然震惊的发现&#xff0c;ChatGPT居然疯了。 之所以说他是疯了&#xff0c;而不是崩溃了&#xff0c;是因为他还能回复我&#xff0c;但…

ChatGPT背后的逻辑

版权声明 本文原创作者&#xff1a;谷哥的小弟作者博客地址&#xff1a;http://blog.csdn.net/lfdfhl OpenAI与ChatGPT OpenAI是一个美国的人工智能&#xff08;AI&#xff09;研究实验室&#xff0c;由非营利组织OpenAI Incorporated和其盈利子公司OpenAI Limited Partnersh…

ChatGPT爆火网络背后的故事?

文章目录 前言一、ChatGPT的诞生背景二、ChatGPT的技术原理三、ChatGPT的推广策略四、ChatGPT的未来展望五、橙子送书第2期 前言 ChatGPT是一款基于人工智能技术的聊天机器人&#xff0c;它的出现引起了广泛的关注和热议。在短短的时间内&#xff0c;ChatGPT就成为了全球范围内…

ChatGPT 用户破亿背后...

2022 年 12 月初&#xff0c;ChatGPT 被社会广泛讨论之初&#xff0c;我们就介绍了 ChatGPT 母公司 OpenAI 使用了身份云&#xff08;IDaaS&#xff09;服务。在当时&#xff0c;人们还在感慨 ChatGPT 上线不到一周时间用户量就突破百万&#xff0c;而仅仅在不到两个月后&#…

ChatGPT背后的经济账

ChatGPT能否取代Google、百度这样的传统搜索引擎&#xff1f;为什么中国不能很快做出ChatGPT&#xff1f;当前&#xff0c;对这些问题的探讨大多囿于大型语言模型&#xff08;LLM&#xff09;的技术可行性&#xff0c;忽略或者非常粗糙地估计了实现这些目标背后的经济成本&…

ChatGPT是风口吗?爆火后的质疑猝不及防

作者观&#xff1a; 首先要明确一点&#xff0c;ChatGPT代替不了人类&#xff0c;不要抱不切实际的期望。 作为一款由OpenAI开发的人工智能聊天软件&#xff0c;该程序在一些人的眼里具有革命性的意义。 有人说&#xff0c;这玩意儿可以在一夜之间让无数人失业&#xff0c;也有…

带头抵制高级AI,马斯克在怕什么

Chat-GPT 和 GPT-4 给大家留下的话题实在不少&#xff0c;一边是大家已经开始享受着人工智能带来的便捷&#xff0c;各种写论文出脚本&#xff0c;另一头则是更多的精英人士开始对高级 AI 心存忧虑。 上个月底&#xff0c;据路透社的报道&#xff0c;有一群人工智能专家及行业…

二月安全月报 | 45亿条快递数据疑泄露,Twitter史上最大规模宕机

为了让大家更全面的了解网络安全的风险&#xff0c;顶象针对每月值得关注的安全技术和事件进行盘点总结。 国内安全热点 &#x1f449;业务安全 男子注册上万账号薅羊毛获利13万 近日&#xff0c;上海市&#xff0c;由闵行区人民检察院提起公诉的刘某某诈骗一案开庭审理&…

最先被GPT革掉命的,大概率是你每天都在用的验证码

前段时间&#xff0c;有一个叫 “ Chirper ” 的互联网社区突然火了。 和普通的社区不一样&#xff0c;这个社区拒绝任何真实人类的进入。所有在上面发帖的&#xff0c;都是提前设定好角色属性的 “ 机器人 ”。 它们之中有年龄高达 300 岁的可以使用魔法和动物交流的森林女王…

“用过 Rust 后,我写 Python 的方法都变了!”

近年来&#xff0c;Rust 以其安全性出名&#xff0c;逐渐被各大科技巨头所拥抱——那么&#xff0c;其他主流语言是否可以参考 Rust 的编程思想呢&#xff1f;本文作者以 Python 为例&#xff0c;做了一番尝试。 原文链接&#xff1a;https://kobzol.github.io/rust/python/202…

如何实现在纯 Web 端完成各类 API 调试?

作者 | 张涛&#xff0c;携程机票研发部高级软件工程师 责编 | 夏萌 在软件开发过程中&#xff0c;对于各类 API 的调试工作至关重要。API 调试是验证和测试应用程序接口的有效性和正确性的关键步骤。传统的 API 调试方法通常依赖于独立的工具或桌面应用程序&#xff0c;限制了…

BASIC 之父出生 | 历史上的今天

整理 | 王启隆 透过「历史上的今天」&#xff0c;从过去看未来&#xff0c;从现在亦可以改变未来。 今天是 2023 年 5 月 31 日&#xff0c;在 1962 年的今天&#xff0c;伦纳德克兰罗克&#xff08;Leonard Kleinrock&#xff09;发表了他的第一篇论文&#xff0c;题为“大型通…

22字声明、近400名专家签署、AI教父Hinton与OpenAI CEO领头预警:AI可能灭绝人类!...

整理 | 屠敏 出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09; 经过不到一年的时间&#xff0c;AI 的发展超乎所有人的想象&#xff0c;也大有失控的风险。 就在今天&#xff0c;全球部分顶尖的 AI 研究员、工程师和 CEO 就他们认为 AI 对人类构成的生存威胁发出了新…

时至 2023 年,2000 万行仍然是 MySQL 表的软限制吗?

一直有传言说&#xff0c;MySQL 表的数据只要超过 2000 万行&#xff0c;其性能就会下降。而本文作者用实验分析证明&#xff1a;至少在 2023 年&#xff0c;这已不再是 MySQL 表的有效软限制。 原文链接&#xff1a;https://yishenggong.com/2023/05/22/is-20m-of-rows-still-…

GPT-4 Copilot X震撼来袭!AI写代码效率10倍提升,码农遭降维打击

新智元报道 【新智元导读】GPT-4加强版Copilot来了&#xff01;刚刚&#xff0c;GitHub发布了新一代代码生成工具GitHub Copilot X&#xff0c;动嘴写代码不再是梦。 微软真的杀疯了&#xff01; 上周&#xff0c;微软刚用GPT-4升级了Office办公全家桶&#xff0c;还没等人们反…

FBI 花 3 年暴力破解 iPhone X 密码,竟成一场空?法院:搜查令已过期,证据无效...

整理 | 郑丽媛 出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09; 很难预料到&#xff0c;几年前 FBI 和苹果之间那场备受关注的隐私大战&#xff0c;时至今日仍有余波&#xff1a; ▶ 2016 年&#xff0c;正值苹果与 FBI “剑拔弩张”时&#xff0c;其安全指南曾声称…

发布 21 年后,Windows XP 被破解,仅 18KB 即可离线激活

整理 | 郑丽媛 出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09; 都 2023 年了&#xff0c;如今再提起 Windows XP&#xff0c;可能颇有些“时代的眼泪”的味道。 &#xff08;Windows XP 经典的默认桌面壁纸&#xff09; 2001 年 10 月 25 日正式登陆零售商店&…