ChatGPT研究分析:GPT-4做了什么

article/2025/4/22 12:02:29

前脚刚研究了一轮GPT3.5,OpenAI很快就升级了GPT-4,整体表现有进一步提升。追赶一下潮流,研究研究GPT-4干了啥。

本文内容全部源于对OpenAI公开的技术报告的解读,通篇以PR效果为主,实际内容不多。主要强调的工作,是“Predictable Scaling”这个概念。

上一版ChatGPT的主要挑战是,因为模型的训练量极大,很难去进行优化(ChatGPT是fine-tuning的模式)。因此,OpenAI希望能够在模型训练初期,就进行优化,从而大幅提升人工调优迭代的效率。而想要进行调优,就得知道当前模型的效果如何。因此,这个问题就被转化为了:如何在模型训练初期,就能够预测最终训练完成后的实际效果。

从结果来看,ChatGPT实现了,仅仅执行千分之一到万分之一的训练量,就可以大致预测模型的结果。

实现原理相对简单,就是在某一个模型的不同训练阶段进行实际效果测量,然后做函数拟合,发现符合幂等曲线。然后再基于采样值,测算一下幂等函数的相关参数,下一轮就可以只进行少量训练,就去预测最终效果了。

至于其他效果上的优化,OpenAI没有进一步解读原理,但整体应该还是基于“训练-奖励”的优化模型,去生成更针对性的奖励模型(比如增加法律、安全之类的奖励判断),以实现更优的效果。

原版内容如下:

3 Predictable Scaling
A large focus of the GPT-4 project was building a deep learning stack that scales predictably. The primary reason is that for very large training runs like GPT-4, it is not feasible to do extensive model-specific tuning. To address this, we developed infrastructure and optimization methods that have very predictable behavior across multiple scales. These improvements allowed us to reliably predict some aspects of the performance of GPT-4 from smaller models trained using 1, 000× – 10, 000× less compute.
3.1 Loss Prediction
The final loss of properly-trained large language models is thought to be well approximated by power laws in the amount of compute used to train the model [35, 36, 2, 14, 15].
To verify the scalability of our optimization infrastructure, we predicted GPT-4’s final loss on our internal codebase (not part of the training set) by fitting a scaling law with an irreducible loss term (as in Henighan et al. [15]): L(C) = aCb + c, from models trained using the same methodology but using at most 10,000x less compute than GPT-4. This prediction was made shortly after the run started, without use of any partial results. The fitted scaling law predicted GPT-4’s final loss with high accuracy (Figure 1).
3.2 Scaling of Capabilities on HumanEval
Having a sense of the capabilities of a model before training can improve decisions around alignment, safety, and deployment. In addition to predicting final loss, we developed methodology to predict more interpretable metrics of capability. One such metric is pass rate on the HumanEval dataset [37], which measures the ability to synthesize Python functions of varying complexity. We successfully predicted the pass rate on a subset of the HumanEval dataset by extrapolating from models trained with at most 1, 000× less compute (Figure 2).
For an individual problem in HumanEval, performance may occasionally worsen with scale. Despite these challenges, we find an approximate power law relationship −EP [log(pass_rate(C))] = α∗C−k
where k and α are positive constants, and P is a subset of problems in the dataset. We hypothesize that this relationship holds for all problems in this dataset. In practice, very low pass rates are difficult or impossible to estimate, so we restrict to problems P and models M such that given some large sample budget, every problem is solved at least once by every model.
We registered predictions for GPT-4’s performance on HumanEval before training completed, using only information available prior to training. All but the 15 hardest HumanEval problems were split into 6 difficulty buckets based on the performance of smaller models. The results on the 3rd easiest bucket are shown in Figure 2, showing that the resulting predictions were very accurate for this subset of HumanEval problems where we can accurately estimate log(pass_rate) for several smaller models. Predictions on the other five buckets performed almost as well, the main exception being GPT-4 underperforming our predictions on the easiest bucket.
Certain capabilities remain hard to predict. For example, the Inverse Scaling Prize [38] proposed several tasks for which model performance decreases as a function of scale. Similarly to a recent result by Wei et al. [39], we find that GPT-4 reverses this trend, as shown on one of the tasks called Hindsight Neglect [40] in Figure 3.
We believe that accurately predicting future capabilities is important for safety. Going forward we plan to refine these methods and register performance predictions across various capabilities before large model training begins, and we hope this becomes a common goal in the field.


http://chatgpt.dhexx.cn/article/fAJ3UTUn.shtml

相关文章

【NLP】深入浅出,解析ChatGPT背后的工作原理

选自Assembly AI 作者:Marco Ramponi 机器之心编译 编辑:王强、蛋酱 自 ChatGPT 发布以来,已经吸引了无数人一探究竟。但 ChatGPT 实际上是如何工作的?尽管它内部实现的细节尚未公布,我们却可以从最近的研究中一窥它的…

炸了!斯坦福新研究:ChatGPT背后模型被证实具有人类心智!知名学者:“这一天终于来了”...

点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 点击进入—>CV微信技术交流群 丰色 萧箫 发自 凹非寺转载自:量子位(QbitAI) ChatGPT原来是拥有心智的?! “原本认为是人类独有…

2023 Chatgpt AI绘图小说推文项目

第一步 申请小说授权。 授权的方式我已经在之前的视频中讲过了,如果你还不知道,可以去看看。 第二步 利用Chat GPT改写小说。 得到授权后,将想要推广的小说内容截取下来,打开GPT。根据训练模型的要求,让GPT按照你的…

日赚14000元!她用ChatGPT创作文章来赚钱

最近有一件事在网络上爆火,那就是有一个小姐姐在ChatGPT的帮助之下写了一篇文章,并且发表到推特上之后很快收入激增。 最近有一件事在网络上爆火,那就是有一个小姐姐在ChatGPT的帮助之下写了一篇文章,并且发表到推特上之后很快收入…

如何使用 ChatGPT 生成 Stable diffusion 提示词

chatgpt免费体验入口网址: http://chat.xutongbao.top 一、教chatgpt写提示词 StableDiffusion是一款利用深度学习的文生图模型,支持通过使用提示词来产生新的图像,描述要包含或省略的元素。 我在这里引入StableDiffusion算法中的Prompt概念…

让ChatGPT帮你写一个剧情脚本

最近,很多视频制作者正在使用AI编写视频脚本,效率直接提升20倍以上!而ChatGPT作为一个强大的AI模型,在各个领域都得到了广泛应用。尽管对于ChatGPT的介绍不是很多,但是它已经在很多自媒体平台上被广泛利用来处理工作了…

如何让ChatGPT写情书(三步走)

近年来,人工智能技术的迅猛发展给我们生活带来了许多便利和惊喜。 而动人的情书文学也逐渐成为ChatGPT技术的应用领域之一。ChatGPT模型是一种递归神经网络,可以在大量数据的基础上为用户生成语言内容。使用GPT来写情书,相比以前的纯手工撰写…

ChatGPT-Next-Web:Vercel 和 Cloudflare 的快速部署

本文介绍了如何将 ChatGPT-Next-Web 部署到 Vercel 并在 Cloudflare 上加速,使用 SSL、CDN 和缓存等功能。 ChatGPT Next Web是一个免费的一键部署私人ChatGPT网页应用程序,具有精心设计的UI、响应式设计和支持深色、浅色两种主题等功能。它还提供了海量…

保姆级别 Vercel 部署 ChatGPT

最近ChatGPT都火出圈了,你还在用别人的服务吗? 你还在用别人的域名吗?你还在为网络感到烦恼吗?今天,这篇文章带你部署自己的ChatGPT 老规矩看看效果图 准备工作 这里用 ChatGPT项目 进行部署,Vercel 进行…

chatGPT:12.12 之后更新的 chatGPT 的本地部署和接口调用,解决 response 403 (无法连接openai服务器)问题

文章目录 问题源代码改动Session token 的获取cf_clearance 的获取user-agent 的获取将 config.json.sample 内容修改并移动位置附注:环境配置python > 3.7特别提示playwright & cf_clearancerevChatGPT 版本httpxOpenAIAuth删除 import 中的错误 后记 问题 …

【LangChain】如何本地部署基于chatGPT的实时文档和表格数据的助手,在自己的数据上构建chatGPT?

【LangChain】如何本地部署基于chatGPT的实时文档和表格数据的助手,在自己的数据上构建chatGPT 1 相关技术 (1)LangChain 是一个用于自然语言处理的 Python 库,它的目标是尝试简化自然语言处理任务,提高处理效率和准…

部署ChatGPT(在VPS或免费容器上),无需科学上网!

部署ChatGPT(在VPS或免费容器上),无需科学上网! 文章目录 部署ChatGPT(在VPS或免费容器上),无需科学上网!前提方案一(VPS)方案二(免费容器) 前提 已经注册了openAI ,或者…

快速部署个人-ChatGPT Next Web

前提:要有梯子、谷歌账号。 目录 一、源码地址: 二、演示地址: 三、获取API密钥 四、 部署 五、重新部署 六、无梯子访问 一、源码地址: GitHub - Yidadaa/ChatGPT-Next-Web: One-Click to deploy well-designed ChatGP…

无需GPU无需网络“本地部署chatGPT”(更新StableVicuna)

想当初图像生成从DELL到stable diffusion再到苹果的移动部署过了两三年吧 聊天bot才发展几个月就可以边缘部署了,如果苹果更新silicon,npu和运存翻倍,争取apple watch也能本地内置,最快ios18 mac、ipad、iPhone能内置吧 又是一个平…

玩转ChatGPT:Auto-GPT项目部署与测评

一、Auto-GPT简介 最近,以ChatGPT为代表的超大规模语言模型火出了圈,各种二次开发项目也是层出不穷。 这周在AI圈炸街的是Auto-ChatGPT,在GitHub上已经61.4K的点赞了。 项目地址:https://github.com/Torantulino/Auto-GPT 用项…

docker部署chat-web,实现自己的ChatGPT

本篇文章的前提是请确认已获得openai 的API-KEYS,即以sk-开头的keys;是否在服务器上安装了docker以及docker-compose docker以及docker-compose安装请参考我的博文:CENTOS8.0安装DOCKER&DOCKER-COMPOSE_wd520521的博客-CSDN博客 一、&a…

chatgpt源码部署教程

chatgpt是一个基于GPT-3模型的聊天机器人项目,它能够与用户进行自然语言交互,并提供各种实用的功能。然而,对于许多开发者来说,将chatgpt源码部署到自己的服务器上并不是一件容易的事情。在本篇文章中,我们将为大家提供…

史上最简单的自建ChatGPT部署方案,只需要一个HTML文件

今天发现一个史上最简单的自建ChatGPT部署方案,只需要一个HTML文件,把它配置到Nginx就能跑起来。 效果如下: 他能做什么用? 平常我们使用chatgpt需要配魔法上网才能登上官方网站,对于很多人来说这是个很棘手的问题&a…

部署了一个ChatGPT

部署了一个ChatGPT ChatGPT火爆了一段时间了,但是基于一些不可描述的原因,不能注册使用。为了方便大家体验,我部署了一个服务,能简单地体验一下ChatGPT的强大。话不多说,直接展示几个例子截图。文章最后放上体验地址和…