ChatGPT模型采样算法详解

ChatGPT所使用的模型——GPT（Generative Pre-trained Transformer）模型有几个参数，理解它们对文本生成任务至关重要。其中最重要的一组参数是temperature和top_p。二者控制两种不同的采样技术，用于因果语言模型（Causal language models）中预测给定上下文情景中下一个单词出现的概率。本文将重点讲解temperature和top_p的采样原理，以及它们对模型输出的影响。

文章目录

- 理解因果语言模型中的采样
- Top-k采样
- - Top-p采样
- 温度采样
- - 典型用例
- 总结

理解因果语言模型中的采样

假设我们训练了一个描述个人生活喜好的模型，我们想让它来补全“我喜欢漂亮的___”这个句子。一般语言模型会按照下图的流程来工作：

在这里插入图片描述

模型会查看所有可能的单词，并根据其概率分布从中采样，以预测下一个词。为了方便起见，假设模型的词汇量不大，只有：“大象”、“西瓜”、“鞋子”和“女孩”。通过下图的词汇概率我们可以发现，“女孩”的选中概率最高（ $p = 0.664$ ），“西瓜”的选中概率最低（ $p = 0.032$ ）。

在这里插入图片描述

上面的例子中，很明显“女孩”最可能被选中。因为人类对于单一问题在心智上习惯采用 “贪心策略”，即选择概率最高的事件。

在这里插入图片描述

永远选择分数或概率最大的token，这种策略叫做“贪心策略”。
贪心策略符合人类的心智，但是存在严重缺陷。

但是上面这种策略用在频繁交互的场景下会有一个显著缺陷——如果我们总是选择最可能的单词，那么这个词会反复不断被强化，因为现代语言模型中大多数模型的注意力只集中在最近的几个词（Token）上。这样生成的内容将非常的生硬和可预测，人们一眼就能看出是机器生成的且一点也不智能。

如何让我们的模型不那么具有确定性，让它生成的内容用词更加活跃呢？为此，我们引入了基于分布采样的生成采样算法。但是传统的采样方法会遇到了一个问题：如果我们有5万个候选词（Token），即使最后2.5万个极不可能出现的长尾词汇，它们的概率质量也可能会高达30%。这意味着，对于每个样本，我们有1/3的机会完全偏离原来的“主题”。又由于上面提到的注意力模型倾向于集中在最近出现的词上，这将导致不可恢复的错误级联，因为下一个词严重依赖于最近的错误词。

为了防止从尾部采样，最流行的方法是Top-k采样和温度采样。

Top-k采样

Top-k采样是对前面“贪心策略”的优化，它从排名前k的token种进行抽样，允许其他分数或概率较高的token也有机会被选中。在很多情况下，这种抽样带来的随机性有助于提高生成质量。

在这里插入图片描述

添加一些随机性有助于使输出文本更自然。
上图示例中，我们首先筛选似然值前三的token，然后根据似然值重新计算采样概率。

通过调整k的大小，即可控制采样列表的大小。“贪心策略”其实就是k=1的top-k采样。

在这里插入图片描述

Top-p采样

ChatGPT实际使用的不是Top-k采样，而是其改进版——Top-p采样。

Top-k有一个缺陷，那就是“k值取多少是最优的？”非常难确定。于是出现了动态设置token候选列表大小策略——即核采样（Nucleus Sampling）。下图展示了top-p值为0.9的Top-p采样效果：

在这里插入图片描述

在top-p中，根据达到某个阈值的可能性得分之和动态选择候选名单的大小。

top-p值通常设置为比较高的值（如0.75），目的是限制低概率token的长尾。我们可以同时使用top-k和top-p。如果k和p同时启用，则p在k之后起作用。

温度采样

温度采样受统计热力学的启发，高温意味着更可能遇到低能态。在概率模型中，logits扮演着能量的角色，我们可以通过将logits除以温度来实现温度采样，然后将其输入Softmax并获得采样概率。

越低的温度使模型对其首选越有信心，而高于1的温度会降低信心。0温度相当于argmax似然，而无限温度相当于于均匀采样。

温度采样中的温度与玻尔兹曼分布有关，其公式如下所示：
$\rho_i = \frac{1}{Q}e^{-\epsilon_i/kT}=\frac{e^{-\epsilon_i/kT}}{\sum_{j=1}^M e^{-\epsilon_j/kT}}$
其中 $\rho_i$ 是状态 $i$ 的概率， $\epsilon_i$ 是状态 $i$ 的能量， $k$ 是波兹曼常数， $T$ 是系统的温度， $M$ 是系统所能到达的所有量子态的数目。

有机器学习背景的朋友第一眼看到上面的公式会觉得似曾相识。没错，上面的公式跟Softmax函数 $Softmax(z_i) = \frac{e^{z_i}}{\sum_{c=1}^Ce^{z_c}}$ 很相似，本质上就是在Softmax函数上添加了温度（T）这个参数。Logits根据我们的温度值进行缩放，然后传递到Softmax函数以计算新的概率分布。