大模型理论基础1
第一章:引言
语言模型
- 自回归语言模型
概率的链式法则:
在自回归语言模型 p 中生成整个序列 X1:L,我们需要一次生成一个令牌(token),该令牌基于之前以生成的令牌进行计算获得:
其中T≥0 是一个控制我们希望从语言模型中得到多少随机性的温度参数:
T=0:确定性地在每个位置 i 选择最可能的令牌 xi
T=1:从纯语言模型“正常(normally)”采样
T=∞:从整个词汇表上的均匀分布中采样 然而,如果我们仅将概率提高到 1/T 的次方,概率分布可能不会加和到 1。我们可以通过重新标准化分布来解决这个问题。我们将标准化版本 p T(x i∣x 1:i−1)∝p(xi∣x 1:i−1)1/T称为退火条件概率分布。
N-gram模型
- 语言模型首先被用于需要生成文本的实践应用:噪声信道模型通过贝叶斯定理实现
- 语音识别和机器翻译系统使用了基于词的n-gram语言模型
- n-gram模型被训练在大量的文本上
神经语言模型
- 首次提出了神经语言模型,其中 p(x i ∣x i−(n−1):i−1 ) 由神经网络给出:
p(cheese∣ate,the)=some−neural−network(ate,the,cheese) - Recurrent Neural Networks(RNNs),包括长短期记忆(LSTMs),使得一个令牌x i 的条件分布可以依赖于整个上下文 x 1:i−1(有效地使 n=∞ ),但这些模型难以训练。
- Transformers是一个较新的架构(于2017年为机器翻译开发),再次返回固定上下文长度n,但更易于训练(并利用了GPU的并行性)。此外,n可以对许多应用程序“足够大”(GPT-3使用的是n=2048)。