文章目录
- 编码器-解码器架构
- 因果解码器架构
- 前缀解码器架构
在预训练语言模型时代,自然语言处理领域广泛采用了预训练 + 微调的范式,并诞生了以 BERT 为代表的编码器(Encoder-only)架构、以 GPT 为代表的解码器(Decoder-only)架构和以 T5 为代表的编码器-解码器(Encoder-decoder)架构的大规模预训练语言模型。随着 GPT 系列模型的成功发展,当前自然语言处理领域走向了生成式大语言模型的道路,解码器架构已经成为了目前大语言模型的主流架构。进一步,解码器架构还可以细分为三个变种架构,包括因果解码器(Causal Decoder)架构和前缀解码器(Prefix Decoder)架构。值得注意的是,学术界所提 到解码器架构时,通常指的都是因果解码器架构。下图针对这三种架构进行了对比。
编码器-解码器架构
编码器-解码器架构是自然语言处理领域里一种经典的模型结构,广泛应用于如机器翻译等多项任务。原始的 Transformer 模型也使用了这一架构,组合了两个分别担任编码器和解码器的 Transformer 模块。如上图所示,此架构在编码器端采用了双向自注意力机制对输入信息进行编码处理