大模型（LLM）面试全解：主流架构、训练目标、涌现能力全面解析

系列文章目录

大模型（LLMs）基础面
01-大模型（LLM）面试全解：主流架构、训练目标、涌现能力全面解析

大模型（LLMs）进阶面

文章目录

系列文章目录
大模型（LLMs）基础面
一、目前主流的开源模型体系
- 1.1 Encoder-Decoder 模型
- - 1.1.1 架构特点
  - 1.1.2 优缺点与适用场景
- 1.2 Causal Decoder 模型
- - 1.2.1 架构特点
  - 1.2.2 优缺点与适用场景
- 1.3 Prefix Decoder 模型
- - 1.3.1 架构特点
  - 1.3.2 优缺点与适用场景
二、Prefix Decoder、Causal Decoder 和 Encoder-Decoder 的区别
- 2.1 核心区别
- - 2.1.1 Encoder-Decoder 架构
  - 2.1.2 Causal Decoder 架构
  - 2.1.3 Prefix Decoder 架构
三、大模型（LLM）的训练目标是什么？
- 3.1 语言模型目标
- 3.2 去噪自编码器目标
四、涌现能力是什么？
- 4.1 涌现能力的定义
- - 4.1.1 原因分析
  - 4.1.2 Decoder-Only 架构的优越性
五、大模型的规模意义
- 5.1 参数规模的含义
六、大模型的优点和缺点
- 6.1 大模型的优点
- 6.2 大模型的缺点
七、总结

大模型（LLMs）基础面

大语言模型（Large Language Models, LLMs）是人工智能技术中的重要组成部分，其广泛应用在自然语言处理（NLP）任务中。本文将系统化地从大模型的核心技术点、架构特点、训练目标到优缺点进行解析，并回答相关技术面试问题，帮助读者全面理解LLMs。

一、目前主流的开源模型体系

目前，大语言模型（LLMs）的开源体系主要分为以下三类架构：Encoder-Decoder、Causal Decoder 和 Prefix Decoder。这三种架构在注意力机制设计上各有特色，并适配不同的任务场景。
在这里插入图片描述

从上图可以直观看出三种模型架构的差异性：

Encoder-Decoder：输入采用双向注意力，输出采用单向注意力。
Causal Decoder：输入和输出均采用单向注意力。
Prefix Decoder：输入采用双向注意力，输出采用单向注意力，是一种折中架构。

接下来，我们将深入解析各类模型的架构特点、优缺点及适用场景。

1.1 Encoder-Decoder 模型

1.1.1 架构特点

双向注意力（输入端）：Encoder 通过双向注意力机制捕获整个输入序列的全局上下文信息，使得每个词的表示与全局句子结构关联紧密。
单向注意力（输出端）：Decoder 的单向注意力机制使得生成当前词时，只能访问前面的已生成词，从而满足文本生成的自回归特性。
代表模型：T5、Flan-T5、BART。

1.1.2 优缺点与适用场景

优点：
- 在偏理解的 NLP 任务（如机器翻译、问答、文本摘要）中表现优异。
- 能够处理输入输出序列具有明确对应关系的任务。
缺点：
- 在长文本生成任务中效果较差，难以保持生成结果的一致性。
- 训练和推理效率较低。
适用场景：
- 需要深度理解输入文本的任务，例如：
  - 机器翻译：准确捕捉输入语义并生成高质量翻译文本。
  - 摘要生成：对长文本提炼核心信息。

1.2 Causal Decoder 模型

1.2.1 架构特点

单向注意力：Causal Decoder 使用严格的单向注意力机制（左到右），生成当前词时仅能依赖其前面已生成的词。这种机制适合自回归任务。
自回归训练目标：训练目标与下游任务一致，简化了训练过程。
代表模型：GPT 系列（GPT-2、GPT-3、GPT-4）、LLaMA 系列。

1.2.2 优缺点与适用场景

优点：
- 训练效率高：由于单向注意力的简单性，训练效率更高。
- 生成能力强：在文本生成任务（如对话生成、写作辅助）中表现更佳。
- 涌现能力：随着模型参数规模的增加，表现出强大的 zero-shot 和 few-shot 学习能力。
缺点：
- 对输入文本的深度理解能力不如 Encoder-Decoder 架构。
适用场景：
- 偏生成任务，例如：
  - 对话生成：如 ChatGPT 的对话功能。
  - 长文本生成：如文章创作和自动写作辅助。

1.3 Prefix Decoder 模型

1.3.1 架构特点

折中型架构：Prefix Decoder 的输入序列采用双向注意力机制，从而保留 Encoder 的全局理解能力；而输出序列则采用单向注意力，以满足生成任务的需求。
代表模型：GLM-130B、ChatGLM、ChatGLM2。

1.3.2 优缺点与适用场景

优点：
- 综合了 Encoder-Decoder 和 Causal Decoder 的特点，在理解能力与生成能力之间取得平衡。
- 适用于需要理解输入文本并生成合理输出的任务。
缺点：
- 由于架构折中的复杂性，训练效率低于 Causal Decoder 模型。
适用场景：
- 平衡理解与生成的任务，例如：
  - 对话生成与文本摘要的结合。
  - 复杂问答任务：需要理解问题背景并生成准确答案。

二、Prefix Decoder、Causal Decoder 和 Encoder-Decoder 的区别

2.1 核心区别

三种架构的关键区别在于注意力机制（Attention Mechanism）的实现方式及其mask规则：
在这里插入图片描述

2.1.1 Encoder-Decoder 架构

输入：采用双向注意力，能够捕捉整个输入序列的全局上下文关系。
输出：采用单向注意力，仅关注输出序列中已生成的部分。
应用场景：适合输入输出文本具有明确对应关系的任务，例如翻译、问答。

2.1.2 Causal Decoder 架构

采用严格的单向注意力规则：生成当前单词时仅能访问前面的单词。
应用场景：适合文本生成任务，尤其是长文本生成。

2.1.3 Prefix Decoder 架构

输入序列采用双向注意力，输出序列采用单向注意力。
应用场景：兼顾理解与生成的场景。

三、大模型（LLM）的训练目标是什么？

3.1 语言模型目标

基于语言模型的训练目标是预测序列中每个单词的条件概率，优化目标函数如下：

$\ \mathcal{L}_{LM}(x) = \sum_{i=1}^{n} \log P(x_i | x_{<i})$

特点：通过最大似然估计（Maximum Likelihood Estimation, MLE）来训练模型。
效率比较：Causal Decoder > Prefix Decoder。

3.2 去噪自编码器目标

通过对文本进行随机扰动或遮掩，训练模型恢复原始文本。目标函数如下：

$\ \mathcal{L}_{DAE}(x) = \log P(\tilde{x}|x_{/\tilde{x}})$

代表模型：GLM-130B、T5。
实现难度：相比语言模型更高，但适合于一些特殊任务。

四、涌现能力是什么？

4.1 涌现能力的定义

涌现能力（Emergent Capabilities）指模型在参数规模增加后，表现出一些原本无法完成或难以完成的任务能力。

4.1.1 原因分析

评价指标不平滑：任务指标的非线性变化导致宏观上呈现出“突变”现象。
复杂任务分解：复杂任务通常由多个子任务组成，子任务的性能平滑提升，但整体任务表现出显著改进。

4.1.2 Decoder-Only 架构的优越性

在无标注数据上，通过自监督学习发挥出zero-shot性能。
Decoder-Only 架构能更高效地利用无标注数据，具备理论和工程优势。

五、大模型的规模意义

5.1 参数规模的含义

如175B、60B、540B等，指模型的参数数量：

B：Billion（十亿）。
例如，ChatGPT 使用约1750亿参数。

六、大模型的优点和缺点

6.1 大模型的优点

高效利用无标注数据：
- 通过预训练+微调的方式，减少数据标注成本。
- 提高模型的泛化能力。
生成能力强：
- 能够在创意、教育等领域生成新颖有价值的内容（如文本、图像、代码）。
涌现能力：
- 可以完成符号推理、常识推理等复杂任务。

6.2 大模型的缺点

资源消耗高：
- 训练成本昂贵。例如，GPT-3 训练消耗约30万美元，产生约284吨二氧化碳。
数据问题：
- 数据偏见、数据安全性和隐私问题可能导致输出不准确或不道德。
模型可解释性差：
- 难以理解模型内部的决策逻辑，需要进一步研究和改进。

七、总结

通过本文的内容，对以下问题进行了系统性的总结和梳理：

主流的开源模型体系：当前大模型主要分为三大类架构——Encoder-Decoder、Causal Decoder、Prefix Decoder，各自具有针对性强的特点和适用场景。例如，Encoder-Decoder更适合文本理解任务，而Causal Decoder在文本生成任务中更为强大。
不同架构的区别：三种架构的核心差异体现在注意力机制的设计上，Prefix Decoder兼具输入理解和生成能力，Causal Decoder更适用于自回归任务，而Encoder-Decoder则强调输入的全局理解。
训练目标：语言模型主要基于最大似然估计，而去噪自编码器则通过恢复被扰乱的文本进行训练，二者在应用场景和效率上各有侧重。
涌现能力的原因：大模型的涌现能力来自于非线性评价指标的影响，以及复杂任务在模型参数规模扩大时逐步解决子任务的能力。
Decoder-Only架构为何流行：由于其zero-shot能力和对无标注数据的高效利用，Decoder-Only架构成为了当前大模型的主流选择。
参数规模的含义：如175B、60B等数字代表了模型参数量，参数规模越大，模型越可能具备更强的泛化和生成能力。
优缺点分析：大模型的主要优势包括高效利用无标注数据、强大的生成能力和涌现能力，但也存在资源消耗高、数据安全性差和模型可解释性不足等问题。