【大模型】大模型相关技术研究

为什么要对大模型进行微调

1.成本效益：

o 大模型的参数量非常大，训练成本非常高，每家公司都去从头训练一个自己的大模型，这个事情的性价比非常低。

2.Prompt Engineering 的局限性：

o Prompt Engineering 是一种相对容易上手的使用大模型的方法，但它有明显缺点。因为通常大模型的实现原理都会对输入序列的长度有限制，Prompt Engineering 的方式会把 Prompt 搞得很长。越长的 Prompt，大模型的推理成本越高，因为推理成本是跟 Prompt 长度的平方正相关的。另外，Prompt 太长会因超过限制而被截断，进而导致大模型的输出质量打折扣，这也是一个非常严重的问题。

3.提升特定领域能力：

o Prompt Engineering 的效果达不到要求，而企业又有比较好的自有数据，能够通过自有数据，更好地提升大模型在特定领域的能力。这时候微调就非常适用。

4.个性化服务：

o 要在个性化服务中使用大模型的能力，这时候针对每个用户的数据，训练一个轻量级的微调模型，是一个不错的方案。

5.数据安全：

o 如果数据不能传递给第三方大模型服务，那么搭建自己的大模型就非常必要。

如何对大模型进行微调

从参数规模角度

1.全量微调（Full Fine Tuning, FFT）

o 对全量参数进行全量训练，用特定的数据，对大模型进行训练，将 W 变成 W’。W’ 相比 W ，最大的优点就是上述特定数据领域表现会好很多，但缺点是训练成本高，并且存在灾难性遗忘（Catastrophic Forgetting）的风险。灾难性遗忘(Catastrophic Forgetting)，用特定训练数据去微调可能会把这个领域的表现变好，但也可能会把原来表现好的别的领域的能力变差。

2.参数高效微调（Parameter-Efficient Fine Tuning, PEFT）

o 只对部分参数进行训练，解决 FFT 存在的问题。PEFT 是目前比较主流的微调方案。

从训练数据来源和方法角度

1.增量预训练（Continue PreTraining）

o 一般垂直大模型是基于通用大模型进行二次的开发。为了给模型注入领域知识，就需要用领域内的语料进行继续的预训练。

举例：假设我们有一个已经在通用语料库上预训练的GPT模型，现在我们希望让这个模型在医学领域的文本上表现更好。我们可以使用大量的医学文献对这个GPT模型进行继续预训练，使其适应医学领域的语言特点。

2.监督式微调（Supervised Fine Tuning, SFT）

o 用人工标注的数据，用传统机器学习中监督学习的方法，对大模型进行微调。

例如：指令微调（Instruction Tuning）- 输入文本：“Good morning!” - 任务描述：“翻译成西班牙语” - 期望输出：“¡Buenos días!”

3.基于人类反馈的强化学习微调（Reinforcement Learning with Human Feedback, RLHF）

o 把人类反馈通过强化学习方式引入到对大模型的微调中，让生成结果更加符合人类期望。

4.基于AI反馈的强化学习微调（Reinforcement Learning with AI Feedback, RLAIF）

o 与 RLHF 类似，但反馈来源是 AI，以解决人类反馈收集成本高、效率低的问题。

5.直接偏好优化（Direct Preference Optimization）

o 它主要通过直接优化模型对用户偏好的预测能力来提升模型的性能。与传统的损失函数优化不同，DPO更加关注模型在实际应用中的表现，特别是在用户体验和满意度方面。
模型微调分成3个阶段:

第一阶段:(Continue PreTraining)增量预训练，在海量领域文档数据上二次预训练模型，以注入领域知识.
第二阶段: SFT(Supervised
Fine-tuning)有监督微调，构造指令微调数据集，在预训练模型基础上做指令精调，以对齐指令意图
第三阶段 (1)RLHF(Reinforcement Learning from Human
Feedback)基于人类反馈对语言模型进行强化学习，分为两步：RM(Reward
Model)奖励模型建模，构造人类偏好排序数据集，训练奖励模型，用来建模人类偏好，主要是"HHH"原则，具体是"helpful,
honest, harmless";RL(Reinforcement
Learning)强化学习，用奖励模型来训练SFT模型，生成模型使用奖励或惩罚来更新其策略，以便生成更高质量、更符合人类偏好的文.
DPO(Direct Preference
Optimization)直接偏好优化方法，DPO通过直接优化语言模型来实现对其行为的精确控制，而无需使用复杂的强化学习，也可以有效学习到人类偏好，DPO相较于RLHF更容易实现且易于训练，效果更好

一些比较流行的PEFT方案

从成本和效果的角度综合考虑，PEFT是目前业界比较流行的微调方案。接下来介绍几种比较流行的PEFT微调方案。

1、Prompt Tuning
Prompt Tuning的出发点，是基座模型(Foundation Model)的参数不变，为每个特定任务，训练一个少量参数的小模型，在具体执行特定任务的时候按需调用。

Prompt Tuning的基本原理是在输入序列X之前，增加一些特定长度的特殊Token，以增大生成期望序列的概率。

具体来说，就是将X = [x1, x2, …, xm]变成，X = [x1, x2, ..., xk; x1, x2, …, xm], Y = WX`。

例如：

假设我们有一个情感分析任务，原始输入句子为"I love this movie."
通过Prompt Tuning，我们在原始输入序列前增加一些提示语，例如：
X’ = [“This is a sentiment analysis task:”, “The sentiment of the following sentence is:”, “I”, “love”, “this”, “movie”, “.”]
2、Prefix Tuning
Prefix Tuning的灵感来源是，基于Prompt Engineering的实践表明，在不改变大模型的前提下，在Prompt上下文中添加适当的条件，可以引导大模型有更加出色的表现。

Prefix Tuning的出发点，跟Prompt Tuning的是类似的，只不过它们的具体实现上有一些差异。

Prompt Tuning是在Embedding环节，往输入序列X前面加特定的Token。

而Prefix Tuning是在Transformer的Encoder和Decoder的网络中都加了一些特定的前缀。

具体来说，就是将Y=WX中的W，变成W = [Wp; W]，Y=WX。

Prefix Tuning也保证了基座模型本身是没有变的，只是在推理的过程中，按需要在W前面拼接一些参数。

举例说明：

原始英文句子为：“I love this movie.”

Encoder 输入变为：W’_encoder = [Wp_encoder; W_encoder]

Decoder 输入变为：W’_decoder = [Wp_decoder; W_decoder]

然后，我们将新的输入序列 X 输入到修改后的 Transformer 模型中进行预测，得到输出 Y：

假设输出结果是：“我喜欢这部电影。”

3、LoRA
LoRA是跟Prompt Tuning和Prefix Tuning完全不相同的另一条技术路线。