GPT实战系列-GPT训练的Pretraining，SFT，Reward Modeling，RLHF

GPT实战系列-GPT训练的Pretraining，SFT，Reward Modeling，RLHF
- Pretraining 预训练阶段
- Supervised FineTuning （SFT）监督微调阶段
- Reward Modeling 奖励评价建模
- Reinforment Learning RLHF 强化学习

以GPT为例，LLM训练流程分为4个阶段：预训练，监督微调训练，奖励评价训练，强化学习。分别生成预训练模型（Base model，基础模型），如GPT3，GPT4；监督精调模型SFT模型，RM奖励评价模型，和最后的生成模型，如ChatGPT。

Andrej Karpathy的这张总结的很好，下面以此作为阐述。
GPT训练流程

预训练阶段通过互联网的海量数据，训练一个算法基本原型，获得自然语言隐含的大量通用特征。可以理解第一步是粗调，相当于从粗矿中炼矿，从原油中炼油。

训练数据：
来自互联网的大量文本数据，具有低质量，数量巨大特点，TB级别。以LLaMA模型为例，训练数据共1.4T tokens。数据来源种类也多样化，绝大部分是互联网抓取公开的数据，还有github，wikipedia，arXiv等专业网站数据。
模型类型：
自然语言建模，生成模型，预测下一个token（算法的处理单位，可以是词语，符号，短语，句子等）
训练结果：
base model 基本模型
计算资源：
算力需要很大，1000块以上的GPU；
训练周期：
训练时间耗费几个月，占据训练时间的99%
代表模型：
预训练模型代表，如GPT，LLaMA等等

预训练的训练数据良莠不齐，直接用到业务场景效果不是很好，接下来需要对模型进行精调。因此训练数据中，问题覆盖应该具有多样性，而且问题可能有很多种回答。也可以用辅助模型的最佳的回应作为引导标注，满足监督训练的条件。

训练数据：
训练数据需要人工标注，人工编写的问题和回答，形成问答对。数据质量高，但数量少。在10~100K量级。
模型类型：
自然语言建模，预测下一个token。基于base model建模的，生成SFT 模型。
训练结果：
SFT model SFT精调模型
计算资源：
算力根据模型和场景，1-100块的GPU资源；
训练周期：
训练以天为单位，几天到几十天。

在监督微调阶段，获得精调的自然语言模型，一个问题有多种回答，到底哪种最符合呢？这就需要建立明确的价值观体系，好坏之分的标准。在标准尺度的基础上，进一步判别不同回答的优劣，根据训练者的价值，筛选和奖励最好的回答。这个阶段的关键是评价。

增加答案的价值观判断，本质上是选择最佳路径，在多种回答中，按分数排序，选择最好的问题答案。

训练数据：
训练数据需要标注，人工编写的问题和答案，形成具有价值观偏好的问答对，要训练模型哪个是好的，哪个是不好的回答。数量质量高，但数量少。在10-1000K的量级。
模型类型：
二值分类评价模型，区分好和不好的回答。基于SFT模型，生成RM模型。
训练结果：
RM模型，奖励评价模型不能单独部署。
计算资源：
算力根据模型和场景，1-100块的GPU资源；
训练周期：
训练以天为单位，几天到几十天。

在SFT和RM模型基础上，用强化学习模型，根据人工编写问题答案对，和奖励评价模型，对SFT精调模型进行强化训练。多种路径中选择最佳路径，多种答案中，选择最大奖励的答案。

训练数据：
训练数据和前面一样需要标注，通过价值观偏好RM模型获得评分。数量质量高，但数量少。在10-100K量级。
模型类型：
强化学习模型，预训练模型一样结果形式，奖励最大的，生成下一个token。
训练结果：
带价值观判断的生成模型，代表模型：如：ChatGPT，Claude等。
计算资源：
算力根据模型和场景，1-100块的GPU资源。
训练周期：
训练以天为单位，几天到几十天。