书生·浦语大模型实战训练营第二期第四节--Xtuner微调LLM--notebook

XTuner微调LLM课程笔记

一、Finetune简介

1.为什么模型要做微调？

现在其实大部分的大模型应该叫做“基座模型”，也就是基于普遍性的任务去进行与训练的，所以如果想让它落地在特定的下游领域中，它的表现必然是不如在领域内训练的模型，所以现在最好的方式就是对大模型进行一个领域内知识的微调。

比如上一期学生的，中医药助手，食神等等。

2.一般有两种finetune范式

增量预训练微调：增量预训练是一种训练策略，它允许模型在已有的知识基础上不断学习和改进。在QLoRA中，增量预训练意味着模型会在原始预训练数据的基础上，不断添加新的数据并重新进行训练。这样可以不断提高模型的泛化能力，使其更好地适应各种任务。

指令微调：指令微调则是针对特定任务对模型进行微调的过程。在QLoRA中，指令微调基于明确的微调指令对模型进行微调，使得模型更加专注于特定任务的实现。

增量预训练单纯拓展知识库，对语料进行拟合学习，但是你如果问他问题，他不一定能回答你，而是根据你的问题进行拟合回答哈哈哈哈；而指令微调就是通过对话对来进行微调训练的，所以你问他问题之后，他才能很好的回答你（毕竟调教过怎么回）

简单来说：一个是丢知识拓展知识库，一个是用高质量对话和回答数据用于训练特定的任务

下面这图就是表示这两者的区别：上面就是单纯预训练模型或者单纯增量预训练的模型的问答，下面是指令微调的问答

3.关于数据集的建立处理

这就是标准的格式数据，有输入有输出

其实每个基底模型的对话模板都不一样，这个要看各个大模型开发单位自己的想法，比如LlaMa2和InternLM就不太一样，自己可以看到；这玩意就是为了让LLM区分出system/User/Assistant； 关于system/users/assistant的详细内容详见https://zhuanlan.zhihu.com/p/682606003

这里就简单介绍一下system：大部分LLM模型的系统指令System message的权重强化高于人工输入的prompt，并在多轮对话中保持稳定，您可以使用系统消息来描述助手的个性，定义模型应该回答和不应该回答的内容，以及定义模型响应的格式。

对话模板的作用：其实核心就是为了让模型认识这个数据，认识我的输入是什么，认识它应该学哪个输出。

这就是指令微调与增量预训练微调的本质区别了：增量预训练根本就不区分input和output，直接拟合整个增量数据，计算整个增量数据的loss，所以你问他问题的时候他可能有时候直接就是拟合你的问题这句语料输出一个相似的话；而指令微调是input/output对话对进行训练，模型只学会output，训练时只会对output的数据计算loss，这样当模型推理时，就能根据input输出符和这个input的output

3.微调方案LoRA和QLoRA介绍

简单来说：LORA其实就是通过在大模型原有的linear周围，新增几个小的linear（Adapter)；Adapter的参数量远小于原本的linear，这样就能大幅降低计算成本的前提下微调这个大模型。其实就是套了一层壳咯，然后再与原模型整合一下不就好了嘿嘿嘿；（主要还是因为要是对整个模型进行调参，参数量太大了，成本太高）