第二期书生浦语大模型训练营第四次笔记

大模型微调技术

大模型微调是一种通过在预训练模型的基础上，有针对性地微调部分参数以适应特定任务需求的方法。

微调预训练模型的方法

微调所有层：将预训练模型的所有层都参与微调，以适应新的任务。
微调顶层：只微调预训练模型的顶层，以适应新的任务。
冻结底层：将预训练模型的底层固定不变，只对顶层进行微调。
逐层微调：从底层开始，逐层微调预训练模型，直到所有层都被微调。
迁移学习：将预训练模型的知识迁移到新的任务中，以提高模型性能。这种方法通常使用微调顶层或冻结底层的方法。

目前来说，我们常用的方法一般是前三种。简单来说模型的参数就类比于，一个在大学学习到所有专业的知识的大学生，基于过往的学习经验以及对生活中的一些事情，已经有了属于自己的一套学习方法思维逻辑。而微调则是一个大学生毕业后从事某一种行业的工作，那他就要开始学习工作上的内容，来产出工作的成果。

常见的微调技术分析

Fine tuning

原理：Fine tuning的原理是在预训练模型的基础上，通过微调模型参数，使其适应特定任务的数据分布和特征表示，从而提高模型在该任务上的性能。
应用场景：Fine tuning适用于需要充分利用预训练模型在大规模数据上学到的特征和知识的场景，特别是在小数据集上也能获得较好性能的情况下。
优点：可以节省大量的训练时间和计算资源，因为可以直接在预训练模型的基础上进行训练，而不需要从头开始训练一个新的模型。
缺点：相比于其他微调方法，可能需要更多的数据和计算资源来达到最佳效果。

Prompt tuning

原理：Prompt tuning的原理是通过设计合适的预训练任务和更新模型的部分参数，使其能够快速适应新任务的数据分布和特征表示，从而提高模型的泛化性能。
应用场景：适用于超过10亿参数量的模型，尤其是当使用足够多的语料和设计有效的预训练任务时，小样本甚至零样本的性能也能被极大地激发出来。它也适用于快速适应新任务的场景。
优点：通过只更新部分参数，降低了计算量和参数量，加速了训练过程。仅需少量数据即可进行。对于大型模型，相比于标准的Fine-tuning，所带来的增益远远高于标准的Fine-tuning。
缺点：在自然语言理解（NLU）中，对于正常大小的预训练模型，Prompt tuning的表现并不理想。并且，现有的Prompt tuning方法无法处理硬序列标记任务，表明在某些情况下可能存在局限性。

LoRA

原理：LoRA的原理是通过对预训练模型的所有权重矩阵进行加减操作，使其更适合下游任务，从而实现微调。这种方法通过减少需要微调的参数量，提高了微调的效率和速度。
应用场景：LoRA适用于需要轻量级微调的大模型，特别是在文本分类、语义理解等自然语言处理任务中。
优点：LoRA提供了一种参数高效的微调方法，旨在解决仅通过训练一小部分参数来微调大型语言模型的不可行性和不切实际的问题。
缺点：尽管LoRA提供了参数高效的微调方案，但相比于全参数微调，存在一定的性能损失或限制。