本文是LLM系列文章,针对《Self-Alignment with Instruction Backtranslation》的翻译。
指令反翻译的自动对齐
- 摘要
- 1 引言
- 2 方法
- 3 实验
- 4 不足
- 5 相关工作
- 6 结论
摘要
我们提出了一种可扩展的方法,通过用相应的指令自动标记人类书写的文本来建立高质量的指令跟随语言模型。我们的方法名为指令反翻译,从一个在少量种子数据和给定的网络语料库上微调的语言模型开始。种子模型用于构建训练示例,方法是生成网络文档的指令提示(自增强),然后从这些候选者中选择高质量的示例(自管理)。然后使用这些数据来微调更强的模型。在我们的方法的两次迭代中对LLaMa进行微调,产生了一个优于Alpaca排行榜上所有其他基于LLaMa的模型的模型,该模型不依赖于蒸馏数据,证明了高效的自校准。
1 引言
2 方法
3 实验
4 不足
5 相关工作
6 结论
我们提出了一种可扩展的方法来微调大型语言模型以遵循指令。我们的方法通过开发一种迭代自训练算法来利用大量未标记的数据,我们称之为指令反翻译。我们的方法使用模型本身来扩充和策划高质量的训练示例,以提高其自身的性能。在Alpaca排行榜上,我们的微调模型优于所有其他非蒸馏指令遵循模型,同时使用更少的人工注释示例。未来的工作应该通过考虑更大的未标记语料库来进一步扩展这种方法,我们的分析表明,这应该会产生进一步的收益。