前言:Hello大家好,我是小哥谈。大模型的预训练成本巨大,优化算法的改进可以加快模型的训练时间并减少训练开销。目前大模型的训练优化器基本上都采用Adam及其变体,并且Adam的应用已经有9个年头了,在模型优化方面相当于霸主的地位。但是能否够在优化器方面提高模型预训练效率呢?今天给大家分享的这篇文章是来自斯坦福的最新研究成果,他们提出了「一种叫Sophia的优化器,相比Adam,它在LLM上能够快2倍,可以大幅降低预训练成本」。🌈
目录
🚀1.基础概念
🚀2.引入步骤
🚀3.详细方法
🍀🍀步骤1:torch_utils.py文件修改
🍀🍀步骤2:trainer.py文件修改
🍀🍀步骤3:更换优化器