- 视频链接:微调一个模型需要多少GPU显存? up 主页:AI老兵
- tags: #GPU显存 #模型微调 #LoRA #QLoRA #参数计算 本集视频详细介绍了在模型微调过程中 GPU
- 显存需求的计算方法,包括全量微调和高效微调(如 LoRA)的情况。up 主通过具体示例,说明了如何估算不同规模模型和不同微调方法所需的 GPU 显存大小。
1 全量微调的 GPU 显存需求
1.1 主要显存消耗模块
- Model Weight: 模型本身的参数
- Gradient: 用于计算参数更新的梯度
- Optimizer State: 优化器状态,取决于所使用的优化器类型
- 其他(如 Activation 等)
1.2 显存需求计算示例(1B 模型,16bit 参数)
微调 1B 模型,16bit = 2byte
- Model Weight(模型参数): 2GB (10 亿参数 * 2 byte/参数)
训练模型时,通过一系列反向传播的方法,来更新模型参数,涉及以下gradient和optimizer states参数。不断计算梯度,以更新模型参数。
- Gradient(梯度): 2GB (通常与 Model Weight 相当)
- Optimizer State(优化器): 8GB(保守估计为 Model Weight 的 4 倍)
- 总计: 12GB(约6倍的model weight显存)
2 高效微调方法:LoRA
2.1 LoRA 微调原理
- 保持原有模型不变
- 学习更少量的参数(如原模型参数的 2.5%)
- 将学习结果与原模型结合形成新模型
2.2 LoRA 下的显存需求(以 2.5%参数为例)
LORA只对部分参数进行学习,大幅减少显存需求。显存需求计算示例(假设 LoRA 模块为原模型 2.5%):
- Model Weight(模型参数): 2GB(保持不变)
- Adapter Weight(适配器参数): 0.05GB (2GB * 2.5%)
- Gradient + Optimizer State(梯度+优化器): 0.25GB (10GB * 2.5%)
- 总计: 2.3GB
3 进一步优化:QLoRA
3.1 QLoRA 原理
- 通过量化(Quantization)方法进一步压缩 Model Weight
- 可将 16bit 参数压缩至 8bit 或 4bit
3.2 QLoRA 下的显存需求
- Model Weight(模型参数): 可能降至 1GB 或 0.5GB
- 其他项目相应减少
4 实际项目中的其他考虑因素
- 单卡 vs 多卡训练
- 单节点 vs 多节点训练
- DeepSpeed 的 Zero3 或 Zero2 等优化策略
5 总结
模型微调所需的 GPU 显存取决于多个因素,包括模型大小、微调方法和优化策略。全量微调需要较大显存,而高效微调方法如 LoRA 和 QLoRA 可以显著减少显存需求。在实际项目中,还需考虑硬件配置和训练策略等因素来更精确地估算 GPU 显存需求。
参考资料
- 17 微调一个模型需要多少 GPU 显存?
- 算法冷知识第3期-1B参数的大模型训练需要多少显存?