1、训练框架
1.1 DeepSpeed
- paper:
https://arxiv.org/pdf/1910.02054.pdf
- 相关资料:
[译] DeepSpeed:所有人都能用的超大规模模型训练工具
【LLM工程篇】deepspeed | Megatron-LM | fasttransformer
分布式机器学习里的 数据并行 和 模型并行 各是什么意思?
【深度学习】【分布式训练】DeepSpeed:AllReduce与ZeRO-DP
1.2 Lora
- paper:
https://arxiv.org/pdf/2106.09685.pdf
- 相关资料
1.3 Megatron-LM
- paper:
https://arxiv.org/pdf/1909.08053.pdf
- 相关资料
https://zhuanlan.zhihu.com/p/366906920