DeepSeek在预训练阶段通过多种技术手段实现了极致的训练效率,其中包括采用FP8混合精度训练框架以降低计算和内存需求 ,创新性地引入Multi-head Latent Attention(MLA)压缩KV缓存以提升推理效率,以及基于Mixture-of-Experts(MoE)的稀疏计算架构以在保证性能的同时显著降低训练成本。通过DualPipe算法优化流水线并行,DeepSeek实现了计算与通信的高度重叠,从而几乎消除了跨节点MoE训练的通信瓶颈 。此外,DeepSeek还通过知识蒸馏和精细的超参数调优进一步压缩模型大小和计算量,实现了成本节约与性能提升的双赢 。
极致训练效率方法
1. FP8混合精度训练
DeepSeek设计了FP8混合精度训练框架,首次验证了FP8在超大规模模型上进行训练的可行性和有效性。
2. 稀疏计算与Mixture-of-Experts
DeepSeek-V2和V3均采用Mixture-of-Experts(MoE)架构,仅激活部分专家子网络以减少计算量,在保证模型容量的同时降低整体训练成本。
3. 多头潜在注意力(MLA)
Multi-head Latent Attention通过将K