1. 大模型训练 1.1数据并行 1.2 模型并行 1.3 ZeRO 1.4 流水线并行 1.5 混合精度训练 1.6 offloading 把梯度放在cpu上保存和计算 1.7 overlapping 提前传输数据 1.8 checkpointing 中间线性层不保存,反向传播时再次重新计算 1.9 使用BMtrain 2. 大模型压缩 2.1 知识蒸馏 2.2 模型剪枝 2.3 模型量化 2.4 weight sharing 不同层使用同样的层进行计算 2.5 low-rank approximation 2.6 BMCook软件