- transformer
- scaling law
- 分布式训练
自然语言处理包括几大任务
- NLP: 文本分类,词性标注,信息检索
- NLG:机器翻译,自动摘要,问答QA、对话机器ChatBot
Transformer
T5
Bert
GPT
- in context learning: (zero-shot transfer) 模型inference,为了模型的能力迅速迁移到某个特定task上,先给他一些参考样例,然后模型就迅速领会到了,然后就可以按照这个特定task去输入输出了
GLM
scaling law
大模型时代,很多观念都需要更新了。scaling地方在于数据量,任务量,模型参数量。
分布式训练
- 分布式通信库:CPU上用MPI,GPU上用NCCL
- 点对点通信(Point-to-point Communication, P2P): 两个节点间通信,集合通信(Collective Communication, CC):一组节点内通信
- 数据并行(DP)、模型并行(TP)、流水线并行(PP)
- 流水线并行: Gpipe,
- 模型的拓扑序,切分成p段,每一段为一个stage
- mini-batch进一步切分为几个大小的micro-batch
- zero使用的几个阶段
reference
- Gpipe-如何有效地阅读PyTorch的源代码? - OpenMMLab的回答 - 知乎
- [Transformer 101系列] LLM分布式训练面面观 - aaronxic的文章 - 知乎
- 预训练语言模型之GPT-1,GPT-2和GPT-3 - 大师兄的文章 - 知乎