本文来自openAI联合创始人,曾担任特斯拉视觉部门总监的Andrej的视频Let’s build GPT。
文章目录
- 简单介绍
- 数据处理部分
- 什么是tokenize
- 计算loss
- 直觉上的self-attention
- 矩阵乘法实现self-attention:
- self-attention和cross-attention有什么区别
- attention中为什么要做scaling
- 继续增加改进的点, 逐步实现transformer
- 真实的GPT训练步骤
当然这里的GPT并不是原版GPT,只是一个nanoGPT, 不过大体结构差不多