1.VIT
ViT原理讲解
ViT结合代码
1.3 ViT模型架构
我们先结合下面的动图来粗略地分析一下ViT的工作流程,如下:
- 将一张图片分成patches
- 将patches铺平
- 将铺平后的patches的线性映射到更低维的空间
- 添加位置embedding编码信息
- 将图像序列数据送入标准Transformer encoder中去
- 在较大的数据集上预训练
- 在下游数据集上微调用于图像分类
https://liuruiyang98.github.io/posts/2021/09/09/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E4%B9%8B%E5%9B%BE%E5%83%8F%E5%88%86%E7%B1%BB-18-Vision-Transformer(ViT)%E7%BD%91%E7%BB%9C%E8%AF%A6%E8%A7%A3.html
2.MaskFormer
MaskFormer-github