【论文精读】VIT：vision transformer论文

【论文精读】Transformer：Attention Is All You Need

文章目录

相关文章
一、文章概览
- （一）研究背景
- （二）核心思路
- （三）相关工作
- （三）文章结论
二、模型细节
- （一）组成模块
- （二）模型的大体流程
- （三）具体的模型的前向过程
- （四）transformer encoder的公式表达
- （五）消融实验
- - 1、关于图像分类编码方式的消融实验
  - 2、关于位置编码的消融实验
三、实验
- （一）模型的变体
- （二）分类精度结果对比
- （三）数据集的大小对ViT的影响
- （四）BiT、ViT、Hybrids模型集的比较
- （五）vit的内部表征

一、文章概览

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
一张图像相当于 16X16 个单词：大规模图像识别的transformer

（一）研究背景

Transformer 架构已成为nlp任务事实上的标准（BERT、T5、GPT3），但是用transformer做cv较少
视觉领域的注意力要么与卷积网络结合使用，要么就是替换卷积网络的某些组件，但是整体结构不变

（二）核心思路

将图像分割为patch，将这些patch的线性嵌入序列作为 Transformer 的输入。这个时候图片就变成了图片块，图片块可以类比于nlp任务中的单词。
训练方式：有监督的训练

nlp中transformer采用的无监督方式

（三）相关工作

ViT和其它 self-attention in CV 的工作不同： ViT除了将图片转成 16 * 16 patches + 位置编码之外，没有额外引入图像特有的归纳偏置，因此不需要对 vision 领域的了解，直接把图片理解成 a sequence of patches。

（三）文章结论

当在中型大小的数据集上，比如ImageNet进行训练时，如果不加比较强的约束，ViT模型和同等大小的残差网络相比会弱一些。这个结果是可以预计到的：Transformer 与CNN相比，会少一些inductive biases 归纳偏置。

inductive biases 归纳偏置：先验知识 or 提前的假设

卷积神经网络中常说的 inductive biases ：
locality：假设图片上相邻的区域会有相邻的特征
translation equaivariance平移等变性： $f (g (x)) = g (f (x))$ ，也就是说 $f$ 和 $g$ 函数的顺序不影响结果。

CNN 有 locality 和 translation equivariance 归纳偏置，因此CNN 有很多先验信息，进而可以利用较少的数据去学好一个模型。
Transformer 没有这些先验信息，只能从图片数据里，自己学习对视觉世界的感知。

当以足够的规模进行预训练并转移到数据点较少的任务时，ViT能够取得优异的结果。当在公共 ImageNet-21k 数据集或内部 JFT-300M 数据集上进行预训练时，ViT 在多个图像识别基准上接近或击败了最先进的技术。特别是，最佳模型在 ImageNet 上达到 88.55% 的准确率，在 ImageNet-ReaL 上达到 90.72%，在 CIFAR-100 上达到 94.55%，在 19 个任务的 VTAB 套件上达到 77.63%。

二、模型细节

（一）组成模块

在模型设计上，ViT 尽可能使用了最原始的Transformer，大体由三个模块组成：

Linear Projection of Flattened Patches(Embedding层)
Transformer Encoder(图右侧有给出更加详细的结构)
MLP Head（最终用于分类的层结构）

在这里插入图片描述

（二）模型的大体流程

给定一张图片输入，先将图片划分成patch，然后将其转换为序列
每个patch会通过一个线性投射层得到一个特征
为了确保图片的位置信息得到保留，因此需要加上一个位置编码
将处理后的token输入transformer的encoder当中，将其中的class token经过一个mlp模块得到最终的分类

（三）具体的模型的前向过程

输入图像为224×224×3，将其切割成16*16的patches，就会得到196个图像块，每一个图像块的维度是16×16×3=768

此时图片就从原先的224x224x3转变成了196个维度为768的patch

在这里插入图片描述

将这些patch输入到线性投射层（一个维度为768x768的全连接层，第一个768依据图像的patch得到，是不变的，第二个768可以发生改变，如果transformer变得更大了，它也可以相应的变得更大），因此线性投射的输出为196x768的矩阵

此时有196个token，每个token向量的维度为768

在这里插入图片描述

此时可以将vision的问题转变成NLP的问题了，输入就是一系列1d的token，而不再是一张2d的图片了。在图片本身的token基础上，回家一个额外的cls token（维度为768），所以整体进入transformer的序列长度为197x768

图像的位置编码信息是直接加到token上去的，不是拼接，因此不会改变序列的维度，序列还是197x768

输入序列先经过一个layer norm，维度不变，依然是197x768；在多头注意力机制里，总共包括k、q、v三份，每一份都是197×768；再过一层layer norm，还是197×768；然后再过一层MLP，这里会把维度先对应地放大，一般是放大4倍，所以就是197×3072，然后再缩小投射回去，再变成197×768，就输出了。

多头自注意力中的维度其实并不是768，假设现在使用的是VIsion Transformer的base版本，即多头使用了12个头，那么最后的维度就变成了768/12=64，也就是说这里的k、q、v变成了197×64，但是有12个头，有12个对应的k、q、v做自注意力操作，最后再将12个头的输出直接拼接起来，这样64拼接出来之后又变成了768，所以多头自注意力出来的结果经过拼接还是197×768

在这里插入图片描述

综上就是一个Transformer block的前向传播的过程，进去之前是197×768，出来还是197×768，这个序列的长度和每个token对应的维度大小都是一样的，所以就可以在一个Transformer block上不停地往上叠加Transformer block，最后有L层Transformer block的模型就构成了Transformer encoder。

（四）transformer encoder的公式表达

在这里插入图片描述

$X_p$ 是图像块的patch，共有n个patch，即 $X_p^1$ 到 $X_p^N$
$E$ 是线性投影的全连接层，通过线性投影得到了patch embedding
在patch embedding前边拼接一个class embedding，即 $X_{class}$ ，然后加上位置编码信息 $E_{pos}$
每个transformer block中包含一个多头自注意力MSA和MLP，做这两个操作前需要经过layer norm，操作完成后进行一次残差连接
第 $l$ 个transformer block出来的结果即为 $Z_l$
$L$ 层循环解释后将最后一层输出的第一个位置也就是class token对应的输出（ $Z_L^0$ ）作为整体图像的特征去完成分类任务。

（五）消融实验

1、关于图像分类编码方式的消融实验

在做图像分类的任务时，模型可以通过全局平均池化得到一个全局特征然后去做分类，也可以用一个class token去做。文章中所有的实验都是用class token去做的，主要的目的是跟原始的Transformer尽可能地保持一致，作者就是想证明，一个标准的Transformer照样可以做视觉。
在这里插入图片描述

绿线表示全局平均池化
蓝线表示class token
可以发现到最后绿线和蓝线的效果是差不多的，但是作者指出绿线和蓝线所使用的学习率（lr, Learning rate）是不一样的，如果直接将蓝线的学习率拿过来使用得到的效果可能如橙线所示，也就是说需要进行好好调参。

2、关于位置编码的消融实验

1d：NLP中常用的位置编码，也就是本文使用的位置编码（把一个图片打成九宫格，用的是1到9的数来表示图像块）
2d：使用11、12、13、21等来表示图像块，这样就跟视觉问题更加贴近，因为它有了整体的结构信息。具体的做法就是，原有的1d的位置编码的维度是d，现在因为横坐标、纵坐标都需要去表示，横坐标有D/2的维度，纵坐标也有D/2的维度，就是说分别有一个D/2的向量去表述横坐标和纵坐标，最后将这两个D/2的向量拼接到一起就又得到了一个长度为D的向量，把这个向量叫做2d的位置编码
relative positional embedding（相对位置编码）：在1d的位置编码中，两个patch之间的距离既可以用绝对的距离来表示，又可以用它们之间的相对距离来表示（文中所提到的offset），这样也可以认为是一种表示图像块之间位置信息的方式

在这里插入图片描述最后的结果显示三种表示方法的效果差不多。

三、实验

（一）模型的变体

一共有三种模型，参数如下图所示。由于transformer的序列长度其实是跟patch size成反比的，因为patch size越小，切成的块就越多，patch size越大，切成的块就越少，所以当模型用了更小的patch size的时候计算起来就会更贵，因为序列长度增加了。
在这里插入图片描述

（二）分类精度结果对比

将几个ViT的变体和卷积神经网络（BiT和Noisy Student）进行对比，结果如下表所示。
在这里插入图片描述

（三）数据集的大小对ViT的影响

左侧的图像表示：在小数据集上进行预训练时，大型ViT模型的表现要比BiTResNets 差，但在较大数据集上进行预训练时，ViT更好。随着数据集的增长，较大的ViT变体会取代较小的ViT变体。
右侧的图像表示：ResNets在较小的预训练数据集上表现更好，但ViT在较大的预训练数据集上表现更好。

在这里插入图片描述

（四）BiT、ViT、Hybrids模型集的比较

在相同的计算开销下，ViT的性能一般优于ResNet。对于较小的模型尺寸，混合Transformer比纯Transformer有所改善，而对于较大的模型尺寸，纯Transformer比混合Transformer有所改善。

左图的average-5就是他在五个数据集（ImageNet real、pets、flowers、CIFAR-10、CIFAR-100）上做了evaluation，然后把这个数字平均了

在这里插入图片描述

（五）vit的内部表征

vision transformer的第一层（linear projection layer，E）提取出的头28个主成分，其实vision transformer学到了跟卷积神经网络很像，都是这种看起来像gabor filter，有颜色和纹理，所以作者说这些成分是可以当作基函数的，也就是说，它们可以用来描述每一个图像块的底层的结构
学到的位置编码是可以表示一些距离信息的，同时它还学习到了一些行和列的规则，每一个图像块都是同行同列的相似性更高，也就意味着虽然它是一个1d的位置编码，但是它已经学到了2d图像的距离概念，这也可以解释为什么在换成2d的位置编码以后，并没有得到效果上的提升，是因为1d已经够用了
随着网络越来越深，所有注意力头的注意距离增加，网络学到的特征也会变得越来越高级，越来越具有语义信息；大概在网络的后半部分，模型的自注意力的距离已经非常远了，也就是说它已经学到了带有语义性的概念，而不是靠邻近的像素点去进行判断。

在这里插入图片描述