论文名称: Revealing the Dark Secrets of Masked Image Modeling
发表时间:CVPR2022
作者及组织:Zhenda Xie, Zigang Geng, Hu Han等,来自清华,中科院,微软亚洲研究院。
前言
本文尝试探讨MIM为何有效的原因。
1、结论
由于是篇充满可视化及对比实验的文章,因此先说结论:
1) MIM能给模型所有层带来归纳偏置;
2) MIM能给不同Head带来多样性;
3) MIM在感知任务和细分类任务上优于全监督预训练。
2、对比实验条件设置
Backbone:VIT-B
预训练方法:全监督(DeiT),对比学习(Moco),MIM
3、可视化角度
论文从不同角度,可视化了三种预训练方法的热图。下面将分别介绍:
3.1.Head内的平均注意力距离(AAD)
简单说下平均注意力距离计算方法:在得到Attntion Mat后,遍历每个token与之匹配token 的相对距离,将其求和在除以token总数。因而能够定性表示Attntion Mat关注的相对位置远近的分布(引入归纳偏置)。
在上图中,横坐标表示不同层,纵坐标表示AAD,每个圆圈表示一个Head。全监督和对比预训练在最后三层AAD基本一致,而MIM还保持了较大分布范围,因此便得出MIM能给不同层带来归纳偏置。
3.2.Head权重值的熵(权重值的分布)
论文之后可视化了每个Head的熵(-p*logp)分布,能够衡量每个Head属于全局注意力Or局部注意力。
从上图可以看出,全监督和对比预训练方法在最后三层的Head熵挺大的,表示Attention Mat关注的范围更广,即全局注意力;而MIM则在最后三层熵分布范围广,即保证局部注意力同时也保证了全局注意力。
3.3.不同Head之间权重分布相似性
上述两个指标表示MIM的Head关注范围丰富,但无法确定Head与Head之间分布相似性,因此作者又衡量了不同Head之间的分布的相似性,即利用KL散度。
上图中大圆圈表示当前层平均KL散度,MIM相较前两种预训练方法在后三层KL散度更大。即不同Head关注的token不一致。
3.4.特征图FM之间相似性
作者借助CKA指标观察了不同FM的相似度。下图是12层FM之间热力图,颜色越亮表示越相似。可以发现,MIM层与层之间FM趋于相似。
4、实验角度
该章节则是从对比实验角度比较三种预训练方法。
在感知任务上MIM效果更好,得益于MIM引入归纳偏置和Attntion Mat多样性丰富。