在 DINO(可以理解为由DIstillation和NO labels的缩写)中,使用不同的图像裁剪策略对教师模型和学生模型进行训练有其特定的原因。具体来说,教师模型使用大图(global views),学生模型则同时使用大图(global views)和小图(local views)。这种设计背后的原理和理由如下:
数据增强
一句话总结:教师模型使用大图,学生模型使用小图和大图。
在 DINO 中,图像裁剪是核心的数据增强策略。这种策略在自监督学习领域非常常见,主要有以下两种类型的裁剪:
- Local views(局部视角):也称为 small crops,裁剪面积小于原始图像的 50%。
- Global views(全局视角):也称为 large crops,裁剪面积大于原始图像的 50%。
在 DINO 中,学生模型接收所有预处理过的裁剪图,而教师模型仅接收来自 global views 的裁剪图。这样设计的原因是为了鼓励学生模型从局部到全局的响应,训练学生模型从一个小的裁剪图中推断出更广泛的上下文信息。
简单来说,就是把局部特征和全局特征分别交给不同的模型来学习,以便在处理整个图像时,能够更好地对局部细节和上下文进行综合判断。
此外,为了增强网络的鲁棒性,DINO 还采用了一些其他的随机增强方法,包括:
- 颜色扰动(color jittering)
- 高斯模糊(Gaussian blur)
- 曝光增强(solarization)
原文链接:DINO 数据增强策略
为什么教师和学生使用同样的初始化方式
虽然教师和学生模型使用同样的初始化方式,但是由于教师模型只接受大图,所以它天然地比学生模型对全局信息有更多的关注和理解。这种设计使得教师模型拥有更多的知识,从而可以更有效地教导学生模型。
为什么学生模型也需要大图
学生模型也需要接收大图的原因有以下几点:
- 全局上下文学习:通过同时接收大图和小图,学生模型能够学习到全局上下文信息,这对于理解图像的整体结构非常重要。
- 一致性约束:在训练过程中,学生模型的输出需要与教师模型的输出保持一致。由于教师模型接收的是大图,因此学生模型也需要接收大图,以便在相同的上下文中进行比较和学习。
- 增强特征学习:通过结合大图和小图,学生模型能够同时学习到局部特征和全局特征,从而提高其在各种尺度上的特征表达能力。
总结
在 DINO 中,通过不同的裁剪策略和数据增强方法,教师模型和学生模型分别学习到全局和局部特征。这种设计不仅提高了模型的鲁棒性,还增强了模型对图像整体和细节的综合判断能力。学生模型接收大图的设计也是为了保证其在训练过程中能够与教师模型保持一致,从而有效地学习到全局上下文信息。