如何区分高频信息和低频信息?
如果一个东西是高度离散化和语义化的,一个字的差异也可能导致词语之间的含义发生重大变化,就是高频东西。例如一句话,如果你改变了一个单词,这个句子就会变成其他的意思。还有就是经过encoder后的东西,改变一个张量,可能也会导致decoder出的东西差距很大。对于图像这种,你改变几个像素值,他代表的东西还是那样的,例如你对一个狗的图片改变了几个像素块,它还是一只狗。这有点像3D中的不变性了哈哈....
举例:
语言:语言是人类创造的,本身就是高度语义和信息密集的。
图像:它在空间上是高度冗余的,对于图片中的某个部分,模型很容易由其相邻的图像块推断出来,不需要大量的高级语义信息。你改变几个像素值,他代表的东西还是那样的。
由此可见:
图像和语言的信息密度是不一样的。对于语言本身就是高度语义和信息密集的,将句子中的少量词语抹去再让模型去预测这些被抹去的词本身就已经是比较困难的任务了;
而对于图像则相反,它在空间上是高度冗余的,对于图片中的某个部分,模型很容易由其相邻的图像块推断出来,不需要大量的高级语义信息。
因此,在 CV 中,要 mask 掉图片中的较多的部分,这样才能使任务本身具有足够的挑战性,从而使模型学到良好的潜在特征表示。【也就是说设计的任务越有挑战性,模型学习到的东西越多】