1.关于稀疏卷积的解释:https://zhuanlan.zhihu.com/p/382365889
2.
答案:
在深度学习领域,尤其是计算机视觉任务中,遮蔽图像建模(Masked Image Modeling, MIM)是一种自监督学习策略,其基本思想是遮蔽(或隐藏)图像中的部分信息,然后训练模型去预测这些遮蔽的部分。这种方法的一个关键点是,遮蔽的图像可以被视为一个稀疏的2D像素数组。
这是因为当图像中的某些像素被遮蔽时,这些像素的值在数组中就被标记为缺失或零。因此,相对于一个完整的、密集的图像,遮蔽图像包含的信息更少,这就构成了一个稀疏的2D数组。稀疏性意味着数组中大部分元素为零,只有少数元素包含有效信息。
基于这个观察,引入稀疏卷积是合理的。稀疏卷积是一种特殊的卷积操作,它专门设计来处理这种稀疏数据。在标准的卷积操作中,滤波器(或卷积核)会在整个图像上滑动,对每个像素进行计算。但是,在遮蔽图像中,大部分像素是未知的(即遮蔽的),因此对它们进行卷积是没有意义的。
稀疏卷积操作只关注图像中可见的、未遮蔽的像素点,忽略遮蔽的像素点。这样,它能够更有效地处理遮蔽图像,并且可以减少计算量,因为不需要在遮蔽的像素上执行卷积操作。通过在编码器中使用子流形稀疏卷积来替代标准的卷积层,模型能够更加专注于可见数据点,从而在预测遮蔽部分时获得更好的性能。
总之,遮蔽图像的2D稀疏数组表示为稀疏卷积的使用提供了理论基础,这种卷积操作更符合遮蔽图像的特性,并且可以提高模型在自监督学习任务中的性能。
3、“Patch-wise normalized image”
"Patch-wise normalized image"这一概念涉及到了图像处理中的几个层级:像素级(pixel-wise)、块级(patch-wise)以及图像级(image-wise)。在理解这一概念之前,我们首先需要明确这些层级的区别。
Pixel-wise:指的是对图像中的每个像素进行操作。例如,对像素的亮度、颜色或者位置进行个别调整。
Patch-wise:涉及到图像中的局部区域,即由多个像素组成的块。在图像处理中,一个图像可以被分割成多个块,每个块包含了一定数量的像素。对这些块进行处理,而不是单个像素,可以帮助捕捉局部特征,常用于计算机视觉任务中。
Image-wise:指的是对整个图像进行操作,比如对整张图片的标签进行分类,或者对整张图片的亮度进行调整。
那么,patch-wise normalized image 是指对图像进行了块级标准化处理的图像。具体来说,就是对图像的每个块进行标准化处理,使得每个块的像素值在一定范围内具有相似的统计特性,比如使得每个块的像素均值接近零,标准差接近1。这样的处理可以使得每个块都基于自身的局部信息进行了调整,有助于在某些计算机视觉任务中改善性能,例如图像分割、物体检测等。
进行块级标准化处理的原因是,不同的图像块可能具有不同的局部特征和统计特性,这种差异可能会对某些模型的学习造成困扰。通过标准化,可以使得每个块都基于其自身的局部信息进行适应,从而有助于模型更好地学习图像的结构和内容。
总结起来,patch-wise normalized image 是指对图像的每个块分别进行了标准化处理的图像,这有助于改善某些计算机视觉任务的性能。