（ECCV，2022）Mask-CLIP：从CLIP中提取自由密集标签

文章目录

Extract Free Dense Labels from CLIP
- 相关资料
- 摘要
- 引言
- 方法
- - Mask-CLIP
  - Mask-CLIP+
- 实验

Extract Free Dense Labels from CLIP

摘要

对比语言-图像预训练（CLIP）在开放词汇的零样本图像识别方面取得了显著突破。许多最近的研究利用预训练的CLIP模型进行图像级别分类和操作。在本文中，我们希望检查CLIP在像素级密集预测方面的内在潜力，特别是在语义分割方面。为此，我们展示了通过最小修改，MaskCLIP在没有注释和微调的情况下，在各种数据集上的开放概念中产生了引人注目的分割结果。通过添加伪标记和自训练，MaskCLIP+在很大程度上超越了最先进的感应零样本语义分割方法，例如，在PASCAL VOC/PASCAL Context/COCO Stuff上未见类别的mIoUs从35.6/20.7/30.3提高到86.1/66.7/54.7。我们还测试了MaskCLIP在输入损坏下的鲁棒性，并评估了其区分细粒度对象和新概念的能力。我们的发现表明，MaskCLIP可以作为密集预测任务的新可靠监督源，实现无需注释的分割。源代码在此处可用。

引言

在这里插入图片描述

我们的模型名为MaskCLIP，我们展示了一个可以直接从CLIP的图像编码器中提取密集的补丁级特征，即最后一个注意力层的值特征，而不会破坏视觉-语言关联。用于密集预测的分类权重，本质上是1×1卷积，可以直接从CLIP文本编码器的文本嵌入中获得，而不需要任何刻意的映射。在我们的实证研究中，MaskCLIP在通过mIoU指标测量的定量性能和定性结果方面都产生了合理的预测。此外，MaskCLIP可以基于所有变体的CLIP，包括ResNets和ViTs。我们提供了两种流行的骨干网络之间的并排比较。我们还为MaskCLIP提出了两种掩码细化技术，以进一步提高其性能，即关键平滑和提示去噪，两者都不需要训练。具体来说，关键平滑计算不同补丁的关键特征（最后一个注意力层）之间的相似性，这些特征用于平滑预测。提示去噪通过删除图像中不太可能存在的类别的提示，从而减少干扰因素，使预测更加准确。

方法

在这里插入图片描述

Mask-CLIP

如图2(b)所示，与传统的全局平均池化不同，CLIP的图像编码器采用了Transformer风格的多头注意力层，其中全局平均池化的特征作为查询，每个空间位置的特征生成一个键-值对。因此，这一层的输出是对传入特征图的空间加权和，然后是线性层 $F (\cdot)$ ：
在这里插入图片描述
其中 $C$ 是一个常数缩放因子， $E mb (\cdot)$ 表示线性嵌入层。 $x_i$ 表示空间位置i的输入特征， $\bar{x}$ 是所有 $x_i$ 的平均值。Transformer层的输出作为整个图像的全面表示。我们相信这是可能的，因为在每个空间位置计算的#F(v_i)#已经捕获了与CLIP文本嵌入中的标记很好地对应的局部语义的丰富响应。
基于这样的假设，如图2(b)所示，我们在我们的新尝试中直接修改了CLIP的图像编码器：

移除查询和键嵌入层；
将值嵌入层和最后的线性层重新制定为两个各自的1×1卷积层。
我们保持文本编码器不变，它以带有目标类别的提示作为输入。每个类别的得到的文本嵌入被用作分类器。

我们将得到的模型命名为MaskCLIP，因为它产生像素级掩码预测而不是全局图像级预测。然后，我们在各种标准分割基准测试以及网络爬取的图像上评估MaskCLIP。如图1所示，MaskCLIP可以在没有任何微调或注释的情况下输出合理的结果。有人可能会争论，由于全局注意力池化是一个自注意力层，即使没有修改，它也可以生成密集的特征。然而，由于查询 $\bar{q}$ 是在CLIP预训练期间训练的唯一查询，这种朴素的解决方案失败了。我们将这个解决方案视为基线，并在实验中将其结果与我们的进行比较。此外，ViT中的Transformer层与全局注意力池化非常相似。实际上，唯一的两个区别是：

全局查询是通过一个特殊的[CLS]标记而不是所有空间位置的平均值来生成的；
Transformer层有一个残差连接。因此，通过用q[cls]替换 $\bar{q}$ 并在输出中添加输入x，MaskCLIP可以与ViT骨干一起工作。

尽管MaskCLIP与现有的分割方法相比简单，但提出的方法享有从CLIP继承的多个独特优点：

MaskCLIP可以用作免费的分割注释器，为使用有限标签的分割方法提供丰富和新颖的监督信号。
其次，由于CLIP在MaskCLIP中保留了视觉-语言关联，它自然具备分割开放词汇表类别的能力，以及由自由形式短语描述的细粒度类别，如白色汽车和红色公交车。
由于CLIP是在原始网络策划的图像上训练的，CLIP展示了对自然分布变化[45]和输入损坏[47]的巨大鲁棒性。

我们验证了MaskCLIP在一定程度上保留了这种鲁棒性。关键平滑和提示去噪。为了进一步提高MaskCLIP的性能，我们提出了两种细化策略，即关键平滑和提示去噪。回想一下，在方程3中，除了 $\bar{q}$ ，关键特征 $k_i$ 也在CLIP预训练期间得到了训练。然而，在原始的MaskCLIP中， $k_i$ 被简单地丢弃了。因此，在这里我们寻求利用这些信息来细化最终输出。关键特征可以被视为相应补丁的描述符，因此具有相似关键特征的补丁应该产生相似的预测。基于这个假设，我们提出用以下方式平滑预测：
在这里插入图片描述

其中 $k_i$ 和 $pred_i$ 分别是空间位置 $i$ 的关键特征和类别置信度预测， $_2$ 和 $cos (\cdot)$ 分别表示L2归一化和余弦相似性。我们称这种策略为关键平滑。此外，我们还观察到在处理许多目标类别时，由于在单个图像中只有一小部分类别出现，其余的类别实际上是干扰因素，会削弱性能。因此，我们提出了提示去噪，它通过移除所有空间位置上的类别置信度都小于阈值t=0.5的提示的目标类别。

Mask-CLIP+

虽然MaskCLIP不需要任何训练，但其网络架构受限于CLIP的图像编码器。为了从架构限制中解放MaskCLIP并整合更高级的架构，如PSPNet[55]和DeepLab[5,6]，我们注意到可以在训练时而不是推理时部署MaskCLIP，它充当一个通用且鲁棒的注释器，提供高质量的伪标签。结合标准的自训练策略，得到的模型，称为MaskCLIP+，实现了显著的卓越性能。除了无需注释和开放词汇表分割，MaskCLIP+也可以应用于感应零样本语义分割任务，其中MaskCLIP仅为未见类别生成伪标签。