会议:CVPR
年份:2022
代码:https://github.com/NVlabs/GroupViT
研究背景与动机:
- 传统深度学习系统中,图像区域的Grouping通常是隐式通过像素级识别标签的自上而下监督来实现的。
- 作者提出将Grouping机制重新引入深度网络,通过文本监督自动实现语义区域的Group。
主要贡献:
- 在深度网络中超越规则形状的图像网格,引入了一种新的GroupViT架构,以将视觉概念进行分层自底向上的分组为不规则形状的Group。
- 没有任何像素级标签和训练,只有使用对比损失的图像级文本监督,GroupViT成功地学会了将图像区域分组在一起,并以零样本的方式迁移到几个语义分割词汇表。
- 据我们所知,本文是在不使用任何像素标签的情况下,探索从文本监督单独到几个语义分割任务的零样本迁移的第一项工作,并为这项新任务建立了强大的基线。
网络架构
group简单说如果有一些聚类的中心点,从这些中心点开始发散,把周围相似的点逐渐扩散成一个group,最后这个group即相当于一个Segmentation mask。
Group ViT
的贡献就是在现有的ViT模型中加入计算单元Grouping Block
,同时加入了可学习的Group Tokens
。这样模型在初期学习的时候就能慢慢一点点的将相邻的元素group起来,最后变成一个个segmentation mask
。
- (a) GroupViT 的架构和训练管道。GroupViT 包含一个 Transformer 层的层次结构,分为阶段,每个层都在逐渐更大的视觉段上运行。右边的图像显示了出现在不同Group阶段的视觉片段。较低的阶段将像素Group为对象部分,例如大象的鼻子和腿;较高的阶段进一步将它们合并到整个对象中,例如整个大象和背景森林。
- (b) 分组块的架构。每个分组阶段都以一个Group块结束,该Group块计算学习的组标记和段(图像)标记之间的相似性。该分配是通过组标记的 gumbel softmax 计算的,并转换为 one-hot 硬分配。分配给同一组的片段标记合并在一起,并表示输入到下一个分组阶段的新段标记。
(a) GroupViT架构和训练流程
- 输入图像:输入的图像首先被分割成多个图像块,每个图像块都被称为“Image Token”。
- 线性投影:这些图像块经过线性投影后,形成初始的表示。
- Transformer层:这些表示随后被输入到一系列的Transformer层中进行处理。
- Grouping Block:在Transformer层之间,有多个“Grouping Block”,每个Grouping Block通过Gumbel-Softmax方法进行分组。具体来说,Grouping Block接收来自上一层的特征表示,利用可学习的Group Token对这些表示进行分组,形成新的表示。
- 组表示和细分表示:在每个Grouping Block中,分组后的表示({g^l_i})和细分表示({s^l_i})会被送到下一个Transformer层中进行进一步处理。
- 文本编码器:同时,文本描述(如图中的“Two elephants in the jungle this morning”)会被输入到文本编码器中,生成文本的表示(z^T)。
- 对比损失:图像表示(z^I)和文本表示(z^T)通过多层感知机(MLP)进行处理,并利用对比损失进行训练,以便图像和文本表示在共享空间中靠近。
(b) Grouping Block
- 输入表示:每个Grouping Block接收来自上一层的细分表示({s^l_i})和组表示({g^l_i})。
- 线性变换:细分表示通过三个线性变换W_q、W_k和W_v,生成查询、键和值。
- Gumbel-Softmax:使用Gumbel-Softmax进行加权求和,以获得组表示的加权值。
- 线性变换:组表示经过线性变换W_o后,与原细分表示相加,生成新的细分表示({s^{l+1}_i})。
- 输出表示:新的细分表示会被传递到下一层Transformer中。
通过对比损失进行对齐:
多标签图像-文本对比损失。给定一个输入图像-文本对,我们通过提取它的名词并用几个句子模板提示它们来从原始文本中生成新文本。对于对比学习,我们只将匹配的图像和文本对视为正样本。我们训练 GroupViT 和文本编码器来最大化正图像-文本对之间的特征相似度,并最小化负对之间的特征相似度。
GroupViT 零样本转移到语义分割:
GroupViT的每个输出段的嵌入对应于图像的一个区域。将每个输出段分配给嵌入空间中图像-文本相似度最高的对象类。
实验结果
GroupViT 大大优于其他分组方法。这表明,与使用 CLIP 训练的 ViT 相比,我们的 GroupViT 在 zeroshot 转移到语义分割方面更有效。
总结
我们迈出了仅使用文本学习语义分割的第一步,无需任何明确的人工监督。我们表明,使用 GroupViT,从大规模噪声图像-文本对学习的表示可以以零样本的方式转移到语义分割中。这项工作还表明,除了图像分类之外,文本监督还可以转移到更细粒度的视觉任务,这些任务以前没有探索过,并开辟了令人兴奋的研究方向。