Grounded Language-Image Pre-training论文笔记

Title：Grounded Language-Image Pre-training

Code

文章目录

1. 背景
2. 方法
- （1）Unified Formulation
- - 传统目标检测
  - grounding目标检测
- （2）Language-Aware Deep Fusion
- （3）Pre-training with Scalable Semantic-Rich Data
3. 实验
- （1）数据集简介
- （2）GLIP消融实验
参考

1. 背景

目前的视觉识别任务通常是在一个预先定义好的类别范围内进行的，这样限制了其在真实场景中的扩展。CLIP的出现打破了这一限制，CLIP利用image-text对进行训练，从而使得模型可以根据文字prompt识别任意类别。CLIP适用于分类任务，而GLIP尝试将这一技术应用于目标检测等更加复杂的任务中。

在本文中，作者提出了phrase grounding的概念，意思是让模型去学习图片和句子短语之间更加精细的联系。

GLIP的主要贡献如下：

将phrase grounding和目标检测任务统一，将image和text prompt同时输入到目标检测网络中，prompt中带有图片中所有类别的详细描述。
GLIP采用了丰富的预训练数据，使得它的预训练模型可以更轻松地迁移到下游任务中。预训练的GLIP在COCO数据集上finetune之后达到了60.8 AP（2017val）和61.5AP（test-dev），超过了目前的SOTA模型。
One model for all，GLIP可以迁移到多样化的任务中。它在不使用额外标注的情况下，在coco val2017和LVIS数据集上分别达到了49.8AP和26.9AP。

2. 方法

在这里插入图片描述

（1）Unified Formulation

传统目标检测

一个典型的目标检测网络的结构如下：

将图片输入到visual encoder $Enc_I$ 中提取特征 $O$ ，visual encoder通常是CNN、Transformer等backbone；
将特征 $O$ 输入到classifier $C$ 和bbox regressor $R$ 中得到分类结果和bbox回归结果；
分别计算分类损失和框回归损失，整体Loss公式: $L=L_{cls}+L_{loc}$

上述计算分类Loss的流程可以用公式表达为：

在这里插入图片描述
其中 $T$ 代表target； $W$ 是分类器参数。

grounding目标检测

与上述分类器不同，GLIP将目标检测任务与phrash grounding统一，将目标检测中的每个region/bbox与text prompt进行匹配以实现分类效果。

举例来说，假设我们有[person, bicycle, car, ..., toothbrush]等类别，我们可以设计一个这样的prompt，其中每一个类别名字都是一个phrase：

在这里插入图片描述

grounding模型中的分类流程可以用公式表示为：

在这里插入图片描述
其中 $P$ 是language encoder得到的文字特征， $S_{ground}$ 的计算过程如下如图示：计算图像的region和prompt中的word之间的对齐分数:

然而，在计算对齐分数时，一个短语（phrase）可能包含多个word tokens，这就导致一个类别可能对应多个子单词（sub-words）。针对这个问题，本文是这样做的：当这些sub-words的phrase与目标region匹配时，每个positive sub-word都与目标region所匹配。**例如，吹风机的phrase是“Hair dryer”，那么吹风机的region就会与“Hair”和“dryer”这两个词都匹配，**如下图所示：

在这里插入图片描述

（2）Language-Aware Deep Fusion

在CLIP等算法中，image和text特征通常只在最后用于计算对比学习的loss，我们称这样的算法为late-fusion model。在本文中，作者在image和text特征之间引入了更深层次的融合（deep fusion），在最后几个encoder layer中进行了image和text的信息融合，如下图所示：

在这里插入图片描述

deep-fused encoder可以用以下公式来表示：

在这里插入图片描述
其中， X-MHA代表跨模态多头注意力模块（multi-head attention module），L代表DyHead中DyHeadModule的个数，BERTLayer是额外添加在预训练BERT模型之上的层， $O^0$ 是vision backbone提取的图像特征， $P^0$ 是language backbone提取的文字特征。

X-MHA是用于跨模态信息融合的关键模块 (cross attention) ，它的公式如下所示：
在这里插入图片描述
deep-fused有两个优点：

提升了phrase grounding的表现；
使得图像特征的学习与文字特征产生关联，从而让text prompt可以影响到检测模型的预测。

（3）Pre-training with Scalable Semantic-Rich Data

同时使用目标检测和grounding数据；
另外通过利用gold data训练教师GLIP，使用这个教师模型来预测24M web image-text数据，为image caption数据得到了检测伪标签；
也就是说，GLIP可以同时利用目标检测数据集，grounding数据集，image caption数据集，极大丰富了训练数据量；

3. 实验

（1）数据集简介

在这里插入图片描述

COCO：目标检测数据集，包含80个常见对象类别；
LVIS：目标检测和实例分割数据集，涵盖1203个对象类别；
Object365：是一个大规模的目标检测数据集，总共包含63万张图像，覆盖365个类别，高达1000万框数；
Microsoft COCO Captions 数据集：该数据集为超过 33 万张图片提供了超过 150 万条人工生成的图片描述。
Flickr30k：给定了31783张图像以及158915个文本注释，一张图片对应5个注释，并将它们与 276K 个手动标注的边界框关联起来。
Visual Genome（VG）是斯坦福大学李飞飞组于2016年发布的大规模图片语义理解数据集，数据集汇总最主要的构成是Region Description，每个region/bbox都有与其对应的一句自然语言描述。
GQA数据集包含22,669,678个问题和113,018张图片，数据集中覆盖的词汇量有3,097个，答案类型有1,878个，同时也包含对应的bbox注释；
Conceptual Captions （CC）是一个数据集，由约 330 万张带有字幕注释的图像组成。
SBU Captions数据集最初将图像字幕作为一个检索任务，包含 100 万个图片网址 + 标题对。

最后使用的数据集有：

FourODs (2.66M data): 4 detection datasets including Objects365, OpenImages, Visual Genome (excluding COCO images), and ImageNetBoxes
GoldG (0.8M): human-annotated gold grounding data curated by
MDETR, including Flickr30K, VG Caption and GQA.
Cap4M / Cap24M

（2）GLIP消融实验

作者设计了多个版本的GLIP用于对比试验：

GLIP-T(A)：基于SoTA模型Dynamic Head，将其中的分类损失替换为GLIP的alignment loss，预训练数据为Objects365（66万人工标注数据）；
GLIP-T(B)：在GLIP-T(A)的基础上加入deep fusion；
GLIP-T：加入更多数据：Cap4M（400万网上爬取的数据）；
GLIP-L：基于Swin-Large，并采用更大量的数据集，包含：FourODs（2.66M）、GoldG（0.8M）、Cap24M（24M）；

在这里插入图片描述

由于 Objects365 覆盖了 COCO 中的所有类别，因此Objects365 预训练的 DyHead-T 在COCO上表现优异，达到了43.6AP；若将模型重新构建为grounding模型，性能略有下降 (GLIP-T (A))；添加深度融合将性能提升 2AP (GLIP-T (B))； GoldG数据对性能的提升贡献最大，GLIP-T © 达到 46.7 AP。虽然添加图像-文本数据对 COCO 有轻微或没有改进（GLIP-T 与 GLIP-T ©），作者发现它对于推广到稀有种类至关重要，并在LVIS 实验中进一步展示了这一现象。

在这里插入图片描述

Gold grounding数据使 Mini-Val APr (GLIP-T© 与 GLIP-T (B)) 相比提高了 4.2 个点。这进一步表明grounding数据对性能的提升有显著的贡献。另外，添加图像-文本数据进一步提高了 3.1 个点的性能。因此，基础数据的语义丰富性可能有助于模型识别稀有物体。