经典多模态模型CLIP - 直观且详尽的解释

阅读原文

在本文中，您将了解“contrastive language-image pre-training”（CLIP），这是一种创建视觉和语言表示的策略，效果非常好，可用于制作高度特定且性能卓越的分类器，而无需任何训练数据。本文将介绍其理论，CLIP 与更传统的方法有何不同，然后逐步介绍其架构。

这对谁有用？任何对计算机视觉、自然语言处理 (NLP) 或多模态建模感兴趣的人。

经典图像分类器

在训练模型检测图像是猫还是狗时，一种常见的方法是向模型提供猫和狗的图像，然后根据误差逐步调整模型，直到学会区分两者。

这种传统的监督学习形式在许多用例中都是完全可以接受的，并且众所周知在各种任务中表现良好。然而，这种策略也会导致高度专业化的模型，这些模型仅在其训练的范围内表现良好。

将 CLIP 与传统的监督模型进行比较，每个模型都使用 ImageNet（一种流行的图像分类数据集）进行训练，并且表现良好，但当暴露于包含不同表示形式的相同类别的类似数据集时，传统监督模型的性能会大幅下降，而 CLIP 则不会。这意味着 CLIP 中的表示形式比其他方法更稳健、更通用。因为CLIP为了解决过度专业化的问题，采用了完全不同的分类方法；通过对比学习来学习图像与其注释之间的关联。

CLIP 简介

如果我们不创建一个可以预测图像是否属于某个类别的模型，而是创建一个可以预测图像是否属于某个任意标题的模型，结果会怎样？这是一种微妙的思维转变，为全新的训练策略和模型应用打开了大门。

CLIP 的核心思想是使用从互联网上抓取的带字幕的图像来创建一个模型，该模型可以预测文本是否与图像匹配。

CLIP 通过学习如何对图像和文本进行Embedding来实现这一点，当将文本和图像Embedding相互比较时，匹配的图像具有较高的相似度，而不匹配的图像具有较低的相似度。**本质上，该模型学习将图像和文本映射到同一个Embedding空间中，使得匹配的图和文Embedding彼此靠近，而不匹配的图和文Embedding彼此相距较远。**这种学习预测事物是否属于同一类或不属于同一类的策略通常被称为“对比学习” (contrastive Learning)。

在 CLIP 中，对比学习是通过学习文本编码器和图像编码器来完成的，它们学习将输入映射到向量空间中的某个位置。然后，CLIP 在训练期间比对这些位置，并尝试最大化不匹配的图和文的Embedding距离，并最小化匹配的图和文的Embedding距离。

CLIP 采用的训练策略允许我们做各种各样的事情：

我们可以通过询问模型哪些文本（如“一张猫的照片”和“一张狗的照片”）最有可能与图像相关联来构建图像分类器
我们可以构建一个图像搜索系统，用于查找与输入文本最相关的图像。例如，我们可以查看各种图像，并找出哪张图像最有可能对应于文本“一张狗的照片”
我们可以使用图像编码器来提取与文本相关的图像的抽象信息（Embedding）。编码器可以将图像的信息嵌入成一个embedding，由此图像的信息可通过Embedding供其他机器学习模型使用。
同样我们可以抽取文本的Embedding可供其他机器学习模型使用。