论文:https://arxiv.org/pdf/2403.15378.pdf
源码:https://github.com/beichenzbc/Long-CLIP
导读
CLIP(Contrastive Language–Image Pre-training),这个由 OpenAI 团队开源的多模态预训练模型,它通过对比学习的方式,同时学习图像和文本的表示,从而实现在没有针对特定任务训练的情况下(即Zero-Shot场景),对图像进行分类和理解的能力。
CLIP 模型的核心思想很简单,即利用大规模的图像和文本对进行训练,通过最大化匹配对的相似度并最小化不匹配对的相似度来学习视觉和语言的联合表示。
虽然 CLIP 发布了好几年,但包括其变体在内的相关模型目前仍被许多主流的多模态 LLM 所采用。然而,CLIP-based 模型的局限性也很明显:
-
固定长度的文本输入:CLIP模型的文本编码器(如Transformer)通常有固定的最大序列长度限制(默认77个tokens),这意味着它无法直接处理超出这一长度的文本。对于复杂的文本描述,这无疑限制了模型的理解和应用能力。
-
有效的长度严重不足:此外,实证研究指出其实际有效的长度往往不足20。这一限制使得CLIP难以处理详尽的描述,从而限制了其在需要基于丰富前提条件进行图像检索或文本到图像生成的应用场景中的适用性。
-
细粒度信息的丢失:最后,在处理长文本时,为了适应模型的输入限制,需要对文本进行摘要或分割,这可能导致一些细粒度的信息丢失,从而影响模型的性能。
为此,来自上海AI实验室与上海交大提出了一种即插即用的替代方案——Long-CLIP
,其不仅支持长文本输入,同时保持甚至超越其零样本泛化能力,并与CLIP潜在空间保持一致,使其能够无需任何额外适应直接替换 CLIP 在下游框架中的应用。
然而,实现这一目标并非易事,因为如果只是简单的微调可能会导致CLIP性能显著下降。此外ÿ