论文精读:TiC-CLIP: Continual Training of CLIP Models(一)
论文介绍
在多模态学习领域,CLIP(Contrastive Language-Image Pre-training)模型因其在图像和文本联合嵌入方面的卓越性能而受到广泛关注。然而,CLIP模型在增量学习场景下,尤其是在大规模持续学习环境中的表现,尚未得到充分研究。本篇论文旨在解决这一问题,提出了TiC-CLIP模型,以实现CLIP模型的持续训练。
CLIP模型概述
CLIP模型由OpenAI开发,它通过对比学习的方式,将图像和文本映射到同一个嵌入空间中。这种模型能够学习到跨模态的语义关系,使得它可以在没有额外标注的情况下,执行如图像描述、文本到图像的检索等任务。CLIP的成功在于其大规模的预训练和强大的跨模态学习能力。
OpenAI的CLIP模型与OpenCLIP库的区别:
在本文中他们之间主要的区别在于OpenAI的CLIP模型是一种闭源模型 其更新和改进由OpenAI团队控制,可能不会频繁更新。 而OpenCLIP库作为一个开源项目,可以更快速地集成最新的研究成果和社区贡献,从而在持续学习方面可能更具优势 。
目前的问题
一、性能和鲁棒性问题
作者通过比较OpenAI的CLIP模型与OpenCLIP库中其他近期训练的模型,发现:
- 在数据检索性能上,OpenAI模型在不同年份的数据上存在显著的性能差异,而OpenCLIP模型则保持了稳定的性能。
- 在标准评估,如ImageNet分布偏移的准确性上,OpenAI的CLIP模型表现出略微更好的鲁棒性。
- OpenAI模型与OpenCLIP模型的对比:图1展示了OpenAI的CLIP模型与OpenCLIP库中其他更近期训练的模型在零样本分类任务上的性能对比。包括了对2021-2022年数据的检索任务,以及与2014-2016年数据的比较。结果显示OpenAI的模型在最新数据上的检索性能出现了显著下降,而OpenCLIP模型则保持了较好的性能。
- 标准基准测试的鲁棒性:图1右侧展示了OpenAI的CLIP模型在标准基准测试中的鲁棒性,如ImageNet分布偏移。这些测试表明OpenAI的CLIP模型在这些标准测试中表现略好于OpenCLIP模型,意味着在面对数据分布的微小变化时,OpenAI的模型表现得稍微更鲁棒一些。
- 持续训练基线的计算效率:图2的展示了持续训练方法与从头开始重新训练的标准做法在计算效率上的对比。包括了使用先前检查点的热启动训练并回放所有旧数据的方法,与每次都从头开始训练的模型(Oracle)相比,这种方法在计算资源的使用上显著减少,同时在性能上与每次都从头开始训练的模型相当。
二、持续学习的挑战
现有的持续学习方法在处理新数据时可能会遇到困难,因为从现有模型开始训练可能会限制模型对新数据的适应能力。这引出了一个关键问题:在计算资源受限的情况下,如何使模型随着数据分布的演变而持续更新?
作者们分别对比了两种方法:
1.传统方法:缺乏任务之间自然演变的合成增量基准
2.目前方法:提高在单一或一系列不相交的下游任务上的性能,但现有的基准在规模上相对较小,或者缺乏成对的图像-文本数
提出解决方案
一、TIC-DataComp基准
作者引入了TIC-DataComp,这是一个新的CLIP模型时间连续训练基准,其特点包括:
- 迄今为止最大的公共图像-文本数据集。
- 包含以月为粒度的时间戳。
- 通过将“抓取时间”信息附加到现有的CommonPool数据集。
- 从Reddit和Flickr等不同来源收集的其他网络规模数据集。
- 包含28个标准分类和检索任务。
新的协议相比于之前的不同点如下:
1、训练的数据是顺序到达的图像-文本数据与传统的静态图像-文本数据集不同
2、增加了辅助时间信息
3、引入了动态评估任务
4、用固定的计算预算训练一个可部署的模型
5、包含三个数据集TIC-DataComp、TIC-YFCC和TIC-RedCaps
二、实验协议
作者提出了持续学习基准上的实验协议,具体步骤包括:
- (A) 在缓冲区约束下合并新旧数据。
- (B) 在给定的计算预算内,选择从先前的检查点开始(热启动)或从头开始训练模型。
- © 在标准数据集和动态数据集上评估模型。
方案效果
实验结果表明,经过TIC-DataComp训练的模型能够更好地理解新出现的概念,同时对已有事物的表现也更加具体和真实。
(左)用于文本到图像检索的样本
对于新的时间段,出现了新概念的图像(例如,COVID-19)
(右)我们分类任务中的4个类别的样本
物体随时间演变,而且最近时间段的图像更多地在野外捕获
下篇预告
1.在下一篇中我们将具体介绍他们的效果是如何具体实现的
2.他们的评估任务是如何设置的
3.他们的训练协议的详情
4.他们如何使用定量分析提出问题并解决的
敬请期待