论文精读:TiC-CLIP: Continual Training of CLIP Models(一)

论文精读:TiC-CLIP: Continual Training of CLIP Models(一)

在这里插入图片描述

论文介绍

在多模态学习领域,CLIP(Contrastive Language-Image Pre-training)模型因其在图像和文本联合嵌入方面的卓越性能而受到广泛关注。然而,CLIP模型在增量学习场景下,尤其是在大规模持续学习环境中的表现,尚未得到充分研究。本篇论文旨在解决这一问题,提出了TiC-CLIP模型,以实现CLIP模型的持续训练。

CLIP模型概述

CLIP模型由OpenAI开发,它通过对比学习的方式,将图像和文本映射到同一个嵌入空间中。这种模型能够学习到跨模态的语义关系,使得它可以在没有额外标注的情况下,执行如图像描述、文本到图像的检索等任务。CLIP的成功在于其大规模的预训练和强大的跨模态学习能力。

OpenAI的CLIP模型与OpenCLIP库的区别:

在本文中他们之间主要的区别在于OpenAI的CLIP模型是一种闭源模型 其更新和改进由OpenAI团队控制,可能不会频繁更新。 而OpenCLIP库作为一个开源项目,可以更快速地集成最新的研究成果和社区贡献,从而在持续学习方面可能更具优势 。

目前的问题

一、性能和鲁棒性问题

作者通过比较OpenAI的CLIP模型与OpenCLIP库中其他近期训练的模型,发现:

  • 在数据检索性能上,OpenAI模型在不同年份的数据上存在显著的性能差异,而OpenCLIP模型则保持了稳定的性能。
  • 在标准评估,如ImageNet分布偏移的准确性上,OpenAI的CLIP模型表现出略微更好的鲁棒性。

在这里插入图片描述
在这里插入图片描述

  1. OpenAI模型与OpenCLIP模型的对比:图1展示了OpenAI的CLIP模型与OpenCLIP库中其他更近期训练的模型在零样本分类任务上的性能对比。包括了对2021-2022年数据的检索任务,以及与2014-2016年数据的比较。结果显示OpenAI的模型在最新数据上的检索性能出现了显著下降,而OpenCLIP模型则保持了较好的性能。
  2. 标准基准测试的鲁棒性:图1右侧展示了OpenAI的CLIP模型在标准基准测试中的鲁棒性,如ImageNet分布偏移。这些测试表明OpenAI的CLIP模型在这些标准测试中表现略好于OpenCLIP模型,意味着在面对数据分布的微小变化时,OpenAI的模型表现得稍微更鲁棒一些。
  3. 持续训练基线的计算效率:图2的展示了持续训练方法与从头开始重新训练的标准做法在计算效率上的对比。包括了使用先前检查点的热启动训练并回放所有旧数据的方法,与每次都从头开始训练的模型(Oracle)相比,这种方法在计算资源的使用上显著减少,同时在性能上与每次都从头开始训练的模型相当。

二、持续学习的挑战

​ 现有的持续学习方法在处理新数据时可能会遇到困难,因为从现有模型开始训练可能会限制模型对新数据的适应能力。这引出了一个关键问题:在计算资源受限的情况下,如何使模型随着数据分布的演变而持续更新?

​ 作者们分别对比了两种方法:

​ 1.传统方法:缺乏任务之间自然演变的合成增量基准

​ 2.目前方法:提高在单一或一系列不相交的下游任务上的性能,但现有的基准在规模上相对较小,或者缺乏成对的图像-文本数

提出解决方案

一、TIC-DataComp基准

作者引入了TIC-DataComp,这是一个新的CLIP模型时间连续训练基准,其特点包括:

  • 迄今为止最大的公共图像-文本数据集。
  • 包含以月为粒度的时间戳。
  • 通过将“抓取时间”信息附加到现有的CommonPool数据集。
  • 从Reddit和Flickr等不同来源收集的其他网络规模数据集。
  • 包含28个标准分类和检索任务。

新的协议相比于之前的不同点如下:

​ 1、训练的数据是顺序到达的图像-文本数据与传统的静态图像-文本数据集不同

​ 2、增加了辅助时间信息

​ 3、引入了动态评估任务

​ 4、用固定的计算预算训练一个可部署的模型

​ 5、包含三个数据集TIC-DataComp、TIC-YFCC和TIC-RedCaps

二、实验协议

作者提出了持续学习基准上的实验协议,具体步骤包括:

  • (A) 在缓冲区约束下合并新旧数据。
  • (B) 在给定的计算预算内,选择从先前的检查点开始(热启动)或从头开始训练模型。
  • © 在标准数据集和动态数据集上评估模型。

在这里插入图片描述

方案效果

实验结果表明,经过TIC-DataComp训练的模型能够更好地理解新出现的概念,同时对已有事物的表现也更加具体和真实。

在这里插入图片描述

(左)用于文本到图像检索的样本

对于新的时间段,出现了新概念的图像(例如,COVID-19)

(右)我们分类任务中的4个类别的样本

物体随时间演变,而且最近时间段的图像更多地在野外捕获

下篇预告

1.在下一篇中我们将具体介绍他们的效果是如何具体实现的

2.他们的评估任务是如何设置的

3.他们的训练协议的详情

4.他们如何使用定量分析提出问题并解决的

敬请期待
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/56334.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【C++】vector(1)

😈个人主页: 起名字真南 😈个人专栏:【数据结构初阶】 【C语言】 【C】 目录 引言1 vector 的基本知识1.1 vector 的特点 2 vector 的主要功能和操作2.1 vector 的构造2.2 vector 的增删改查2.3 vector 的容量 引言 在C的标准模板库(STL&…

MySQL——数据库

什么是数据库 数据库(DB , DataBase)概念:数据仓库,软件,安装在操作系统(window,linux,max,...)之上学习数据库最重要的就是学习SQL语句存储500万以下的数据…

鸿蒙HarmonyOS————ArkTs介绍(1)

最近除了人工智能,还有一个很火的HarmonyOS,HarmonyOS是华为公司开发的一款面向全场景的分布式操作系统,旨在为消费者提供跨设备无缝协同体验。它支持多种智能终端设备,包括但不限于智能手机、平板电脑、智能穿戴设备、智能家居设…

<Project-11 Calculator> 计算器 0.3 年龄计算器 age Calculator HTML JS

灵感 给工人发工资是按小时计算的,每次都要上网,我比较喜欢用 Hours Calculator ,也喜欢它的其它的功能, 做个类似的。 我以为是 Python,结果在学 javascript 看 HTML,页面的基础还停留在 Frontpage 2000…

【学术论文投稿】自动化运维:解锁高效运维的密钥

【连续三届IEEE出版|EI检索】第三届图像处理、计算机视觉与机器学习国际学术会议(ICICML 2024)_艾思科蓝_学术一站式服务平台 更多学术会议请看:https://ais.cn/u/nuyAF3 目录 引言 一、自动化运维概述 1. 自动化运维的定义 2. 自动化运…

Qt中使用线程之QRunnable

1、自定义1个子类继承自QRunnable 2、重写run方法,编写子线程的业务逻辑 3、使用QThreadPool的全局方法来开启这个线程 4、线程的回收不需要关注,由QThreadPool处理 5、缺点:无法使用信号槽机制 6、适合一些不需要和主线程通信的耗时的任…

SpringBoot中大量数据导出方案:使用EasyExcel并行导出多个excel文件并压缩zip后下载

文章目录 前言一、控制器层代码二、服务层代码三、代码亮点分析 前言 SpringBoot的同步excel导出方式中,服务会阻塞直到Excel文件生成完毕,如果导出数据很多时,效率低体验差。有效的方案是将导出数据拆分后利用CompletableFuture,…

【图论】(四)最小生成树与拓扑排序

最小生成树与拓扑排序 最小生成树之prim(P算法)相关概念结题思路拓展 最小生成树之kruska(K算法)过程模拟程序实现拓展 拓扑排序背景与思路模拟过程程序实现 最小生成树之prim(P算法) 相关概念 P算法是用…

『完整代码』坐骑召唤

创建一个按钮 作为召唤/消失坐骑的开关 将预制体放入指定文件夹 命名为Mount01 创建脚本并编写:CallMount.cs using UnityEngine; using UnityEngine.UI; public class CallMount : MonoBehaviour{public Button callBtn;GameObject mountPrefab;GameObject mountIn…

CentOS7 上安装GitLab的经历

一、安装必要的基础环境 1.安装依赖包 [rootgitlab-server ~]#yum install curl policycoreutils openssh-server openssh-clients postfix wget git patch -y [rootgitlab-server ~]# systemctl start postfix 2.配置yum源(由于网络问题,国内用户请使用清华大学…

导数的概念及在模型算法中的应用

一. 导数概念与计算 1. 导数的物理意义: 瞬时速率。一般的,函数yf(x)在x处的瞬时变化率是 2. 导数的几何意义: 曲线的切线,当点趋近于P时,直线 PT 与曲线相切。容易知道,割线的斜率是当点趋近于 P 时&…

数字孪生:引领智慧农业的未来

在现代农业中,数字化与智能化的浪潮正在改变传统的种植方式。数字孪生技术作为一种创新的数字化解决方案,正在深刻改变智慧农业的面貌,尤其是在大棚智能控制、数据全面可视、加工过程监控和物流运输溯源等方面展现出巨大的潜力。 frontop数字…

【动手学深度学习】8.1. 序列模型(个人向笔记)

想象一下有人正在看网飞(Netflix,一个国外的视频网站)上的电影。 一名忠实的用户会对每一部电影都给出评价, 毕竟一部好电影需要更多的支持和认可。 然而事实证明,事情并不那么简单。 随着时间的推移,人们对…

《Python基础教程》笔记(ch0-1)

前言 在Python生态系统中,各种包轮番登场,各种编码实践大行其道后又日渐式微。 引言 Python是什么?为何要使用它?官方宣传说:Python是一种面向对象的解释性高级编程语言,具有动态语义。 这句话的要点在…

监控易DEMO功能深度解析:运维行业的智能化转型新助力

在数字化转型的浪潮中,运维行业正面临着前所未有的变革与挑战。为了应对日益复杂的IT架构和不断提升的运维需求,监控易的集中式跨平台一体化监控软件不断升级优化,以适应新的运维环境。本文将对监控易DEMO的功能进行深度解析,探讨…

简单介绍冯诺依曼体系

现代的计算机, 大多遵守冯诺依曼体系结构 CPU中央处理器:进行算术运算和逻辑判断。存储器:分为外存和内存,用于存储数据(使用二进制方式存储)。输入设备:用户给计算机发号施令。输出设备:计算机…

Hadoop生态圈三大组件:HDFS的读写流程、MapReduce计算流程、Yarn资源调度

文章目录 1. HDFS的读写流程1.1 HDFS读流程1.2 HDFS写流程 2. MapReduce计算流程3. Yarn资源调度一、客户端请求资源二、Resource Manager处理请求三、任务资源计算与申请四、Resource Manager分配资源五、Node Manager执行任务六、任务执行与监控 1. HDFS的读写流程 1.1 HDFS…

沃德商协会管理系统小程序源码

商协会管理系统小程序,作为新一代数字化商协会运营管理的先锋工具,其核心围绕“智慧化会员体系、智敏化内容运营、智能化活动构建”三大核心板块精心构建。这一系统通过智慧化会员体系,实现了会员信息的精准管理与高效互动,不仅简…

2024_E_100_连续字母长度

连续字母长度 题目描述 给定一个字符串&#xff0c;只包含大写字母&#xff0c;求在包含同一字母的子串中&#xff0c;长度第 k 长的子串的长度&#xff0c;相同字母只取最长的那个子串。 输入描述 第一行有一个子串(1<长度<100)&#xff0c;只包含大写字母。 第二行为…

Rancher2.6管理k8s1.23

Rancher2.6管理k8s1.23 简介Rancher和k8s的区别 安装rancher初始化实验环境新增hosts文件条目安装docker 安装Rancher登录Rancher平台 通过Rancher仪表盘管理k8s集群&#xff1a;部署tomcat服务创建Ingress资源创建ingress规则 简介 Rancher是一个开源的企业级多集群Kubernete…