CLIP: Learning Transferable Visual Models From Natural Language Supervision

 1、引言

        论文链接:ReadPaper

        现在最先进的计算机视觉系统都是训练模型来预测一组固定的、预定义好的目标类别(如 ImageNet 的 1000 类和 COCO 的 80 类)。这种受限制的监督形式限制了它们的通用性和可用性,因为需要额外的标记数据和训练来指定任何其他视觉概念(新类别)。直接从有关图像的原始文本中学习是一种很有前途的替代方案,它利用了更广泛的监督来源。Alec Radford[1] 等证明了预测哪个 caption 与哪个图像是配对的这样一个简单预训练任务是在从互联网收集的 4 亿个图像-文本对数据集 WIT(WebImageText)[1] 上从头学习 SOTA(State of the Art) 图像表示的一个有效且可扩展的方法。预训练之后,自然语言引导模型去做物体分类,分类不局限于已经学到的视觉概念,还能扩展到新的类别,即这个模型是能够直接在下游任务上做 zero-shot 推理。这种方法被称为 CLIP(Contrastive Language-Image Pre-training)[1],在涵盖 OCR,视频动作识别、geo-localization 和许多细粒度的分类的 30 多个数据集上进行测试来评估其性能,发现 CLIP 能轻松地迁移到大多数任务,并且能达到和有监督的 baseline 方法差不多的性能,而无需任何数据集特定的训练。例如在 ImageNet 上,CLIP 在不使用那 1.28 M 训练样本的情况下,就能得到和有监督的 ResNet-50 差不多的结果[1]。

2、方法

2.1  预训练

图1 对比预训练

        如图 1 所示,CLIP 的训练数据是图像-文本对。假设每个训练 batch 里有 N 个图片-文本对,N 个图片输入到 Image Encoder 得到 N 个图片特征向量(I1、I2、I3、...、IN),N 个文本输入到 Text Encoder 得到 N 个文本特征向量(T1、T2、T3、...、TN),将图片特征向量和文本特征向量投影到相同的模态(维度)后,N 个图片特征向量和 N 个文本特征向量两两计算余弦相似度(两个向量夹角的余弦值,即先 L2 归一化再求点积)得到 N*N 的相似度矩阵。对比学习非常灵活,只需要正样本和负样本的定义,即配对的图片-文本对就是正样本,否则为负样本,特征矩阵里对角线上的都是正样本,其它元素都是负样本,即共 N 个正样本, N(N−1) 个负样本,有了正负样本,模型就可以通过对比学习的方式去训练了,不需要任何手工标注。这种无监督的训练方式需要大量训练数据。

图2 Numpy矩阵形式的CLIP伪代码

        CLIP Numpy 矩阵形式的伪代码如图 2 所示, Image Encoder 输入的 shape 是 [n, h, w, c],Text Encoder 输入的 shape 是 [n, l],其中 n=batch_size,h、w、c 分别为图片的高、宽和通道数,l 是指序列长度。Image Encoder 是 ResNet/Vision Transformer,Text Encoder 是 CBOW/Text Transformer,Image Encoder 输出 n 个图片特征向量(shape=[n, d_i]),Text Encoder 输出 n 个文本特征向量(shape 为 [n, d_t] )。然后将图片特征向量和文本特征向量投影到相同的维度 d_e(模态)后 L2 归一化,再让 n 个图片特征向量和 n 个文本特征向量两两计算内积得到 shape=[n, n] 的相似度矩阵,相似度矩阵乘以一个温度系数 t(对数初始化)后便得到缩放的相似度矩阵 logits。根据上述正负样本的定义 labels 是 np.arange(n),分别计算图片-文本的交叉墒损失 loss_i(把图片看作样本,文本看作标签),和文本-图片的交叉墒损失 loss_t(把文本看作样本,图片看作标签),最终 loss 为 loss_i 和 loss_t 的均值。之所以 labels 是 np.arange(n) 是因为不管把图片看作样本还是把文本看作样本,样本和标签都是配对的,即第 0 个样本的标签一定是 0,第 1 个样本的标签是一定 1,...,第 n 个样本的标签一定是 n,从而使训练目标是使 logits 对角线上的元素尽量接近 1,其它元素尽量接近 0,即正确配对图片和文本。

2.2  Zero-Shot Transfer

图3 CLIP实现zero-shot分类       

        CLIP 在 WIT 上预训练后,如图 3 所示只需 2 步就能实现 zero-shot 分类:

        (1)从标签文本中构建数据集分类器:根据下游任务的分类标签构建每个类别的描述文本,例如 A photo of a {object},然后将这些文本送入 Text Encoder 得到对应的文本特征向量,如果类别数目为 N,那么将得到 N 个文本特征向量(T1、T2、T3、...、TN)。

        (2)使用数据集分类器进行 zero-shot 预测:将要预测的图像送入 Image Encoder 得到图像特征向量 I1,所有向量投影到相同模态后计算 I1 与 N 个文本特征向量缩放的余弦相似度(和训练过程一致),然后选择相似度最大的文本对应的类别作为图像分类预测结果,可以进一步将这些相似度看成 logits,送入 softmax 后可以得到每个类别的预测概率。

        如图 3 所示,利用 CLIP 的多模态特性为具体的任务构建了动态的分类器,其中 Text Encoder 提取的文本特征可以看成分类器(一个全连接层)的权重,而 Image Encoder 提取的图像特征是分类器的输入。

2.3  Prompt Engineering and Ensembling

        如果在做文本和图片匹配的时候,每次只用标签对应的词(组)来做文本的特征提取,就有可能遇到一词多义问题,即因缺乏上下文信息使模型无法区分是哪个词义,比如在 ImageNet 里面同时包含两个类,construction cranes 和 cranes,在不同的语境下,这两个 cranes 对应的意义是不一样的,在建筑工地环境下,construction cranes 指起重机,作为动物,cranes 指的是鹤。同时在预训练时匹配的文本一般都是一个句子,很少出现一个单词的情况,如果推理时文本输入只是一个词(组),可能就存在 distribution gap 的问题,提取出来的特征可能不好。

        基于这两个问题,作者提出使用提示模版(ImageNet 上使用“A photo of a {label}.”)把单词变成一个句子以缓解 distribution gap,且能一定程度上解决歧义性的问题。比如 remote 这个单词在模版中就是指遥控器,而不是遥远的。使用提示模板之后,CLIP 在 ImageNet 上的准确率提升了 1.3%[1]。

        作者还尝试集成多个 zero shot 分类器,即 prompt ensembling ,作为提高性能的另一种方式。这些分类器是在不同的上下文提示下得到的,作者在 ImageNet 上共集成了 80 个不同的提示模版,在只使用一个提示模版的基础上进一步提高了 3.5% 的准确率[1]。

2.4  Representation Learning     

        [1] 中还进行了 representation Learning 实验,即自监督学习中常用的 linear probe:用预训练好的模型先提取特征,然后有监督训练一个线性分类器。发现 CLIP 在性能上超过其它模型,而且计算更高效。

3、总结

        [1] 中还发现 CLIP 在自然分布漂移上表现得更鲁棒;人类从几个样本中学习的方式和 [1] 中的few-shot 方法之间存在很大差异,并推测找到一种将先验知识正确集成到 few-shot 学习中的方法是对 CLIP 算法改进的重要一步;采用一个重复检测器对训练集和测试集的重合率做了检测,发现重合率的中位数为 2.2%、平均值为 3.2%,去重前后在大部分数据集上的性能没有太大变化[1]。

        CLIP 的局限性如下所示:

        (1)CLIP 的 zero-shot 性能虽然和有监督的 ResNet50 相当,但仍远低于 SOTA,作者估计要达到 SOTA 的效果,还需要增加 1000 倍的计算量,目前而言没有可行性,有必要进一步研究如何提高 CLIP 的计算效率和数据效率。

        (2)CLIP 的 zero-shot 性能在某些数据集上表现较差,如细粒度分类,抽象任务等。

        (3)CLIP 在自然分布漂移上表现鲁棒,但是依然存在域外泛化问题。

        (4)尽管 CLIP 可以灵活地为各种任务和数据集生成零样本分类器,但 CLIP 仍然仅限于从给定的零样本分类器中选择这些概念。与可以生成新颖输出的图像 captioning 等真正灵活的方法相比,这是一个重大限制。值得尝试的想法有:联合训练对比目标和生成目标;在推理时对给定图像的多个自然语言解释执行搜索。

        (5)CLIP 并没有解决深度学习的数据效率低下难题,将 CLIP 与 self-supervision[2,3] 和 self- training[4] 方法相结合是一个很有前途的方向,因为它们具有比标准监督学习更高数据效率。

        (6)尽管 CLIP 专注于 zero-shot 迁移,但作者反复查询完整验证集的性能以指导 CLIP 的开发。这些验证集通常有数千个示例,这对于真正的 zero-shot 场景是不现实的。 CLIP 的主要结果使用了 27 个数据集的一些随意组装集合,这些数据集不可否认地与 CLIP 的开发和功能共同适应。创建一个新的任务基准以明确评估广泛的零样本迁移能力,而不是重复使用现有的监督数据集,将有助于解决这些问题。

        (7)CLIP 在从互联网收集的图像-文本对数据集上进行训练。这些图像-文本对未经过滤和整理,导致 CLIP 学习了许多社会偏见。

        (8)人类从几个样本中学习的方式和 [1] 中的 few-shot 方法之间存在很大差异。未来的工作需要开发将 CLIP 的强 zero-shot 性能与高效的 few-shot 学习相结合的方法。

        作者研究了是否能将 NLP(Natural Language Processing) 中与任务无关的 web 规模预训练的成功转移到另一个领域,发现采用这个套路会导致计算机视觉领域出现类似的行为;并讨论了这一研究方向的社会影响。为了优化他们的训练目标,CLIP 模型在预训练期间学会执行各种各样的任务。然后可以通过自然语言提示来利用此任务学习,以实现对许多现有数据集的 zero-shot 迁移。在足够的规模上,这种方法的性能可以媲美特定于任务的监督模型,尽管仍有很大的改进空间。

        从本质上来讲,CLIP 其实并没有太大的创新,它只是将 ConVIRT[5] 方法进行简化,并采用更大规模的图像-文本对数据集来训练。作者想做的其实是直接用图像生成文本,但由于训练效率的制约,才采用了对比学习的方法。

参考文献

[1] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. Learning Transferable Visual Models From Natural Language Supervision. In ICML, 2021.

[2] Olivier J. H ́enaff, Aravind Srinivas, Jeffrey De Fauw, Ali Razavi, Carl Doersch, S. M. Ali Eslami, and Aaron van den Oord. Data-efficient image recognition with contrastive predictive coding. In ICML, 2020.

[3] Ting Chen, Simon Kornblith, Kevin Swersky, Mohammad Norouzi, and Geoffrey E. Hinton. Big Self-Supervised Models are Strong Semi-Supervised Learners. In NIPS, 2020.

[4] Qizhe Xie, Minh-Thang Luong, Eduard Hovy, and Quoc Le. Self-training with Noisy Student improves ImageNet classification. In CVPR, 2020.

[5] Yuhao Zhang, Hang Jiang, Yasuhide Miura, Christopher D. Manning, and Curtis P. Langlotz. Contrastive Learning of Medical Visual Representations from Paired Images and Text. In MLHC, 2022.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/29588.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

光纤通信基础(光纤的构造、工作原理、色散、工作频段、损耗、分类、不同标准及应用、接口类型、常见标示方法、熔接)

文章目录 光纤的构造:纤芯、包层、涂覆层光纤的工作原理:利用全反射来传输光信号光纤的色散光纤的工作频段光纤的损耗光纤的分类光纤的不同标准及应用光纤的接口类型(SC、LC、ST、FC)光纤的常见标示方法:如“FC/PC”&a…

项目准备和启动

1.什么是项目建议书? 2.项目建议书的内容 3.可行性分析方法 4.项目组织结构(职能型 项目型 矩阵型) 5.项目管理层决策层执行层之间的关系 6.软件项目的可行性分析包括哪几个方面?影响决策的关键因素又是什么? 软件项目…

鸿蒙开发实战:灵活定制Tabs组件,实现个性化页签布局

闪客 沉默的闪客 2024-06-16 20:01 陕西 大家好,又一个项目已经基本完成 是一个元服务英语单词卡片项目,后面一步一步的进行分析拆解,今天来实现一个Tabs组件自定义界面开发。 鸿蒙ArkUI 开发的时候,Tabs 组件很常用,…

CDA二级(Level II)数据分析师——考试内容梳理三(简单重点案例)

PR曲线是基于召回率的准确性来进行判断的; 混淆矩阵: ROC曲线以真阳性率(敏感性、召回率)为纵坐标,假阳性率(1-特异性)为横坐标 假阳性率:负样本中被误认为正样本的概率 FP/FPTN 真…

基于B/S版java语言+SpringBoot技术开发的云HIS系统源码 HIS系统住院业务模块常见问题及解决方案

基于B/S版java语言SpringBoot技术开发的云HIS系统源码 HIS系统住院业务模块常见问题及解决方案 随着医疗技术的不断提高,住院治疗已成为许多病人的常规选择。但是,住院治疗不仅需要医护人员的精心照顾,也需要个高效的信息系统来保证整个治疗过…

Unity制作透明材质直接方法——6.15山大软院项目实训

之前没有在unity里面接触过材质的问题,一般都是在maya或这是其他建模软件里面直接得到编辑好材质的模型,然后将他导入Unity里面,然后现在碰到了需要自己在Unity制作透明材质的情况,所以先搜索了一下有没有现成的方法,很…

C++迈向精通:当我尝试修改虚函数表

尝试修改虚函数表 本期纯整活儿好吧!!!! 初衷 有一天我突然开始好奇虚函数表是否真的存在,于是我开始想是否能够从C中查看或者调用虚函数表中的内容。,于是有了下面的操作。 操作过程 起初我并没有思路…

神经网络模型---AlexNet

一、AlexNet 1.导入tensorflow库,这里给简称为tf库 import tensorflow as tf from tensorflow.keras import datasets, layers, modelsdatasets:是用于训练和测试机器学习模型的数据集合 layers:是构建神经网络模型的关键组成部分 models&a…

Golang并发控制的三种方案

Channel Channel是Go在语言层面提供的一种协程间的通信方式&#xff0c;我们可以通过在协程中向管道写入数据和在待等待的协程中读取对应协程的次数来实现并发控制。 func main() {intChan : make(chan int, 5)waitCount : 5for i : 0; i < waitCount; i {go func() {intC…

上海SNEC光伏展参展总结--安科瑞

安科瑞戴婷 Acrel-Fanny 今年的snec上海光伏展吸引了来自全球各地的光伏行业专业人士及爱好者&#xff0c;本次展会共有来自30多个国家和地区的超过2000家企业参展&#xff0c;展出的光伏产品涵盖了太阳能电池、太阳能组件、逆变器、太阳能辅助设备等众多领域。 随着近年来光…

《收获,不止oracle》读书笔记一:oracle体系结构

从图中可以看出,oracle数据库是由实例和一组数据库文件组成。实例是由oracle开辟的内存区和一组后台进程组成的。

2024.6.18

Python的网络编程 网络四层 在开始前,我们需要先了解一下我们在网络通信过程中的四个层次 我们上网产生的数据都是经过协议栈一层一层的封装然后经网卡发送到网络&#xff0c;经网络发送到服务端&#xff0c;然后服务端又是一层一层的解封装拿到自己想要的数据。 我们学习的…

YOLOv8目标检测算法在地平线Bernoulli2架构BPU上高效部署参考(PTQ方案)30fps!

—— 以RDK X3为例&#xff0c;修改Head部分&#xff0c;8ms疾速Python后处理程序&#xff0c;30fps稳稳当当 本文在地平线对YOLOv8s的Backbone修改的基础上&#xff0c;提出一种在地平线Bernoulli2架构BPU上部署YOLOv8的后处理思路。使用640640分辨率&#xff0c;80类别基于C…

香橙派AIPro开机测试

资料准备&#xff1a; 香橙派官网资料下载链接&#xff1a;http://www.orangepi.cn/html/hardWare/computerAndMicrocontrollers/service-and-support/Orange-Pi-AIpro.html 硬件准备 香橙派ai pro一个 32G sd卡&#xff0c;带出厂镜像 电源 鼠标 键盘 hdmi显示屏 测试介绍 由…

4418 android4.4 + 6818 android5.1 移植gps

网上已经有的移植的资料 目前 3399 的板子上 对已有的可运行的GPS 进行测试。 我这里的 rk3399 的板卡 , Android7 Android8 都是 可以运行 GPS 应用程序的。 使用的是 ttyS4 的节点。 问题: 我发现, 开机就删掉 ttyS4 节点,也是可以 打开应用的。并且可以正常运行。不…

图片怎么弄成黑白的?关于将图片改成黑白的几种方法

图片怎么弄成黑白的&#xff1f;黑白照片以其独特的艺术魅力和经典的视觉效果&#xff0c;依然在摄影和图像处理中占据重要地位。无论是为了追求怀旧的氛围&#xff0c;还是为了突出图像的构图和光影效果&#xff0c;许多人都希望将彩色图片转换成黑白图片。这不仅可以赋予图像…

全网最强Spring教程 | 万字长文爆肝Spring(三)

Spring_day03 今日目标 理解并掌握AOP相关概念能够说出AOP的工作流程能运用AOP相关知识完成对应的案例编写重点掌握Spring的声明式事务管理 1&#xff0c;AOP简介 前面我们在介绍Spring的时候说过&#xff0c;Spring有两个核心的概念&#xff0c;一个是IOC/DI&#xff0c;一个…

影响建筑效果图后期时间的因素有哪些?渲染100邀请码1a12

建筑效果图是建筑设计师展示设计方案的重要手段&#xff0c;为了完美展现&#xff0c;我们通常会对效果图进行后期处理&#xff0c;那么影响后期时间的因素有哪些&#xff1f;这次我们来看看吧。 1、底图的质量 底图是指原始的渲染图片&#xff0c;它决定了后期处理的难易程度…

鸿蒙APP开发的技术难点

鸿蒙APP开发的技术难点主要体现在以下几个方面&#xff0c;鸿蒙APP开发是一项技术难度较高的工作&#xff0c;需要开发者具备扎实的编程基础、分布式开发能力和学习新技术的意愿。北京木奇移动技术有限公司&#xff0c;专业的软件外包开发公司&#xff0c;欢迎交流合作。 1. 多…

软件生存期模型

软件生存期模型是为了获得高质量软件所需要完成的一系列任务的框架&#xff0c;它规定了完成各项任务的工作步骤。典型的软件生存期模型有瀑布模型、增量模型、快速原型模型、喷泉模型、螺旋模型、统一过程、敏捷开发模型等。 瀑布模型 1970年由Royce首先提出瀑布模型&#x…