OpenAI又放大招:连接文本与图像的CLIP,在ImageNet上效果媲美ResNet50

来源:AI科技评论'公众号

编译:蒋宝尚、陈彩娴

2020年,通用模型产生了经济价值,特别是GPT-3,它的出现证明了大型语言模型具有惊人的语言能力,并且在执行其他任务方面也毫不逊色。

2021年,OpenAI 联合创始人 Ilya Sutskever预测语言模型会转向视觉领域。他说:“下一代模型,或许可以针对文本输入,从而编辑和生成图像。”

听话听音!OpenAI 践行了这一想法,几个小时前,OpenAI通过官方推特发布了两个崭新的网络,一个叫DALL-E(参见今天推送的头条),能够通过给定的文本创建出图片;一个叫CLIP,能够将图像映射到文本描述的类别中。

其中,CLIP可以通过自然语言监督有效学习视觉概念,从而解决目前深度学习主流方法存在的几个问题:

1.需要大量的训练数据集,从而导致较高的创建成本。

2.标准的视觉模型,往往只擅长一类任务,迁移到其他任务,需要花费巨大的成本。

3.在基准上表现良好的模型,在测试中往往不尽人意。

具体而言,OpenAI从互联网收集的4亿(图像、文本)对的数据集,在预训练之后,用自然语言描述所学的视觉概念,从而使模型能够在zero-shot状态下转移到下游任务。这种设计类似于GPT-2和GPT-3的“zero-shot”。

这一点非常关键,因为这意味着,可以不直接针对基准进行优化,同时表现出了优越的性能:稳健性差距(robustness gap)缩小了75%,性能和ResNet507相当。换句话说。无需使用其训练的128万个训练样本中的任何一个,即可与原始ResNet-50 在 Image Net Zero-shot的精确度相匹配。

如上图所示,虽然两个模型在ImageNet测试集上的准确度相差无几,但CLIP的性能更能代表在非ImageNet设置下的表现。

CLIP网络中做了大量的工作是关于zero-shot 迁移的学习、自然语言监督、多模态学习。其实,关于零数据学习的想法可以追溯到十年前,但是最近在计算机视觉中火了起来。零数据学习的一个重点是:利用自然语言作为灵活的预测空间,从而实现泛化和迁移。另外,在2013年,斯坦福大学的Richer Socher通过训练CIFAR-10上的一个模型,在词向量嵌入空间中进行预测,并表明模型可以预测两个“未见过”的类别。Richer的工作提供了一个概念证明。

CLIP是过去一年,从自然语言监督中学习视觉表征工作中的一部分。CLIP使用了更现代的架构,如Transformer,包括探索自回归语言建模的Virtex,研究掩蔽语言建模的ICMLM等等。

1

方法

前面也提到,CLIP训练的数据来源于互联网上4亿数据对。用这些数据,CLIP需要完成的任务是:给定一幅图像,在32,768个随机抽样的文本片段中,找到能够匹配的那一个。

完成这个任务,需要CLIP模型学会识别图像中的各种视觉概念,并将概念和图片相关联。因此,CLIP模型可以应用于几乎任意的视觉分类任务。例如,如果一个数据集的任务是对狗与猫的照片进行分类,而CLIP模型预测 "一张狗的照片 "和 "一张猫的照片 "这两个文字描述哪个更匹配。

如上图所示,CLIP网络工作流程:预训练图编码器和文本编码器,以预测数据集中哪些图像与哪些文本配对。然后,将CLIP转换为zero-shot分类器。此外,将数据集的所有类转换为诸如“一只狗的照片”之类的标签,并预测最佳配对的图像。

总体而言,CLIP能够解决:

1.昂贵的数据集:ImageNet中1400万张图片的标注,动用了25,000名劳动力。相比之下,CLIP使用的是已经在互联网上公开提供的文本-图像对。自我监督学习、对比方法、自我训练方法和生成式建模也可以减少对标注图像的依赖。

2.任务单一:CLIP可以适用于执行各种视觉分类任务,而不需要额外的训练。

3.实际应用性能不佳:深度学习中“基准性能”与“实际性能”之间存在差距是一直以来的“痛”。这种差距之所以会出现,是因为模型“作弊”,即仅优化其在基准上的性能,就像一个学生仅仅通过研究过去几年的试题就能通过考试一样。CLIP模型可以不必在数据上训练,而是直接在基准上进行评估,因此无法以这种方式来“作弊”。

此外,为了验证“作弊的假设”,测量了CLIP在有能力“研究” ImageNet时性能会如何变化。当线性分类器根据CLIP的特性安装时,线性分类器能够将CLIP在ImageNet测试仪上的准确性提高近10%。但是,在评估“鲁棒性”的性能时,这个分类器在其余7个数据集的评估套件中并没有取得更好的平均表现。

2

优势

1. CLIP非常高效

CLIP从未经过滤的、变化多端的、极其嘈杂的数据中学习,且希望能够在零样本的情况下使用。从GPT-2和GPT-3中,我们可以知道,基于此类数据训练的模型可以实现出色的零样本性能;但是,这类模型需要大量的训练计算。为了减少所需的计算,我们专注研究算法,以提高我们所使用方法的训练效率。

我们介绍了两种能够节省大量计算的算法。第一个算法是采用对比目标(contrastive objective),将文本与图像连接起来。最初我们探索了一种类似于VirTex的图像到文本的方法,但这种方法在拓展以实现最先进的性能时遇到了困难。在一些小型与中型实验中,我们发现CLIP所使用的对比目标在零样本ImageNet分类中的效率提高了4到10倍。第二个算法是采用Vision Transformer,这个算法使我们的计算效率比在标准ResNet上提高了3倍。最后,性能最好的CLIP模型与现有的大规模图像模型相似,在256个GPU上训练了2周。

我们最初是尝试训练图像到字幕的语言模型,但发现这种方法在零样本迁移方面遇到了困难。在16 GPU的日实验中,一个语言在训练了4亿张图像后,在ImageNet上仅达到16%的准确性。CLIP的效率更高,且以大约快10倍的速度达到了相同的准确度。

2. CLIP灵活且通用

由于CLIP模型可以直接从自然语言中学习许多视觉概念,因此它们比现有的ImageNet模型更加灵活与通用。我们发现,CLIP模型能够在零样本下执行许多不同的任务。为了验证这一点,我们在30多个数据集上测量了CLIP的零样本性能,任务包括细粒度物体分类,地理定位,视频中的动作识别和OCR等。其中,学习OCR时,CLIP取得了在标准ImageNet模型中所无法实现的令人兴奋的效果。比如,我们对每个零样本分类器的随机非樱桃采摘预测进行了可视化。

这一发现也反映在使用线性探测学习评估的标准表示中。我们测试了26个不同的迁移数据集,其中最佳的CLIP模型在20个数据集上的表现都比最佳的公开ImageNet模型(Noisy Student EfficientNet-L2)出色。

在27个测试任务的数据集中,测试任务包括细粒度物体分类,OCR,视频活动识别以及地理定位,我们发现CLIP模型学会了使用效果更广泛的图像表示。与先前的10种方法相比,CLIP模型的计算效率也更高。

3

局限性

尽管CLIP在识别常见物体上的表现良好,但在一些更抽象或系统的任务(例如计算图像中的物体数量)和更复杂的任务(例如预测照片中距离最近的汽车有多近)上却遇到了困难。在这两个数据集上,零样本CLIP仅仅比随机猜测要好一点点。与其他模型相比,在非常细粒度分类的任务上,例如区分汽车模型、飞机型号或花卉种类时,零样本CLIP的表现也不好。

对于不包含在其预训练数据集内的图像,CLIP进行泛化的能力也很差。例如,尽管CLIP学习了功能强大的OCR系统,但从MNIST数据集的手写数字上进行评估时,零样本CLIP只能达到88%的准确度,远远低于人类在数据集中的99.75%精确度。最后,我们观察到,CLIP的零样本分类器对单词构造或短语构造比较敏感,有时还需要试验和错误“提示引擎”才能表现良好。

4

更广的影响

CLIP允许人们设计自己的分类器,且无需使用任务特定的训练数据。设计分类的方式会严重影响模型的性能和模型的偏差。例如,我们发现,如果给定一组标签,其中包括Fairface种族标签和少数令人讨厌的术语,例如“犯罪”,“动物”等,那么该模型很可能将大约32.3%的年龄为0至20岁的人的图像化为糟糕的类别。但是,当我们添加“儿童”这一类别时,分类比率将下降到大约8.7%。

此外,由于CLIP不需要任务特定的训练数据,因此它可以更轻松地解锁某些任务。一些任务可能会增加隐私或监视相关的风险,因此我们通过研究CLIP在名人识别方面的表现来探索这一担忧。对100个名人图像进行识别时,CLIP实际分类的准确率最高为59.2%,对1000个名人进行识别时,准确率最高为43.3%。值得注意的是,尽管通过任务不可知的预训练可以达到这些效果,但与广泛使用的生产级别模型相比,该性能并不具有竞争力。

5

结论

借助CLIP,我们测试了互联网的自然语言上与任务无关的预训练(这种预训练为NLP的最新突破提供了动力)是否可以用来改善其他领域的深度学习性能。目前,CLIP应用于计算机视觉所取得的效果令我们非常兴奋。像GPT家族一样,CLIP在预训练期间学习了我们通过零样本迁移所展示的各种任务。CLIP在ImageNet上的表现也令人惊喜,其中零样本评估展示了CLIP模型的强大功能。

原文链接:

https://openai.com/blog/clip/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/485036.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

美国国家创新体系的演化历程、特点及启示

本文来源:微信公众号科情智库原载于《全球科技经济瞭望》2020年12月第35卷第12期作者:李哲、杨晶、朱丽楠,中国科学技术发展战略研究院国家创新体系反映经济活动中科学技术知识生产和配置的整体状况,其着眼点是激励知识生产、提高…

再造一个爱因斯坦?GPT-3 让我看到了名人“重生”的希望

作者:Manuel Araoz译者:弯月来源:CSDN(ID:CSDNnews)自从GPT-3推出以来,我就一直在做各种尝试。这是一项非常酷的技术,我发现最有趣的一项实验就是通过GPT-3与已故去的名人对话。在本…

中文乱码解决

1.url链接设置字符编码 mysql.urljdbc:mysql://127.0.0.1:3306/micro_class?characterEncodingutf-82.数据库编码设置 查看数据库编码:show variables like character%; SET character_set_database utf8; SET character_set_server utf8; 转载于:https://www.c…

【NOIP模拟】健美猫

题面 分析 此题真是一言难尽。下面这么大一串,真的只是在讲一个小模拟。。。此题也是被几个julao反复讲,各种五花八门的奇淫巧技,什么数学变形,树状数组,差分,单调……好吧,我是那种只会30分暴力…

走向通用智能的核心:任务树的建立

来源:混沌巡洋舰人工智能的一个核心问题,是用已有的算法解决新的目标。对于人类来说,最常用的方法是得到和目标最相近的子目标, 子目标的子目标(比如饿了就要找吃的,找吃的就要去菜市场买菜)&am…

关于HotSpot VM以及Java语言的动态编译 你可能想知道这些

目录 1 HotSpot VM的历史2 HotSpot VM 概述2.1 编译器2.2 解释器2.3 解释型语言 VS 编译型语言3 动态编译3.1 什么是动态编译3.2 HotSpot VM对字节码的处理方式3.3 为什么不静态编译1 HotSpot VM的历史 SUN/Oracle JDK中使用的JVM是HotSpot VM. SUN JDK从1.3.1版本开始采用HotS…

马斯克向中国保证

来源:金融时报美国当地时间3月20日,特斯拉公司(Tesla Inc.)首席执行官埃隆马斯克 (Elon Musk)通过网络参加中国发展高层论坛会议。马斯克在会议上表示,特斯拉公司将不会向美国政府提供其车辆在中…

对抗攻击层出不穷?神经科学带来新突破、导出智能统一框架,Hinton:我早有洞见

来源 :AI科技评论编译 :bluemin校对 :青暮最近的神经科学研究指出了如何击败对抗性示例,并为实现更具弹性、一致性和灵活性的人工智能指明了道路。对抗性示例是当今深度学习研究的热点。数据中微妙的,通常是无形的更改…

增强现实系统的三大关键技术是什么?

来源:VR村增强现实系统的主要任务是进行真实世界和虚拟物体的无缝融合,需要解决真实场景和虚拟物体的合成一致性问题。为了确保真实世界和虚拟对象的无缝融合,根据Ronald Azuma对增强现实技术的定义,在AR应用系统开发中必须要解决…

51 Nod 1116 K进制下的大数

1116 K进制下的大数 基准时间限制:1 秒 空间限制:131072 KB 分值: 20 难度:3级算法题 收藏 关注 有一个字符串S,记录了一个大数,但不知这个大数是多少进制的,只知道这个数在K进制下是K - 1的倍数。现在由你…

数字化?智能化?中国企业智能制造现状究竟如何 李炳积 工信头条 昨天

来源:先进制造业各国智能制造现状30年来,在智能制造领域,各国从早期侧重于智能设计的数值模型和离线模型,发展到以智能制造过程优化为目标在线智能系统,从传统行业进军新兴行业。欧美技术基础较好,对高端技…

2021年MEMS传感器产业链变化与趋势

来源:宸元资本一MEMS基本概念和相关产业政策MEMS基本概念微机电系统(MEMS, Micro-Electro-Mechanical System),也叫做微电子机械系统、微系统、微机械等,指尺寸在几毫米乃至更小的高科技装置。微机电系统其内部结构一般…

python基础之流程控制

python流程控制 python的流程控制跟大多数的语言一样,包括if条件语句、for循环语句、while循环语句;跳出循环continue,break等 写在前面 python中的运算 1)算数运算 以下假设变量:a10,b20: 2&am…

从自动驾驶汽车开始,机器学习开始与物理世界交互

大数据文摘出品来源:Wired编译:王烨今天,有许多人工智能与我们互动的例子,使我们的生活的效率更高。智能体向我们通过电子商务网站向我们推荐产品,通过社交媒体为我们推荐新闻,通过交友应用向我们推荐朋友&…

突破!在人工染色体中存储图片和视频:天津大学元英进团队验证DNA数据存储新方法...

来源:中国生物技术网天津大学元英进教授团队从头编码设计合成了一条长度为254,886 bp、专用于数据存储的酵母人工染色体,借助无线通信中前沿的纠错编码将两张经典图片和一段视频存储于高效组装的人造染色体,利用酵母繁殖实现了数据稳定复制&a…

10分钟 在linux里创建.net core helloworld控制台程序

官方教程 安装linux https://www.cnblogs.com/LittleFeiHu/p/9749455.html 第一步 :选择和你本机适用的Linux版本,我这里用的是18.04. 第二步 :注册秘钥,产品仓储,以及安装依赖项,每台机器只需要注册一次&a…

陈天桥雒芊芊脑机接口中心等团队研究登顶刊:超声波“读心”

来源:澎湃新闻 作者:贺梨萍 脑机接口(BMIs)在全球的研究正如火如荼,神经科学家们希望通过这样一种设备将神经活动映射到相应的行为,它以读取和解释大脑活动,并向计算机或机器发送指令。实际上&a…

图灵奖得主 Yann LeCun 最新文章 :自监督学习,人工智能世界的“暗物质”

来源:AI前线作者:Yann LeCun ,Ishan Misra译者:王强策划:刘燕近年来,AI 产业在开发“可以从大量经过细致标记的数据中学习的 AI 系统”这个研究领域上取得了巨大进步。这种监督学习的范式在训练专业模型方面…

无脑人:我们真的需要大脑吗?

© Mental Floss来源:神经科技编辑:Yezi审阅:mingzlee7在一次讨论中,有位德高望重的人(我不会透露这个人是谁)告诉我:“我认为自我存在于心脏!而不是大脑!那些声称意…

JS数组的需要注意的问题

一、在js中数组是我们经常使用的数据类型,也为我们提供了很多方法。但是有些方法需要注意使用: 1、indexOf(args):匹配一个数组中与args相等的项的索引位置,如果该数组包含这个匹配项则返回第一个匹配的索引,并停止匹配…