自监督学习:人工智能中的暗物质,来自Facebook AI Yann LeCun

4fcc143b96c196f4e89826f946d10153.png

来源:AI公园

作者:Yann LeCun,Ishan Misra

编译:ronghuaiyang

近年来,人工智能领域在开发能够从大量精心标记的数据中学习的人工智能系统方面取得了巨大进展。这种监督学习的模式在训练专家模型时有着良好的记录,这些模型在训练任务中表现得非常好。不幸的是,人工智能领域仅靠监督学习的发展是有限的。

监督学习是构建更智能的多面手模型的瓶颈,这种模型可以在不需要大量标记数据的情况下完成多个任务并获得新技能。实际上,不可能给世界上所有的东西都贴上标签。还有一些任务根本没有足够的标记数据,比如为低资源语言训练翻译系统。如果人工智能系统能够收集到比训练数据集更深入、更细致的现实理解,它们将更有用,并最终让人工智能更接近人类的智能水平。

在婴儿时期,我们主要通过观察来了解世界是如何运转的。我们通过学习物体持久性和重力等概念来形成关于世界上物体的广义预测模型。在生活的后期,我们观察世界,采取行动,再观察,并建立假设来解释我们的行为如何通过试错改变我们的环境。

一个可行的假说是,关于世界的广义知识,或常识,构成了人类和动物的大部分生物智能。这种常识能力在人类和动物身上被认为是理所当然的,但自人工智能研究一开始就一直是一个公开的挑战。在某种程度上,常识是人工智能的暗物质。

常识帮助人们学习新技能,而不需要对每一项任务进行大量的教学。例如,如果我们给小孩子看几幅牛的画,他们最终就能认出任何他们看到的牛。相比之下,经过监督学习训练的人工智能系统需要很多牛的图像,而且在不寻常的情况下,比如躺在海滩上,可能仍然不能对牛进行分类。人类是如何在几乎没有监督的情况下,在大约20个小时的练习中学会驾驶汽车的,而完全自动驾驶仍然无法实现我们最好的人工智能系统,这些人工智能系统接受了来自人类驾驶员数千小时的数据训练。简而言之,人类依赖于他们先前获得的关于世界如何运转的背景知识。

我们如何让机器做同样的事情?

ecde730b7f3d5e6134bdad2b9a047785.png

我们认为,自监督学习(SSL)是在人工智能系统中构建这种背景知识和近似常识形式的最有前途的方法之一。

自监督学习使人工智能系统能够从更大数量级的数据中学习,这对于识别和理解更微妙、更不常见的世界表示模式很重要。长期以来,自监督学习在推动自然语言处理(NLP)领域取得了巨大成功,包括Collobert-Weston 2008 model, Word2Vec, GloVE, fastText等。系统以这种方式进行预训练产生的性能要比仅以监督方式进行训练时高得多。

我们最新的研究项目SEER利用SwAV和其他方法对10亿张随机无标记图像进行预处理,从而在各种视觉任务中获得最高的精度。这一进展表明自监督学习可以在复杂的CV任务中胜出,在真实生活环境中也是一样。

今天,我们将分享为什么自监督学习可能有助于解开智能的暗物质 —— 以及人工智能的下一个前沿。我们还强调了我们认为在不确定性存在的情况下,基于能量的预测模型、联合嵌入方法和用于人工智能系统中自监督学习和推理的潜在变量架构的一些最有前途的新方向。

自监督学习是一种预测性学习

自监督学习从数据本身获得监督信号,通常利用数据中的底层结构。自监督学习的一般技术是预测任何未观察到的或隐藏的输入部分(或属性)从任何观察到的或未隐藏的输入部分。例如,正如自然语言处理中常见的那样,我们可以隐藏一个句子的一部分,并从剩余的单词中预测隐藏的单词。我们还可以预测视频中过去或未来的帧(隐藏数据)和当前的帧(观察数据)。由于自监督学习使用的是数据本身的结构,所以它可以跨同时发生的模式(例如,视频和音频)和跨大型数据集利用各种监督信号 —— 所有这些都不依赖于标签。

5e08c72a413a36a5601c5dc1332674e7.png

在自监督学习中,系统被训练从可见的输入部分(绿色)中预测出隐藏的输入部分(灰色)。

由于监督信号告知自监督学习,术语“自监督学习”比之前使用的术语“无监督学习”更被接受。无监督学习是一个定义不明确且具有误导性的术语,它表明学习完全不使用监督。事实上,自监督学习并不是没有监督,因为它比标准监督和强化学习方法使用更多的反馈信号。

语言与视觉的自监督学习

自监督学习对自然语言处理产生了特别深远的影响,它允许我们在大型未标记文本数据集上训练BERT、RoBERTa、XLM-R等模型,然后将这些模型用于下游任务。这些模型在自监督阶段进行预训练,然后针对特定任务进行微调,比如对文本的主题进行分类。在自监督的预训练阶段,向系统展示一段简短的文本(通常是1000个单词),其中一些单词被屏蔽或替换了。该系统被训练来预测被屏蔽或替换的单词。在这样做的过程中,系统学会了表示文本的意思,这样它就能很好地填写“正确”的单词,或者那些在上下文中有意义的单词。

预测输入中缺失的部分是SSL预训练中比较标准的任务之一。为了完成像“The (blank) chases the (blank) in the savanna”这样的句子,系统必须知道狮子或猎豹可以追赶羚羊或角马,但是猫可以在厨房里追赶老鼠,而不是稀树大草原。作为训练的结果,系统学习表示单词的意思,单词的句法角色,以及整个文本的意思。

然而,这些技术不能轻易地推广到新领域,比如CV。尽管早期的结果很有希望,但SSL还没有在计算机视觉方面带来我们在NLP中看到的同样的改进(尽管这将会改变)。

主要原因是,在预测图像时,表示图像的不确定性比描述文字要困难得多。当无法准确预测缺失的单词时(是“lion”还是“cheetah”?),系统可以将分数或概率与词汇表中所有可能的单词关联起来:“lion”、“cheetah”和一些其他捕食者得分高,词汇表中所有其他单词得分低。

这种规模的训练模型还需要一个模型架构,该架构在运行时和内存方面都是高效的,而不影响准确性。幸运的是,FAIR最近设计了一种新的模式称为RegNets,完美满足了这些需求。RegNet模型是能够扩展到数十亿甚至数万亿个参数的ConvNets,并且可以进行优化以适应不同的运行时和内存限制。

但是我们不知道如何有效地表示不确定性,当我们预测视频中缺失的帧或图像中缺失的补丁。我们不能列出所有可能的视频帧并将其与每个帧关联起来,因为它们的数量是无限的。虽然这个问题限制了SSL在视觉任务中的性能改进,但诸如SwAV等新技术SSL技术开始在视觉任务中打破精度记录。SEER系统最好地证明了这一点,该系统使用了一个由数十亿个样本训练的大型卷积网络。

预测中的不确定性建模

1916fec39072ede822f4a98ee4664622.png

为了更好地理解这个挑战,我们首先需要理解预测的不确定性,以及它在NLP和CV中建模的方式。在自然语言处理中,预测缺失的单词包括为每个可能的单词计算预测得分。虽然词汇量本身很大,而且预测一个遗漏的单词包含一些不确定性,但我们还是有可能生成一个词汇中所有可能出现的单词的列表,并估算出这些单词在该位置出现的概率。典型的机器学习系统是这样做的:将预测问题视为分类问题,并使用一个巨大的所谓的softmax层计算每个结果的分数,该层将原始分数转换为单词的概率分布。使用这种技术,预测的不确定性用所有可能结果的概率分布来表示,前提是可能的结果的数量是有限的。

另一方面,在CV中,类似的预测视频中“缺失”的帧、图像中缺失的补丁或语音信号中缺失的片段的任务涉及到对高维连续对象的预测,而不是离散结果。有无限个可能的视频帧可以合理地跟随一个给定的视频剪辑。不可能显式地表示所有可能的视频帧并将预测分数与它们关联起来。事实上,我们可能永远不会有技术来表示高维连续空间上合适的概率分布,比如所有可能的视频帧的集合。

这似乎是一个棘手的问题。

对自监督方法的统一看法

有一种方法可以在基于能量的模型(EBM)的统一框架中考虑SSL。EBM是一个可训练的系统,给定两个输入,x和y,告诉我们它们彼此是多么不相同。例如,x可以是一个短视频剪辑,而y可以是另一个视频剪辑。机器会告诉我们y在多大程度上是x的良好延续。为了表示x和y之间的不相容性,机器产生一个单独的数字,称为能量。如果能量低,x和y被认为是相容的;如果是高的,则被认为是不相容的。

c784dcd6b17f75a8ccba6c9b866dc36c.png

基于能量的模型(EBM)测量观测x和预测y之间的兼容性。如果x和y兼容,能量是一个小的数字,如果它们不相容,能量就会更大。

EBM训练包括两部分:(1)展示它的x和y的样本是相容的并训练它产生低能量,(2)找到一个方法来确保特定x, y值不相容,x产生能量高于y值相容的x。第一部分很简单,但是第二部分是困难所在。

对于图像识别,我们的模型将两幅图像x和y作为输入。如果x和y是同一幅图像的轻微扭曲版本,模型将被训练为输出低能量。例如,x可能是一辆车的照片,y是同一辆车从一个稍微不同的位置在一天中的不同时间拍摄的,那么,y相对于x是经过了平移,旋转,变大变小,颜色和阴影稍有不同的汽车。

联合嵌入,孪生网络

一个特别适合的深度学习体系结构是所谓的孪生网络或联合嵌入体系结构。这个想法可以追溯从Geoff Hinton的实验室和Yann LeCun组在1990年代早期的论文。长期以来,它相对被忽视,但自2019年末以来开始复苏。联合嵌入体系结构由同一个网络的两个完全相同(或几乎完全相同)的副本组成。一个网络输入x,另一个输入y。网络产生的输出向量称为嵌入向量,表示x和y。第三个模块在头部连接两个网络,计算两个嵌入向量之间的距离作为能量。当模型显示同一幅图像的扭曲版本时,网络的参数可以很容易地进行调整,使它们的输出更接近。这将确保网络将产生几乎相同的对象表示(或嵌入),而不管该对象的特定视图。

99d033392a25d3e6dca5cd7e258ff33a.png

联合嵌入架构。

顶部的C函数产生一个标量能量表示向量之间的距离(嵌入)由两个孪生(w)网络共享同一参数。当x和y是略有不同的版本的相同的图像,系统训练产生一个低能量, 这迫使模型为两幅图像产生相似的嵌入向量。困难的部分是训练模型,使其对不同的图像产生高能量(即不同的嵌入)。

难点在于当x和y是不同的图像时,要保证网络产生高能,即不同的嵌入向量。如果没有特定的方法,这两个网络可以愉快地忽略它们的输入,总是产生相同的输出嵌入。这种现象被称为坍缩。当发生坍缩时,不匹配的x和y的能量并不比匹配的x和y的能量高。

有两类技术避免坍缩:对比方法和正则化方法。

基于能量的对比SSL

对比方法基于构造不兼容的x和y对的简单思想,并调整模型的参数,使相应的输出能量较大。

7c9280014cff8468cbef81122ba3c1d8.gif

用对比的方法训练EBM ,包括同时降低训练集中相容(x,y)对的能量,用蓝点表示,提高选择好的不相容(x,y)对的能量,用绿点表示。在这个简单的例子中,x和y都是标量,但在实际情况中,x和y可以是数百万维数的图像或视频。想通过合适的方式构造能量的不相容的对是具有挑战性和昂贵的计算。

通过屏蔽或替换输入词来训练自然语言处理系统的方法属于对比方法的范畴。但他们不使用联合嵌入结构。相反,他们使用了一种预测架构,在这种架构中,模型直接产生对y的预测。一个人从一个完整的文本片段y开始,然后破坏它,例如,通过屏蔽一些单词产生观察x。将损坏输入喂给神经网络训练重现原文y。一个未坍缩的文本将重建本身(低重建误差),而一个损坏的文本将重建一个未坍缩的版本的本身(大的重建错误)。如果将重构错误解释为一种能量,它将具有所需的特性:“干净”文本的能量较低,“损坏”文本的能量较高。

训练模型来恢复输入的损坏版本的一般技术称为去噪自编码器。

1c0211a740032eed4822e4b2930ad49b.png

一个masked语言模型,它是一个去噪的自动编码器的实例,本身是一个对比的自我监督学习的实例。变量y是一个文本段,X是文本的一个版本,其中一些单词被掩盖了。该网络被训练重建未损坏的文本。

正如我们前面指出的,这种类型的预测体系结构只能为给定的输入产生一个预测。由于该模型必须能够预测多种可能的结果,因此预测不是单一的单词集,而是针对每个缺失单词位置的词汇中的每个单词的一系列分数。

但是我们不能将此技巧用于图像,因为我们不能枚举所有可能的图像。这个问题有解决办法吗?回答是否定的。在这个方向上有一些有趣的想法,但是它们还没有产生像联合嵌入架构那样好的结果。一个有趣的途径是潜在变量预测架构。

0305e7c2848c194e8aaf34512937acba.png

潜在变量预测架构。给定一个观测值x,模型必须能够产生一组以图中s形表示的多种相容预测。由于潜在变量z在一组(用灰色方框表示)内变化,输出在一组可信预测中变化。

潜在变量预测模型包含一个额外的输入变量(z)。之所以称其为潜在变量是因为它的值从未被观察到。对于适当训练的模型,当潜在变量在给定集合上变化时,输出预测在与输入x相兼容的可信预测集合上变化。

潜在变量模型可以用对比的方法进行训练。生成对抗网络(GAN)就是一个很好的例子。判别器可以被看作是计算一个能量,该能量指示输入y是否看起来不错。对生成器网络进行训练,以产生对比样本,对这些样本进行训练,使判别器产生到高能量。

但是对比的方法有一个主要问题:训练效率非常低。在像图像这样的高维空间中,一幅图像与另一幅图像有很多不同之处。找到一组对比图像,涵盖它们与给定图像的所有不同之处,几乎是一项不可能完成的任务。套用列夫·托尔斯泰的《安娜·卡列尼娜》:“幸福的家庭都是相似的,不幸的家庭各有各的不幸。”这似乎适用于任何一种高维物体。

如果有可能确保不相容对的能量高于相容对的能量而不明确地推高许多不相容对的能量会怎样?

基于能量的非对比SSL

应用于联合嵌入架构的非对比性方法可能是目前视觉SSL中最热门的话题。这一领域仍大部分未被探索,但似乎很有前途。

非对比性的联合嵌入方法包括:DeeperCluster, ClusterFit, MoCo-v2, SwAV, SimSiam, Barlow Twins,BYOL,来自DeepMind以及其他一些公司。他们使用各种技巧,如计算虚拟目标嵌入相似的图像组(DeeperCluster, SwAV, SimSiam)或通过架构或参数向量(BYOL, MoCo)使两种联合嵌入架构略有不同。Barlow Twins试图最小化嵌入向量的单个组件之间的冗余。

也许从长远来看,一个更好的选择将是设计具有潜在变量预测模型的非对比性方法。主要的障碍是它们需要一种方法来最小化潜在变量的容量。潜在变量可以改变的集合的体积限制了低能量输出的体积。通过将体积最小化,能量就会以正确的方式自动形成。

一个成功的方法是变分Auto-Encoder,使潜变量“模糊化”,限制了潜变量的容量。但VAE尚未显示对下游视觉任务产生良好的表征。另一个成功的例子是稀疏的建模,但它的使用一直局限于简单的架构。似乎没有什么完美的方法可以限制潜在变量的能力。

未来几年的挑战可能是为基于潜在变量能量的模型设计非对比方法,成功地生成图像、视频、语音和其他信号的良好表示,并在不需要大量标记数据的情况下在下游监督任务中获得最佳表现。

英文原文:https://ai.facebook.com/blog/self-supervised-learning-the-dark-matter-of-intelligence/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

b0d46b3080678ac98154f5cdc7b12280.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/483695.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

动态代理之: com.sun.proxy.$Proxy0 cannot be cast to 问题

转: 动态代理之: com.sun.proxy.$Proxy0 cannot be cast to 问题 2018年05月13日 00:40:32 codingCoge 阅读数:1211 版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_38409944/article/…

牛客16596 计算系数(排列组合)

链接:https://ac.nowcoder.com/acm/problem/16596 来源:牛客网 时间限制:C/C 1秒,其他语言2秒 空间限制:C/C 131072K,其他语言262144K 64bit IO Format: %lld 题目描述 给定一个多项式(axby)k&#xff0…

MIT新研究:过去80年,算法效率提升到底有多快?

来源:MIT,新智元编辑:David【导读】随着摩尔定律走向终结,靠提升计算机硬件性能可能越发难以满足海量计算的需要,未来的解决之道在于提升算法的效率。MIT的这篇新论文总结了过去80年来,算法效率的提升究竟有…

AI 被当做炒作工具?

来源:AI科技大本营(ID:rgznai100)翻译:AI科技大本营编译:禾木木上班路上由于高峰期,眼看就要迟到了,这个时候会想“如果汽车能自动完成这种高度重复的动作,我就可以在路上参加我的会…

第五周助教心得体会

本周心得: 本周为我参加助教工作的第五周。本周同学们要搞定的内容: 作业链接 fork词频统计仓库,创建修改分支对代码进行效能分析,改进后提交将过程写入博客并发布(提交42人 未提交31人 作业平均成绩:6.7分&#xff0c…

牛客16732 序列(排列组合)

同个人网站 https://www.serendipper-x.cn/,欢迎访问 ! 链接:https://ac.nowcoder.com/acm/problem/16732 来源:牛客网 时间限制:C/C 1秒,其他语言2秒 空间限制:C/C 262144K,其他语…

什么是传感器融合?我们从“盲人摸象”讲起……

来源:传感器专家网今天,我们的生活高度依赖传感器。传感器作为人类“五感”的延伸,去感知这个世界,甚至可以观察到我们人体感知不到的细节,这种能力也是未来智能化社会所必须的。不过,单个传感器的性能再卓…

算法竞赛入门经典 例题6-2 铁轨(C、python)

同个人网站 https://www.serendipper-x.cn/,欢迎访问 ! 问题描述: 某城市有一个火车站,铁轨铺设如图所示。有n节车厢从A方向驶入车站,按进站顺序编号为 1~n 。你的任务是判断是否能让它们按照某种特定的顺序进入 B 方…

redis集群的搭建详细教程

1 Redis-cluster架构图 redis-cluster投票:容错 (至少要三个才可以,才能超过半数) 架构细节: (1)所有的redis节点彼此互联(PING-PONG机制),内部使用二进制协议优化传输速度和带宽. (2)节点的fail是通过集群中超过半数的节点检测失效时才生效…

王飞跃 | 面向未来的AI人才应该具备这3种思维

来源:湛庐阅读作者:王飞跃 苇草智酷学术委员、中科院自动化研究所复杂系统与智能科学重点实验室主任、中国科学院社会计算与平行系统研究中心主任当今最好的人工智能程序到底有多智能?它们是如何工作的?能做些什么?我…

Java安全API

java提供了完整的密码学API,我们可以结合密码学相关的概念来系统的学习这些API。 1.密码学简介(crypto) 密码学通俗来说就是研究如何对信息进行加密和破密,如果不是专门研究信息安全,通常我们只需学习和使用加密的方法,所以破密的相关知识我们…

算法竞赛入门经典 例题6-6 小球下落(python、C)

同个人网站 https://www.serendipper-x.cn/,欢迎访问 ! 问题描述: 有一颗二叉树,最大深度为D,且所有叶子的深度都相同。所有结点从上到下从左到右编号为 1,2,3,… ,2D -…

NLPer,是时候重视因果推理了!这有一份杨笛一等撰写的综述

来源:机器之心编辑:张倩在这篇综述论文中,来自佐治亚理工学院的杨笛一等十几位研究者系统阐述了自然语言处理中的因果推理。科学研究的一个基本目标是了解因果关系。然而,尽管因果在生活和社会科学中扮演了重要角色,它…

【报告】2021物联网行业研究报告(附PDF下载)

来源:兴业证券编辑:Zero导语物联网通过智能感知、识别技术与普适计算等通信感知技术,广泛应用于网络的融合中,也因此被称为继计算机、互联网 之后世界信息产业发展的第三次浪潮。1、云管端的硬件升级云、管、端革新带动物联网爆发…

pyecharts 绘制地图

同个人网站 https://www.serendipper-x.cn/,欢迎访问 ! # 导入相关包 from pyecharts import options as opts from pyecharts.charts import Map, Geo, Lindata pd.read_csv(rC:\Users\1979\Desktop\处理后的数据\谷物产量(公吨&#xff0…

斯坦福大学报告称中国AI论文引用率首超美国!但李国杰院士也发文灵魂拷问...

来源:zhihu中国霸榜AI期刊论文发表,论文引用量「首超」美国!然而,中国工程院院士李国杰却戳着国内AI研究的脊梁骨说「顶不了天、落不了地」。近日,如何看待「李国杰院士发文称国内 AI 研究顶不了天、落不了地」这一话题…

刚刚,2021年诺贝尔生理学或医学奖揭晓!

来源:科学网作者:梅进 冯丽妃北京时间10月4日下午5点34分许,2021年诺贝尔生理学或医学奖揭晓。美国科学家David Julius、Ardem Patapoutian获奖,以表彰他们“发现温度和触觉的受体”。2021年的诺贝尔奖单项奖金为1000万瑞典克朗&a…

2021年诺贝尔物理学奖揭晓,复杂科学获得重视

来源:材料科讯部分内容整理:维基百科,诺贝尔奖官网及其推特账号刚刚,诺贝尔奖委员会宣布了2020年诺贝尔物理学奖得主名单,针对本年度诺贝尔物理学奖的预测,可参考以下链接:诺奖120周年了&#x…

【操作系统复习】操作系统的概念、功能和目标

同个人网站 https://www.serendipper-x.cn/,欢迎访问 ! 文章目录一、概念二、操作系统的功能和目标2.1 作为系统资源的管理者2.2 作为用户和计算机硬件之间的接口2.3 作为最接近硬件的层次一、概念 ✔️ 操作系统(Operating System&#xff0…

word 2013 标题设置多级列表

1、问题 要设置标题为多级列表,批量应用 2、解决 1选标题1 2选标题2 。。。以此类推。点确定保存即可 转载于:https://www.cnblogs.com/wdw31210/p/10723696.html