图灵奖得主LeCun领导下的Meta AI,押注自监督

93e3c316025da35485b9c35d4d7d7a10.jpeg

自监督学习真的是通往 AGI 的关键一步?

来源:机器之心

编辑:于腾凯

校对:龚力

Meta 的 AI 首席科学家 Yann LeCun 在谈到「此时此刻要采取的具体措施」时,也没有忘记远期的目标。他在一次采访时说:「我们想要构建像动物和人类一样学习的智能机器。」

近几年,Meta 发表了一系列关于 AI 系统自监督学习(SSL)的论文。LeCun 坚定地认为,SSL 是 AI 系统的必要前提,它可以帮助 AI 系统构建世界模型,以获得类似人类的能力,如理性、常识,以及将技能和知识从一个环境迁移到另一个环境的能力。

他们的新论文展示了一种被称为掩蔽自编码器(MAE)的自监督系统如何学会从非常零散、不完整的数据中重建图像、视频甚至音频。虽然 MAE 并不是一个新的想法,但 Meta 已经将这项工作扩展到了新的领域。

LeCun 说,通过研究如何预测丢失的数据,无论是静态图像还是视频或音频序列,MAE 系统都是在构建一个世界模型。他说:「如果它能预测视频中即将发生的事情,它必须明白世界是三维的,有些物体是无生命的,它们自己不会移动,其他物体是有生命的,很难预测,一直到预测有生命的人的复杂行为。」一旦 AI 系统有了一个精确的世界模型,它就可以使用这个模型来计划行动。

LeCun 说,「智能的本质是学会预测。」虽然他并没有声称 Meta 的 MAE 系统接近于通用人工智能,但他认为这是通往通用人工智能的重要一步。

但并非所有人都同意 Meta 的研究人员走在通往通用人工智能的正确道路上。Yoshua Bengio 有时会与 LeCun 就 AI 领域的重大想法进行友好的辩论。在给 IEEE Spectrum 的一封电子邮件中,Bengio 阐述了他们在目标上的一些不同和相似之处。

Bengio 写道:「我真的不认为我们目前的方法(无论是不是自监督)足以弥合人工与人类智能水平的差距。」他说,该领域需要取得「质的进步」,才能真正推动技术向人类规模的人工智能靠拢。

对于 LeCun 的「对世界的推理能力是智能的核心要素」这一观点,Bengio 表示赞同,但他的团队并没有把重点放在能够预测的模型上,而是放在了能够以自然语言的形式呈现知识的模型上。他指出,这样的模型将允许我们将这些知识片段结合起来,以解决新问题,进行反事实模拟,或研究可能的未来。Bengio 的团队开发了一种新的神经网络框架,它比致力于端到端学习的 LeCun 所青睐的框架更具模块化的性质。

大火的 Transformer

Meta 的 MAE 建立在一种名为 Transformer 的神经网络架构基础之上。这种架构最初在自然语言处理领域走红,之后扩展到计算机视觉等多个领域。

当然,Meta 并不是第一个成功将 Transformer 用到视觉任务中的团队。Meta AI 的研究者 Ross Girshick 介绍说,谷歌在视觉 Transformer(ViT)上的研究启发了 Meta 的团队,「ViT 架构的采用帮助(我们)消除了试验过程中遇到的一些障碍」。

Girshick 是 Meta 第一篇 MAE 系统论文的作者之一,这篇论文的一作是何恺明,他们论述了一种非常简单的方法:掩蔽输入图像的随机区块并重建丢失的像素。

cbbc26315d31ebe25e3925569358c4ec.jpeg

这种模型的训练类似于 BERT 以及其他一些基于 Transformer 的语言模型,研究人员会向它们展示巨大的文本数据库,但有些词是缺失的,或者说被「掩蔽」了。模型需要自己预测出缺失的词,然后被掩蔽的词会被揭开,这样模型就能检查自己的工作并更新自己的参数。这一过程会一直重复下去。Girshick 解释说,为了在视觉上做类似的事情,研究小组将图像分解成 patch,然后掩蔽一些 patch 并要求 MAE 系统预测图像缺失的部分。

该团队的突破之一是意识到,掩蔽大部分图像会获得最好的结果,这与语言 transformer 有着关键区别,后者可能只会掩蔽 15% 的单词。「语言是一种极其密集和高效的交流系统,每个符号都包含很多含义,」Girshick 说,「但是图像——这些来自自然世界的信号——并不是为了消除冗余而构建的。所以我们才能在创建 JPG 图像时很好地压缩内容。」

9fdf608483682e1a4f2daea6a7159ef3.jpeg

Meta AI 的研究人员试验需要掩蔽多少图像获得最佳效果。

Girshick 解释说,通过掩蔽图像中超过 75% 的 patch,他们消除了图像中的冗余,否则会使任务变得过于琐碎,不适合训练。他们那个由两部分组成的 MAE 系统首先使用一个编码器,通过训练数据集学习像素之间的关系,然后一个解码器尽最大努力从掩蔽图像中重建原始图像。在此训练方案完成后,编码器还可以进行微调,用于分类和目标检测等视觉任务。

Girshick 说,「最终让我们兴奋的点在于,我们看到了这个模型在下游任务中的结果。」当使用编码器完成目标识别等任务时,「我们看到的收益非常可观。」他指出,继续增大模型可以获得更好的性能,这对未来的模型来说是一个有潜力的方向,因为 SSL「具有使用大量数据而不需要手动注释的潜力」。

全力以赴地学习海量的未经筛选的数据集可能是 Meta 提高 SSL 结果的策略,但也是一个越来越有争议的方法。Timnit Gebru 等人工智能伦理研究人员已经呼吁大家注意大型语言模型学习的未经整理的数据集固有的偏见,这些偏见有时会导致灾难性的结果。

视频和音频的自监督学习

在视频 MAE 系统中,掩蔽物遮蔽了每个视频帧的 95%,因为帧之间的相似性意味着视频信号比静态图像有更多的冗余。Meta 研究人员 Christoph Feichtenhofer 说,就视频而言,MAE 方法的一大优势是视频通常需要大量计算,而 MAE 通过屏蔽每帧高达 95% 的内容,减少了高达 95% 的计算成本。

这些实验中使用的视频片段只有几秒钟,但 Feichtenhofer 表示,用较长的视频训练人工智能系统是一个非常活跃的研究课题。想象一下,你有一个虚拟助理,他有你家的视频,可以告诉你一个小时之前你把钥匙放在哪里了。

更直接地说,我们可以想象图像和视频系统对 Facebook 和 Instagram 上的内容审核所需的分类任务都很有用,Feichtenhofer 说,「integrity」是一种可能的应用,「我们正在与产品团队沟通,但这是非常新的,我们还没有任何具体的项目。」

对于音频 MAE 工作,Meta AI 的团队表示他们将很快将研究成果发布在 arXiv 上。他们发现了一个巧妙的方法来应用掩蔽技术。他们将声音文件转化为声谱图,即信号中频率频谱的视觉表征,然后将部分图像掩蔽起来进行训练。重建的音频令人印象深刻,尽管该模型目前只能处理几秒钟的片段。

该音频系统的研究人员 Bernie Huang 说,这项研究的潜在应用包括分类任务,通过填充数据包被 drop 时丢失的音频来辅助基于 IP 的语音传输(VoIP),或者找到更有效的压缩音频文件的方法。

Meta 一直在进行开源 AI 方面的研究,如这些 MAE 模型,还为人工智能社区提供了一个预训练的大型语言模型。但批评人士指出,尽管在研究方面如此开放,但 Meta 还没有把它的核心商业算法开放出来供大家研究,即那些控制新闻推送、推荐和广告植入的算法。

原文链接:

https://spectrum.ieee.org/unsupervised-learning-meta

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

c6d38515fbbe544da4345844f306b4cf.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481712.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

面向知识图谱的信息抽取

面向知识图谱的信息抽取 人工智能技术与咨询 点击蓝字 关注我们 来源:《 数据挖掘,》 ,作者赵海霞等 关键词: 知识图谱;信息抽取;实体抽取;关系抽取;开放域 摘要: 摘要: 随着大数据时代的到来…

“中国脑计划”:向最后的前沿进发 | 央视对话

报道来源:中科院自动化所、CCTV-2《对话》节目(完整视频见文末)大脑是人类智慧的集结,是已知宇宙当中最复杂的产物,但我们对大脑认知却很晚,比如我们常说心想事成、心外无物,在很长的历史时期当…

基于图像的数据增强方法发展现状综述

基于图像的数据增强方法发展现状综述 人工智能技术与咨询 2022-03-22 20:57 点击蓝字 关注我们 来源:《 计算机科学与应用》 ,作者冯晓硕等 关键词: 数据增强;图像数据集;图像处理;深度学习 摘要: 摘要: …

自监督学习启示大脑的运作方式

来源:混沌巡洋舰 近十年来,许多最令人印象深刻的人工智能系统都使用大量的标记数据进行训练。例如,一张图片可能被标记为“虎斑猫”或“老虎”,以“训练”一个人工神经网络来正确区分虎斑猫和虎。这一策略既取得了惊人的成功&…

2022年中国AI芯片行业深度研究

人工智能技术与咨询 四大类人工智能芯片(GPU、ASIC、FGPA、类脑芯片)及系统级智能芯片在国内的发展进度参差不齐。用于云端的训练、推断等大算力通用 芯片发展较为落后;适用于更多垂直行业的终端应用芯片如自动驾驶、智能安防、机器人等专用…

图形学人物简史:两位图灵奖与奥斯卡得主的图形学研究往事

来源:大数据文摘大数据文摘授权转载自AI科技评论整理:李梅、王玥编辑:陈彩娴8 月 8 日至 11 日,计算机图形学国际顶级会议 SIGGRAPH 在加拿大温哥华举办。2019 年图灵奖和多次奥斯卡奖「双料得主」Pat Hanrahan 和 Ed Catmull 在大…

一种基于标签比例信息的迁移学习算法

人工智能技术与咨询 点击蓝字 关注我们 来源:《 计算机科学与应用》 ,作者汪槐沛等 关键词: 标签比例学习;数据挖掘;迁移学习 摘要: 摘要: 标签比例学习问题是一项仅使用样本标签比例信息去构建分类模型的挖掘任务&am…

智慧城市升级版已来 | 城市大脑建设标准十大原则

来源:球迷Long笔记(1) 城市大脑建设标准应具备的十个原则1.形成理论基础2.适应复杂场景3.突破地域限制 4.消除信息孤岛5.坚持以人为本 6.降低建设成本7.实现协同建设 8.体现人机融合9.保持持续进化 10.支撑协同发展(2)…

基于机器视觉的散热器钎焊缺陷检测系统研发

人工智能技术与咨询 点击蓝字 关注我们 来源:《 图像与信号处理》 ,作者 吕广贤 关键词: 机器视觉;缺陷检测;钎焊 摘要: 摘要: 为解决散热器钎焊缺陷在工业检测过程中效率低、差错率高的问题,本文设计了一…

逻辑究竟是什么以及逻辑应当是什么?

来源:“哲学园” 公众号编辑:姜天海审核:范 杰逻辑究竟是什么以及逻辑应当是什么?郝兆宽作者简介:郝兆宽,复旦大学哲学学院教授人大复印:《逻辑》2016 年 03 期原发期刊:《哲学分析…

基于遗传算法的无人机监视覆盖航路规划算法研究

基于遗传算法的无人机监视覆盖航路规划算法研究 人工智能技术与咨询 点击蓝字 关注我们 来源:《 计算机科学与应用》 ,作者 李御驰等 关键词: 人工势场法;无人机;监视覆盖航路规划 摘要: 摘要: 为解决传统覆盖航路规…

基于改进SSD算法的小目标检测与应用

人工智能技术与咨询 点击蓝字 关注我们 来源:《 计算机科学与应用》 ,作者刘洋等 关键词: SSD;深度学习;小目标检测 摘要: 摘要: 针对通用目标检测方法在复杂环境下检测小目标时效果不佳、漏检率高等问题,…

「上帝粒子」发现10周年

来源:FUTURE | 远见 选编:闵青云 2012年7月4日,欧洲核子研究中心(CERN)宣布发现了「上帝粒子」(希格斯玻色子)。希格斯玻色子是粒子物理学标准模型预言的一种玻色子,正是它的存在&am…

基于对抗生成网络的滚动轴承故障检测方法

人工智能技术与咨询 点击蓝字 关注我们 来源:《人工智能与机器人研究》 ,作者华丰 关键词: 不平衡工业时间序列;异常检测;生成对抗网络;滚动轴承数据 关注微信公众号:人工智能技术与咨询。了解更多咨询&…

社会演化动力学:人类社会复杂性为何不断增加?

来源: 集智俱乐部编译:任卡娜审校:刘培源编辑:邓一雪导语在全新世(the Holocene,11700年前以来)期间,人类社会的规模和复杂性显著地增长。一代又一代的研究者试图提出不同的理论来对…

基于机器学习的网络安全态势感知

人工智能技术与咨询 点击蓝字 关注我们 来源:《计算机科学与应用》 ,作者杨怡等 关键词: 机器学习;态势感知;关联分析;攻击场景重建 摘要: 摘要: 在传统网络防御手段抵御攻击的基础上,提出了一…

「Python」为什么Python里面,整除的结果会是小数?

原文:https://www.cnblogs.com/bEngi1/p/9155297.html  ‘//’明明是整除,为什么结果不是整数,而会出现小数? 首先,关于除法有三种概念:传统除法、精确除法和地板除 1 2 3 4 5 6 7 #1、传统除法&#x…

《Nature》创新技术发现环境变化影响活细胞的RNA形状

来源:生物通通过创新技术,揭示了环境条件对活细胞中RNA动态结构的影响。这项研究是Dame Caroline Dean FRS教授和Yiliang Ding博士团队合作的结果,增加了我们对细胞水平对环境信号的反应的理解。这增加了我们利用这些知识来微调作物或开发基于…

C/C++预处理指令#define,#ifdef,#ifndef,#endif…

原文https://www.cnblogs.com/zi-xing/p/4550246.html 管理 C/C预处理指令#define,#ifdef,#ifndef,#endif… 本文主要记录了C/C预处理指令,常见的预处理指令如下: #空指令,无任何效果 #include包含一个源代码文件 #define定义宏 #undef取消…

面向制造领域人机物三元数据融合的本体自动化构建方法

面向制造领域人机物三元数据融合的本体自动化构建方法 人工智能技术与咨询 点击蓝字 关注我们 摘要 当前,智能制造面临的许多问题都具有不确定性和复杂性,单纯地利用专家经验和机理模型难以有效解决.鉴于此,面向跨层跨域的复杂制造系统网络化协同控制机制,提出一种基于本…