Google提出新型学习范式「Deep Memory」,或将彻底改变机器学习领域

图源:pixabay


原文来源:arXiv

作者:Sylvain Gelly、Karol Kurach、Marcin Michalski、Xiaohua Zhai

「雷克世界」编译:嗯~是阿童木呀、KABUDA


导语:最近,Google提出了一种称之为Deep Memory的新型学习范式,并在生成式建模任务上使用MenGEN算法将此范式得以实现,经过一系列实验表明,科学家们发现,要想尽可能多地保留样本中的信息,最好方法是将它们完全存储起来,即Memory is All You Need。


最近,我们提出了一种新型的学习范式,我们将其称之为Deep Memory。它有可能彻底革新机器学习领域。令人惊奇的是,与深度学习不同,这种范式还没有被重新加以改造。这种方法的核心是“Learning By Heart”原则,而这一原则在全世界的小学中得到了充分研究。受到诗歌朗诵或π小数记忆的启发,我们提出了一种模仿人类行为的具体算法。我们在生成式建模任务上实现了这个范式,并将其应用于图像、自然语言,甚至π小数,只要人们能够将它们打印成文本。我们所提出的算法甚至在独热学习环境中生成了本篇论文。通过精心设计的实验,我们表明,通过任何统计测试或度量进行衡量,所生成的样本都无法与训练样本相区分。



我们遵循LaLoudouana和Tarare于2003年所开启,后来又被Albanie等人于2017年、Garfinkel等人于2017年所延伸的基本科学研究路线。受这些方法的启发,我们将着重点放在生成式建模的最终目标上:就像输入分布那样输出相同的分布。一直以来,Garbage In,Garbage Out在机器学习中都是一个被广泛研究的谚语,而我们的主要贡献在于真正地将其付诸实现。


在我们详细介绍这个理论和实验之前,不妨退一步思考,想一想我们为什么要进行生成式建模?会议结束后我们可以仔细想一下,因为就目前来看,距下一次会议还有一段时间。


众所周知,生成式模型和蛋糕一样好,试问有谁不喜欢蛋糕呢?但现在,我们假设蛋糕是一个谎言。生成式模型从给定的数据分布中抽取样本,并从中学习一个模型。然后,我们希望我们可以利用这一模型解决其他任务。通过仔细研究Shannon于1948发表的论文,人们可以注意到,从样本中尽可能多地保留信息的最好方法是将它们完全存储起来。毕竟,信息不丢失,我们就没有什么可失去的。


可惜的是,仅有想法是不够的。一个重要的新想法是利用先进的数据结构,例如利用列表,甚至哈稀图来进行生成式建模。据我们所知,使用那些最新的尖端技术(Knuth于1997年,Cormen于2009年提出),我们能够超越那些在80年代被称为是神经网络的旧技术(这些技术不过是简单的加法和乘法而已)。


我们的贡献


•我们提出了一种全新颖的学习范式。对于一个具体应用而言,我们展示了如何推导出最终的生成式建模算法,该算法证明了输出与输入具有相同的分布。


•得益于CPU出色的算法效率,GPUs可以再次免费地应用于游戏。计算效率的主要缺点是,博士生目前可以与大型组织展开竞争,而大型组织却不能利用他们更先进的基础设施,这显然是不公平的,因为在建设基础设施的过程中要克服重重困难。


•从统计数据来看,我们难以区分生成式样本与真实样本。因此我们提出了Rademacher掷硬币度量(Rademacher Coin Flipping),它可以更可靠地给出相似的结果,从而结束了关于生成式建模度量的长期争论。


算法


有关更多细节都在算法1中体现。我们始终在强调该算法是灵活的,并且可以应用更为复杂的数据结构,如哈希图。


算法1:MemGEN


实证评估

    

为了展示我们的研究结果,我们将演示这种简单的方法是如何优于当前最先进的技术的。目前用于评估生成式模型的最佳度量指标是基于两个样本之间的距离,以及人为评估。我们对这两个操作都加以执行以量化我们算法的性能。


•定量结果


两个样本之间的距离:给定一个来自真实分布的样本,以及一个来自生成式分布的样本,我们测量两个基本分布之间的相似程度。显然,我们使用测试集来表示真实的分布,因为采用训练集不会揭示可能存在的过度拟合问题。实验结果表明,我们的结果比实施在所有距离度量标准中的任何最先进的结果要好得多。图1说明了这些结果。


 图1:使用我们的算法所实现的结果。优点是这个数据可以重复用于其他论文。


人为评估:评估者显示了两张图像,一张是从模型中抽样获得的的,另一张则是从一个保留组中抽样获得的,他们必须做出决定:哪一张看起来更好。图2显示了人为评估的结果,表明人类无法区分真实的样本和虚假的样本。事实上,我们无法使用无偏差掷硬币的结果对这些结果进行区分。因此,我们现在提出使用投币替代模型评估,从而解决这个长期存在的问题,并节省大量资源。我们称之为Rademacher掷硬币度量。


图2:人为评估,来自测试集和生成式模型的样本并排显示,以供人类评估员校准。


•文本


对于文本建模,我们考虑了一个自回归--双向长短期记忆网络--注意力--循环神经网络(autoregressive-bilstm-attention-cnn)模型。最后,我们通过恒等函数(identity function)解决了这个问题,因为它是自动可逆的,这很好。


•生成的图像


在图3中,我们展示了一些具有代表性的,在互联网图像上进行训练后生成的MemGEN图像。在那些未经训练的人们看来,模型似乎崩溃了,只能生成猫的照片。也许互联网上充满了猫的图像?对于在网上发现的自然图像的快速估计似乎证实了这一假设,但需要进一步调查。


图3:从随机互联网图像中进行学习后,MemGEN所生成的随机图片。这证明,生成的数据分布代表学习分布。


我们提出了一种全新的生成式建模算法,该算法具有独特的优点、很好的属性,并且在一系列重要指标上表现出优异的性能。与LaLoudouana和Tarare在2003年提出的结论相比,我们甚至不需要选择数据集,只需要确定度量即可。本文是依照最严格的科学原则撰写的,因此文中显露出的任何瑕疵都只是单纯的巧合。


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/496288.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网络 IPC 套接字socket

APUE书中所有实例源码下载地址:http://www.apuebook.com apue学习笔记(第十六章 网络IPC:套接字):https://www.cnblogs.com/runnyu/p/4648678.html 一起学 Unix 环境高级编程 (APUE) 之 网络 IPC:套接字…

ASP.NET MVC V2 Preview 1 发布 期望VS有更好的表现

ASP.NET MVC V2 Preview 1官方首页:http://aspnet.codeplex.com/ 在这里可以下载 以下是网友的转载,介绍的还是比较详细的: 预览版是在.NET 3.5 SP1和VS 2008下工作的,可与ASP.NET MVC 1.0并行安装在同一个机器上(即&a…

全球最权威的区块链行业报告

来源:腾讯研究院美国加密货币报道媒体CoinDesk近期发布“全球区块链现状报告”,深入研究了快速发展的加密货币行业及其底层技术,该报告覆盖了公共区块链、企业区块链、ICO、投资以及监管等话题,另外还对3000多名投资者的加密货币投…

Google 的 C++ 代码规范

Google 开源项目风格指南 (中文版):https://zh-google-styleguide.readthedocs.io/en/latest/ 英文版:http://google-styleguide.googlecode.com/svn/trunk/cppguide.xml 中文版:http://zh-google-styleguide.readthedocs.org/en/latest/goog…

NASA投资有远景技术,有望改变未来人类和机器人的勘探任务

来源: 机器人创新生态据NASA官网报道,美国宇航局(NASA)正在投资有远见的技术概念,包括流星撞击探测、太空望远镜群以及细小轨道碎片测绘技术,这些技术将来可能被用于未来的太空探索任务中。美国宇航局已经选出25个还处于早期的技术…

人工智能如何影响社会经济:关于近期文献的一个综述

作者:陈永伟 文章来源:经济学原理 相比于之前的历次技术进步,“人工智能革命”所引发的冲击更为巨大,其对经济学造成的影响也将更为广泛和深远。人工智能技术的突飞猛进,对经济社会的各个领域都产生了重大影响&#…

Spring Data JPA 从入门到精通~Naming命名策略详解及其实践

Naming 命名策略详解及其实践 用 JPA 离不开 Entity 实体,我都知道实体里面有字段映射,而字段映射的方法有两种: 显式命名:在映射配置时,设置的数据库表名、列名等,就是进行显式命名,即通过 C…

激光雷达:从光电技术角度看自动驾驶

来源: 传感器技术激光雷达和与之竞争的传感器技术(相机、雷达和超声波)加强了对传感器融合的需要,也对认真谨慎地选择光电探测器、光源和MEMS振镜提出了更高的要求。传感器技术、成像、雷达、光探测技术及测距技术(激光…

socket的长连接、短连接、半包、粘包与分包

socket的半包,粘包与分包的问题和处理代码:http://blog.csdn.net/qq_16112417/article/details/50392463 知乎关于长连接和短连接:https://www.zhihu.com/search?typecontent&q长连接%20短连接 TCP网络通讯如何解决分包粘包问题&#…

2018年中国人工智能行业研究报告|附下载

来源:网络大数据、艾瑞咨询广义人工智能指通过计算机实现人的头脑思维所产生的效果,是对能够从环境中获取感知并执行行动的智能体的描述和构建;相对狭义的人工智能包括人工智能产业(包含技术、算法、应用等多方面的价值体系)、人工智能技术(包括凡是使用…

Spring Data JPA 从入门到精通~方法的查询策略设置

方法的查询策略设置 通过下面的命令来配置方法的查询策略: EnableJpaRepositories(queryLookupStrategy QueryLookupStrategy.Key.CREATE_IF_NOT_FOUND) 其中,QueryLookupStrategy.Key 的值一共就三个: Create:直接根据方法名…

不用地图如何导航?DeepMind提出新型双路径强化学习「智能体」架构

来源:deepmind、arXiv作者:Piotr Mirowski、Matthew Koichi Grimes、Mateusz Malinowski、Karl Moritz Hermann、Keith Anderson、Denis Teplyashin、Karen Simonyan、Koray Kavukcuoglu、Andrew Zisserman、Raia Hadsell「雷克世界」编译:嗯…

C 和 C++ 宏 详解

From:https://www.cnblogs.com/njczy2010/p/5773061.html C中的预编译宏详解:http://www.cppblog.com/bellgrade/archive/2010/03/18/110030.html C语言的宏总结:http://blog.csdn.net/pirlck/article/details/51254590 C 语言中的 宏定义…

Spring Data JPA 从入门到精通~查询方法的创建

查询方法的创建 内部基础架构中有个根据方法名的查询生成器机制,对于在存储库的实体上构建约束查询很有用,该机制方法的前缀 find…By、read…By、query…By、count…By 和 get…By 从所述方法和开始分析它的其余部分(实体里面的字段&#x…

人工智能在能源行业的5个应用

作者:CB Insights . 来源:CometLabs摘要:自2012年以来,把人工智能和能源产业放在一起进行报道的新闻开始增多。本文简要描述了人工智能在能源行业的5个应用方向,及对应的案例。能源行业会产生大量的数据。为了将这些数…

VMware 安装 win7、win10、MAC 和网络模式VMnet0、VMnet1、VMnet8解释

VMware虚拟机安装ghost win7系统方法:http://www.xitongcheng.com/jiaocheng/xtazjc_article_15314.html VMWare14 安装Mac OS系统(图解):http://blog.csdn.net/u011415782/article/details/78505422 虚拟机(VMware …

Spring Data JPA 从入门到精通~关键字列表

注意除了 find 的前缀之外,我们查看 PartTree 的源码,还有如下几种前缀: private static final String QUERY_PATTERN "find|read|get|query|stream"; private static final String COUNT_PATTERN "count"; private s…

当科学遇上众包:9个值得关注的前沿科技算力众包平台

来源: 资本实验室 . 作者:李鑫找到癌症治疗的方法,预测气候的变化,追踪可能与地球相撞的小行星……甚至预测地震,我们每天都面临着各种世界性难题。如果你想参与解决这些难题,公民科学应用将让你发挥作用…

htop 命令详解

htop 官网:http://htop.sourceforge.net/ Linux top 命令的用法详细详解:https://www.cnblogs.com/zhoug2020/p/6336453.html htop 使用详解:https://www.cnblogs.com/programmer-tlh/p/11726016.html 使用 yum 无法直接安装 htop&#xff…

linux主机服务器日志采集,Linux通过Rsyslog搭建集中日志服务器

(一)Rsyslog简介ryslog 是一个快速处理收集系统日志的程序,提供了高性能、安全功能和模块化设计。rsyslog 是syslog 的升级版,它将多种来源输入输出转换结果到目的地。rsyslog是一个开源工具,被广泛用于Linux系统以通过TCP/UDP协议转发或接收…