2021机器智能研究方向

来源:人工智能和大数据 

在机器智能向更大的深度神经网络发展的过程中,训练效率将成为Graphcore Research在2021年的重点工作。

大型、过参数化模型的训练不断展现出改进的训练和泛化性能。事实上,在许多领域,较大的模型样本效率更高。这意味着应该将更多的计算预算用于更大的模型训练,而非更多的迭代训练(Kaplan et al., 2020[1]; Henighan et al., 2020[2])。

大规模的训练效率能够进一步提高任务性能,同时降低计算成本和功耗。

在2020年,我们在和效率有关的研究领域取得了许多进展,包括算术效率、存储有效训练以及分布式训练的有效实施。此外,我们还继续推进了关于概率建模的研究,并在计算机视觉和语言的有效深度架构的研究工作中取得了重大进展。

本文将探讨我们在接下来一年的研究方向。这些研究方向和训练效率有关。我们也会考虑并行训练的新机遇,包括在NeurIPS 2020上发布的我们有关随机基[3]的研究成果(Gressmann et al., 2020[4]),以及我们与加州大学伯克利分校(UC Berkeley)和Google Research进行的本地并行性的研究(Laskin, Metz et al., 2020[5])。

随机学习的优化

在深度神经网络训练过程中减少存储实施的寻址技术也将是一个重点。有效学习在很大程度上取决于新算法和用于随机优化的新标准化技术的发展,这些技术和方法可以实现训练的稳定性以及小批次训练的泛化。

针对深度学习和计算图网络的新高效模型  

通过设计针对不同应用的新处理功能和构建块来提高深度模型的训练性能和计算效率,对无监督或自我监督的预训练以及对下游任务的有监督微调至关重要。

在我们的研究中,我们将继续考虑诸如计算机视觉和自然语言理解之类的基础性应用,同时也把基于计算图网络的应用(包括基因组学和推荐系统)作为目标。

稀疏训练

稀疏训练可使得人工智能从业者减少大型过参数化模型的计算足迹和功耗,其目标是能够训练超出当前可行的更大模型。

在训练结束时对密集模型进行剪枝或在训练过程中逐渐增加稀疏度,使得研究人员可以减小用于推理的模型尺寸。但是,至少在整个训练持续时间的部分过程中,这些方法仍然受到全模型尺寸的计算和存储要求的限制。

通过基于初始化时的深层网络剪枝的方法可减少计算和存储需求,然后再对所得的剪枝后的子网络进行训练(Hayou et al., 2020[6])。但是,在训练过程中保持固定稀疏模式的静态稀疏训练,通常对应着较差的任务性能。

通过在训练期间定期更改稀疏模式来探索大型模型的高维参数空间,动态稀疏训练可以提高任务性能,从而把与稀疏子网络相关的计算成本和功耗维持在更低水平(Evci et al., 2019[7]; Jayakumar et al., 2020[8])。

有效利用动态稀疏训练,并且在向前和向后传递时都具有很高的稀疏性,这将为创新者提供训练过参数化的深度网络的机会,而这些网络比当今可训练的最大模型还要大(Jayakumar et al., 2020[8])。

并行训练的新方向

为了减少训练大型过参数化模型所需的时间,依靠大量处理器上的有效实施来研究大规模分布式训练的优化算法是非常必要的。

通常,通过在多个模型副本上进行数据并行性来获得更快的训练,每个模型副本都处理随机优化算法的一个微小批次的一部分数据。数据并行训练可通过增加批尺寸来提高吞吐量。但是,在训练时间随批尺寸和处理器数量而变化的初始区域之后,继续增加批尺寸就会达到饱和区域。在饱和区域里,增加并行性无法实现进一步加速(Shallue et al., 2018[9])。

随着数据并行性模型尺寸的增加,每个模型副本又可以基于流水线并行性在多个处理器上实施,其中每个副本的各个层被分成流水线的各个阶段。对于大型模型,可以通过在多个处理器上的基本模型并行性进一步划分每个阶段的多个层。流水线并行性提高了吞吐量,与此同时,批尺寸的增加带来流水线阶段数的增加,从而实现加速。因此,对于仍允许训练的最大批尺寸,使用流水线并行性可以减少整体批尺寸中用于数据并行性的那一部分(Huang et al., 2018[10])。

我们正在考虑新的并行处理方法,来进行大型模型的有效分布式训练。

随机基

在少量维度上探索较大的参数空间可以降低训练过参数化模型的成本。这种方法的研究方式如下:通过限制随机方向的一个小子集上的梯度下降,随机选择一个低维权重子空间,然后在整个训练过程中将其保持固定(Li et al., 2018[11])。

我们最近的研究[12](Gressmann et al., 2020[13])发现,通过在低维随机基中进行训练以及在训练过程中重新绘制随机方向来探索参数空间,可以获得比以前的研究更好的学习效果。

通过在多个处理器上的并行性以及由不同节点为不同的随机投影计算梯度,可以进一步加速对随机子空间的训练。通过这种实施方式,仅通过传递低维梯度向量和投影的随机种子就可以交换梯度。这将随着处理器数量的增加,带来训练的线性加速。

本地并行性

训练过程中向后顺序处理和连续层参数更新(向后锁定)均极大地阻碍了基于反向传播的并行训练。通过基于本地目标分别更新模型的不同块,本地并行性可以解决这些挑战。基于贪心本地更新(Belilovsky et al., 2019[14]; Lowe et al., 2019[15])或重复的本地更新(Xiong et al., 2020[16]),通过监督学习或自我监督表示学习可以实现本地优化。

使用本地并行性可以提高吞吐量,并与流水线并行性一样,扩展并行节点上的处理,而无需同时增加微小批次的尺寸,然后可以将其完全用于数据并行性。正如我们最近与加州大学伯克利分校和Google Research的合作研究证明,本地并行性在高计算状态中特别有效(Laskin, Metz et al., 2020[17])。

多模型训练

在多个节点上扩展训练的一种直接且有吸引力的方法是训练一组深层网络的整体,而不是单个较大的网络。与数据并行训练相比,深度集成(Deep Ensembles)的使用(Kondratyuk et al., 2020[18]; Lobacheva et al., 2020[19])消除了模型副本之间进行任何通信的需求。研究证明,深度集成可以在相同的计算成本下具备更高的准确性,并且比训练大型模型更有效(Kondratyuk et al., 2020[18])。此外,集成可以探索非凸优化景观的不同模式,并且可以提供经过良好校准的预测性不确定性估计。

深度集成也常见于近似贝叶斯边际化,或者贝叶斯模型均值的实用机制中(Wilson & Izmailov, 2020[20])。

Codistillation(共蒸馏)提供了另一种有效的方法来训练多个深度模型以代替单个较大的模型(Zhang et al., 2017[21]; Anil et al., 2018[22]; Sodhani et al., 2020[23])。共蒸馏的目的是通过定期共享各自的预测,训练多个网络学习相同的输入映射和输出映射。研究表明,在使用其他模型的过时预测时,该方法可以接受异步执行。在集成的情况下,必须在训练后对各个模型的预测求平均值。相比之下,在共蒸馏中只有一个阶段,即对所有模型进行训练以做出相同的预测。

条件稀疏计算

深度学习的条件计算可以作为专家的深度混合加以实施,其稀疏门控机制仅根据输入即可激活整个网络的某些计算块(Shazeer et al., 2017[24]; Lepikhin et al., 2020[25])。

这种方法可显著增加固定计算成本下训练的模型的整体大小,而这取决于单个模型中处理块的指数组合(Wang et al., 2018[26])。

在训练期间,通过对整个大型网络的不同部分进行门控选择,该模型可以在减少计算负载和低存储带宽的情况下,学习计算块与特定输入或任务之间的关联。然后,该方法使通过基于输入动态选择和执行网络的不同部分来解决下游任务成为可能。

研究表明,整个训练后的稀疏门控模型尺寸的增加与任务性能的提升相对应,而计算成本则与相对较小百分比例的参数总数相对应。

2021年的人工智能研究

展望人工智能研究的下一个关键阶段,为基础性深度学习应用(例如图像处理和自然语言处理)和基于计算图网络的领域(包括蛋白质工程、药物研发和推荐系统)探索新的突破性方法都是非常振奋人心的工作。

这些创新方法的成功将取决于Graphcore IPU等新型处理器的计算能力和灵活性的进一步提升,以便为大规模、有效的机器学习提供全新的方向。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/485711.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

sqlalchemy外键和relationship查询

前面的文章中讲解了外键的基础知识和操作,上一篇文章讲解了sqlalchemy的基本操作。前面两篇文章都是作为铺垫,为下面的文章打好基础。记得初一时第一次期中考试时考的不好,老爸安慰我说:“学习是一个循序渐进的过程”,…

加大基础研究投入 给科技创新注入“强心剂”

来源:科技日报进一步加大政府科技投入力度,引导社会各界对基础研究的投入与布局,健全鼓励支持基础研究、原始创新的体制机制,探索多元化财政科技投入方式,完善鼓励研发投入的政策体系,提升科技经费投入的有…

Gym - 100989J -(DFS)

题目链接:http://codeforces.com/gym/100989/problem/J J. Objects Panel (A)time limit per test1.0 smemory limit per test256 MBinputstandard inputoutputstandard outputRaihan is helping Maram and Master Hasan in the design of their graduation project…

艰难2020:人工智能的应用是否已停滞不前?

作者:Gary Grossman译者:Sambodhi策划:刘燕今年,每一个季度都是疯狂的一年,人工智能的发展同样如此。总的来说,这一年人工智能的发展喜忧参半,其中有显著的进展,也有对技术滥用的新发…

浅谈WM算法

1. WM(Wu-Manber)算法的简单理解:(1)WM算法需要的参数:∑:字母集c: 字母集数目m:模式串集合中,字符串长度最小的模式串的长度B:字符块长度&#…

AI研习丨专题:因果推断与因果性学习研究进展

来源:《中国人工智能学会通讯》2020年 第10卷 第5期 机器学习及其应用专题0 引言因果关系一直是人类认识世界的基本方式和现代科学的基石。爱因斯坦就曾指出,西方科学的发展是以希腊哲学家发明形式逻辑体系,以及通过系统的实验发现有可能找…

传感器的未来: 10年后我们将会生活在一个极端透明的世界

来源:大数据文摘作者:彼得戴曼迪斯2014年,在芬兰的一个传染病实验室里,卫生研究员佩特里拉特拉(Petteri Lahtela)发现了一件奇怪的事情,他突然意识到他所研究的很多问题的条件都存在着重叠。例如…

企业计算机服务器中了babyk勒索病毒怎么办,babyk勒索病毒解密数据恢复

在数字化的今天,网络安全威胁不断增加,给企业的生产生活带来了严重影响,使得企业不得不重视数据安全问题。近日,云天数据恢复中心接到企业求助,企业的计算机服务器中了babyk勒索病毒,导致企业所有计算机系统…

java yied的用法,Java多线程的wait(),notify(),notifyAll()、sleep()和yield()方法使用详解,...

Java多线程的wait(),notify(),notifyAll()、sleep()和yield()方法使用详解,Java多线程中的wait(),notify(),notifyAll()、sleep()和yield()方法我们先从一个案例开始:static public class WaitingTest {//s…

海马体启发的记忆模型

来源:混沌巡洋舰 记忆是人类智能的关键,我们因为记忆可以把过去和当下整合成为一体, 并且可以预测未来。记忆不仅是一个信息承载的工具, 更是世界模型的本体, 它无时无刻不在刻画未来, 也被当下影响&#…

DeepMind最新发现!神经网络的性能竟然优于神经符号模型

来源:深度学习这小事按照之前的常识,结合了算法和符号推理技术的神经符号模型(Neurosymbolic Models),会比神经网络更适合于预测和解释任务,此外,神经符号模型在反事实方面表现更好。而Neural-S…

刚刚Sci-Hub和特朗普一样被永久封禁,Twitter官方:不得上诉

来源:量子位晓查 发自 凹非寺 公众号:QbitAI今天,Twitter官方宣布永久封禁特朗普的账号。而另一个账号的封禁恐怕更让科学界感到震惊。有用户发现,Sci-Hub的Twitter账号和特朗普一样,都被完全清空了。随后,…

javaweb简要介绍,虚拟路径,虚拟主机

1. 静态,动态:是否随时间,地点,用户操作的改变而改变 动态网页 需要使用到 服务端脚本语言(JSP) 2. 架构: CS: Client Server eg:qq,微信,cs游戏 不足: 1.如果软…

物理学中的不确定性

来源:人机与认知实验室吴骏(香港中文大学通识教育基础课程讲师)【物理研究的只是模型,而不是真理】物理学中的确定性问题缘起于我正在教授的《与自然对话》[1] 这门课。其中节选了詹姆士华生 (James Watson) 在2003年写的一本畅销…

JSP执行流程

第一次访问:服务端将jsp翻译成java,再将Java编译成class文件 第二次访问:直接访问class文件较快,所以第一次访问比较慢,以后就快了 (如果服务器代码修改了,则需要重新进行翻译,编译…

玩电子游戏的神经网络,告诉我们大脑是如何决策的

来源:混沌巡洋舰当你开车的时候,你的大脑会接收大量的视觉信息,并用它来做出驾驶的决定,比如什么时候刹车或者换车道。大脑需要决定在你的视野中哪些信息是做出这些决定所必需的。例如,另一辆车的位置是非常重要的&…

2021年的第一盆冷水:有人说别太把图神经网络当回事儿

来源:数学中国图神经网络(GNN)是机器学习中最热门的领域之一,在过去短短数月内就有多篇优秀的综述论文。但数据科学家 Matt Ranger 对 GNN 却并不感冒。他认为这方面的研究会取得进展,但其他研究方向或许更重要。博客链…

JSP页面元素,内置对象及request详解

JSP的页面元素&#xff1a; a. 脚本Scriptlet 1.<% 局部变量&#xff0c;Java语句 %> 2.<%! 全局变量&#xff0c;定义方法 %> 3.<% 输出表达式 %> 一般而言&#xff0c;修改web.xml&#xff0c;配置文件&#xff0c;Java&#xff0c;需要重启tomcat服务&am…

美国科学院报告《无止境的前沿:科学的未来75年》

来源&#xff1a;科技咨询频道作者&#xff1a;刘昊 张志强 曹玲静编译&#xff1a;刘昊 张志强 曹玲静 &#xff08;中国科学院成都文献情报中心&#xff09;2020年12月17日&#xff0c;美国国家科学院出版报告《无止境的前沿——科学的未来75年》&#xff08;The Endless Fro…

jsp内置对象--response

response&#xff1a;响应对象 提供的方法&#xff1a;void addcookie(Cookie cookie);服务端向客户端增加一个cookie对象 void sendRedirect(String location) throws IOException:页面跳转的一种方式&#xff08;重定向&#xff09; void setContetType(String type) :设置…