专访微软Greg Yang,构建神经网络的底层语言,探索AI的“万物理论”

859655f8ac02533a585374fa360656e6.png

来源:智源社区

为了进一步解读这一工作背后的意义,智源社区采访了论文一作、微软研究院高级研究员Greg Yang(杨格)。采访中,我们不仅了解了µTransfer的背景,以及项目背后更为远大的目标,也了解到了Greg本人奇特的跨界人生。

420773048fba6d12aefadb447dabdeb8.png

图注:Greg Yang

01

从DJ到研究数学:在自由探索中对AI产生兴趣

1.在哈佛期间两度休学,寻找方向

出于对数学的兴趣,Greg一开始就进入了哈佛大学数学系。由于哈佛大学有着非常宽容的休学政策——学生可以随时离开校园,也可以随时回来——Greg下定决心,在读完大二后选择追求音乐之路。

73f40b1cf2aacc72f9db329a1834c4ef.png

图注:Greg在哈佛大一时表演架子鼓

在一年半的时间中,他从生活的“仓鼠笼”中走出来,好好规划自己的人生。这段时间他可以尽情探索自己的兴趣。

a24313bc873c0cd6d57716bce8a89e21.png

图注:成为DJ的Greg

Greg在这期间得出了以下结论:

  1. 他将致力于实现通用人工智能(AGI):能够制造一个比自己还要聪明的东西,并淘汰掉他自己,是一个“intellectually”极其激动的事情。

  2. 他对数学有着内在的激情:由于一系列可预测的课程、作业和竞赛等,他对学习和研究数学的热情变得麻木了。但这次休学让他恢复了往日对数学这一学科的热爱。

  3. 数学是我们现实的底层逻辑:它是一切科学和工程的基础语言(Foundation Language),而重大的突破,往往来自揭示问题背后的一些隐藏着的数学结构。即使是不怕数学本身,就能够提供足够的自信,来尝试解决困难的问题,提出新的点子。

休学一年半后,Greg回到哈佛,出版了自己的第一篇论文。之后他再次休学,完成阅读教科书等方面的事情。

在第二次休学期间,深度学习开始快速发展,他痴迷于研究神经图灵机,并借鉴了可微拓扑学中的思路,提出了“Lie Access Neural Turing Machine”,并发表在ICLR上。

同样在那段时期,他发现代数拓扑学和学习理论中的一个有趣的联系。例如,VC维(Vapnik–Chervonenkis Dimension)描述学习一个任务的困难程度的方法,但可以被一个和任务有关的拓扑空间中的“洞”的维度所捕捉到。这种联系可以帮助证明一些计算复杂度的问题。当时他不知道的是,这个研究会成为他职业生涯的起点

2.机缘巧合,师从丘成桐,与弗里德曼和沈向洋结缘

第二次休学两年后,Greg回到哈佛。每个学期,数学系会为每个学生随机指定一位学术导师。他导师是获得了1982年菲尔兹奖的丘成桐。他表示,当时他根本没有意识到日后丘成桐带来的影响。

在一次例行会议上,Greg告诉丘成桐他正在写的这篇关于代数拓扑和学习理论的论文。Greg对丘成桐的早期印象是:“有着很重口音的英语,表情十分平静”,在这会议上让他很难悟解丘成桐对他研究的看法。但此后丘成桐开始带他去很多活动,与PhD学生和研究者会面,甚至还推荐他申请摩根奖(Morgan Prize),这是对本科数学家而言能够获得的最高荣誉,最终他获得了提名。

1924c22b1c13683f45fe3282b107a856.png

图注:Greg与美国数学家、摩根奖的发起者Frank Morgan的合影

丘成桐的推荐也影响了Greg的职业路径。

毕业前,他申请了谷歌大脑的实习,但offer还未下来,需要在学校多待一段时间。丘成桐得知后提议:“试试微软怎么样?(How about Microsoft?)”

在老师的推荐下,Greg收到了时任执行副总裁沈向洋的邮件,在与微软新英格兰研究院主管Jennifer Chayes沟通后,他联系上了另一位菲尔茨奖得主——迈克尔·弗里德曼。

也许是因为两人都是在计算领域研究的拓扑学家,也许是因为两人性格上都是“数学领域的冲浪好手”,与弗里德曼的交流很有共鸣。一周后,沈向洋向他发出了加入微软的邀请:“有两位菲尔茨奖得主推荐你,我要是再拒绝就显得太傻了,不是吗?”

就这样,Greg在2017年全职加入微软雷蒙德研究院,并在那里从事研究至今。

谈及这样的经历,Greg表示,这是一件非常幸运的是,毫不夸张地说,甚至是百万分之一概率的事情——如果当初丘成桐没有随机成为他的导师就不可能有今天。当然,他所做的研究足够好,也是沈向洋能够选择他的原因。

02

µTransfer:大模型超参数的“以小见大”

近日,微软研究院团队联合OpenAI提出了Efficient Hyperparameter Tuning(µTransfer)的方法。但是在采访中,Greg解释了µTransfer项目背后的长远目标——用数学的语言,建立能够描述和分析神经网络架构的底层编程语言,即Tensor Programs。

1.背景:不确定且高成本的大模型调参

模型的超参数配置,在模型规模扩大时,不一定是最优的。大模型也需要找到合适的超参数配置,否则模型可能无法训练得符合性能需求。

2abdf111dc3f2875fd0ea1669de94120.png

图注:在不同的神经网络宽度下,学习率(log_2)和训练损失之间变化情况。不同宽度的网络可能有着不同的最优超参,更宽的网络不一定会比窄的网络性能更好。

但是,由于模型过于庞大,很多中小研究团队的成本只够训练一两次模型。由于研究团队或多或少会“把所有鸡蛋都放在一个篮子里”,任何在预训练阶段背离训练目标的问题,都会带来巨大的时间和成本消耗。

例如,GPT-3论文就提到,虽然训练过程中有一个Bug,但是他们无法再重训模型,只能忽视这个问题。此外,选错了超参数,也会带来非常严重的资源浪费。有时候,错误的超参数设置可能会使模型在训练一个月后才发现配置有问题。

因此,在训练大模型时,超参数的配置总会面临一些不确定因素,而且研究者很难通过多次训练来确保超参配置是正确的。

为了解决这个问题,µTransfer应运而生。

2.µTransfer:建立模型规模扩大时的超参变化规则

µTransfer的思路并不复杂:µTransfer是一种在改变神经网络宽度过程中,同时改变其对应的初始化权重、学习率等超参数的规则。其特别之处在于,如果在一个“窄”的模型中找到了合适的超参配置(初始化、学习率、动量,甚至是每一层的超参组和),µTransfer就能够推导出更大版本的模型下,接近于最优的超参数配置。

d0d823178cde98fae304962051f50371.png

图注:µTransfer的基本思路

这样一来,在为超大规模模型寻找合适的超参数时,研究人员可以先从该种架构的小规模版本模型上找到合适的超参数,然后用µTransfer的方法扩大到对应的更大规模版本上。这意味着,研究者能够在小模型上找到一组超参,然后通过一定的规则,推导出大模型下的超参配置,而不需要对大模型进行训练并寻找最优参数。在这一过程中,激活规模(Activation Scales)能够保持稳定。

0b62183a5dd4c77e9639d47890db8917.png

图注:模型宽度增长时,在PyTorch的默认超参和µTransfer超参调整下,模型激活规模的变化情况

在这里,激活(Activations)指的是神经网络的一个层的向量输出的元素(Vector Output),而激活规模指的是此向量元素的标准差或平均绝对值。

当模型的宽度增加时,保持激活规模的稳定非常重要,原因在于两点:

  1. 如果激活规模不稳定,激活最终会变得无法被低精度浮点数(如FP16)所表示,这会导致在训练一个大的模型时,出现很多NaNs,导致训练的中断;

  2. 当宽度趋近无限时,保持激活稳定对于找到一个合理的超参数范围很重要,也是超参数迁移的必要条件。

3.证明µTransfer的正确性:保持稳定的超参变化

怎样证明µTransfer是最大化特征学习的最优?可以从理论和实践两个方面验证。理论上,正确的参数化方法应该是独一无二的,即使是在模型规模变化的时候,依然能够保持最优的学习率、初始化权重和其他训练超参数。但错误的参数化方法,会让超参数在模型规模变大的过程中逐渐趋向无限或0。

而在实践中,如果能够找到某一种模型在特定规模下的最优化参数,在模型规模发生变化的过程中,也应当能维持最优配置,模型也保持最优的性能。

03

µTransfer背后的远大项目:建立描述神经网络架构的统一编程语言Tensor Programs

Greg表示,µTransfer仅仅只是其Tensor Programs项目的一个成果,但团队背后更期望的是找到一种合适的“低层编程语言”,分析并描述神经网络的函数,即Tensor Programs。

1.低层神经网络描述语言:Tensor Programs

在AI领域,有一个问题长期以来被研究者所忽视:怎样能够为不同架构的模型都找到合适的初始化配置?换言之,是否有一个统一的规则,能够根据模型的架构,分析出其最优的初始化超参数配置,确保模型训练的稳定性?

Greg认为,长期以来这一问题没有被研究者完全解决。在2017年的时候,默认的初始化都是从粗糙的启发式方法中得出的,保证每个神经网络层的激活与网络的宽和深保持稳定。在当时,研究者每提出一个新的架构,都需要单独撰写初始化策略——因为没有一个通用的方法,能够分析出新网络所需的初始化策略。

在尝试统一不同神经网络架构的初始化启发方法时,Greg发现:存在一种“低层编程语言”,仅由矩阵乘法(Matrix Multiplication)和激活函数(Coordinatewise Nonlinearities)组成。如果神经网络函数能够使用这种语言表达,就可以自动且完备地进行初始化分析,这一语言被称为Tensor Programs(TP)。

例如,“神经网络-高斯过程”的对应,即“无限宽随机神经网络是高斯过程”,源于研究者对于一些简单架构的神经网络的观察和研究。TP的一项研究证明,这种与高斯过程的对应关系,可以扩大到任何架构的神经网络上。(见论文:Tensor Programs I: Wide Feedforward or Recurrent Neural Networks of Any Architecture are Gaussian Processes) 

2.Tensor Programs的潜力:分析神经网络的最佳学习状态

以上说明了TP可以像ONNX一样能够表示任何神经网络架构,但很快地,Greg意识到TP更像PyTorch,其实能够表达整个神经网络的训练算法。这种强大的表达性可以用来分析神经网络训练后的状态。

他比喻说,“就像由简单水分子构成的水,在不同的温度下有不同的状态,而这不同状态的背后,是水分子之间也表现出的不同结构。”类比而言,我们也可以想象:在不同的学习率和初始化权重下,神经网络可能呈现出的不同状态。而不同的参数设置,在网络宽度增加时,对于网络的行为的影响也不一样。

通过此顿悟,Greg提出了一种无限宽神经网络极限的分类,能够推导出无限宽神经网络的最大特征学习极限,并衍生出了“最大更新参数化”(Maximal Update Parametrization,即µ-Parametrization)。这是 µTransfer的理论基础。

在这项研究刚开始的2019年,很多“无限宽神经网络是核机器”的研究涌现,从理论上显示,宽神经网络的行为,在默认的(PyTorch或TensorFlow风格)参数化条件下,是核机器(Kernel Machine)。这种核机器状态下的神经网络就像是水的凝固态——冰。非常坚固,有着固定的结构,对应着一些固定的、而非可学习的特征。而µ-Parametrization的特征学习状态更像是流体——对于环境(如数据)有着适应性。

1d45f6f5ad2c91a42a7f9edaba763be8.png

图注:目前已经发表的TP论文

3.Tensor Programs的未来:探索AI研究的“万物理论”

谈及未来Tensor Programs的发展,他期待,团队可以在现有工作的基础上,解决其他维度的模型规模问题,比如模型的深度、MoE架构中专家的数量等——即,从理论上找到无限规模(比如无限深、无限专家数量,甚至是无限宽-深-专家数)的神经网络的基线,并得出对应规模下的超参数迁移规则。

Greg认为,Tensor Programs依然有足够的潜力来影响深度学习,特别是大型基础模型的实践工作,这一工作在他看来,就如同去寻找AI中的“万物理论”。

被问及在超大规模模型中的研究机会,Greg认为,这就像是21世纪的曼哈顿计划一样,其规模如此庞大,纯用实验-试错方法是很难来推动的。他认为,可以通过借鉴无限宽神经网络理论,来理解这种超大参数规模模型的行为。由于目前的理论与实践之间仍存在着鸿沟,这对于年轻研究者而言是一个机会。

Greg列举了8个可以在大模型领域持续探究的基础问题:

  1. 实现正则化超参数的迁移:这对于大模型在小数据集上的微调非常重要,因为模型可能会过拟合数据。

  2. 能否找到所有可能的无限规模神经网络极限?“规模”可以包括宽、深、专家数、序列长度等;

  3. 能否跨宽、深、专家数、序列长度等迁移超参数?

  4. 能否跨数据集迁移超参数?

  5. 能否迁移模型结构和优化器选择?

  6. 从极其小的神经网络模型迁移超参数的方法,如只有10个神经元的网络;

  7. 将一个小神经网络超高清地放大到一个更大更高性能的网络上;

  8. 给定用于预训练的固定 FLOPs 预算,权衡模型宽度、深度、训练时间、序列长度等的最佳方法是什么?

04

给年轻人的职业建议

Greg认为,他的职业发展经历并不典型,但他也提出了一些个人的职业发展建议:

  • 在你大学的早年阶段,在你想研究和投入的任何领域打下坚实的基础。

  • 在学校中要认识各种各样的人,并向他们学习。大学最大的好处不是受到的教育,而是接触到的人。

  • 找到自己独有的技能,并专注于发展你的优势

  • 一旦拥有强大的基础和独特的技能,就对自己充满信心。

  • 不要害怕怀有一个宏伟的长期愿景并执行它。

  • 下注。不管是什么领域,无论是不是做研究,合理地分配时间和精力都存在着不确定性。使用你独特的技能,尽可能减少不确定性,向着最好的方向,怀着信念前进。

  • 无论处于职业的哪个阶段,都要谦虚,向他人学习。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

c86bc85c3ca44048ccf6b431f2d3ef2e.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482241.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

16 操作系统第四章 文件管理 文件的基本操作 文件共享 文件保护 文件系统的层次结构

文章目录1 文件的基本操作1.1 创建文件1.2 删除文件1.3 打开文件1.4 关闭文件1.5 读文件1.6 写文件1.7 文件基本操作小结2 文件共享2.1 基于索引结点的共享方式(硬链接)2.2 基于符号链的共享方式(软链接)2.3 文件共享小结3 文件保…

人工智能与量子计算在有前途的新忆阻器中融合

来源:ScienceAI编辑:萝卜皮近年来,计算在两个主要方面取得了进步——机器学习方面的突破,以开发通过经验自动改进的算法,以及对理论上证明比任何超级计算机更强大的量子计算机的研究。现在,科学家们已经创建…

17 操作系统第四章 磁盘管理 磁盘的结构 磁盘调度算法 减少磁盘延迟时间的方法

文章目录1 磁盘的结构1.1 磁盘、磁道、扇区1.2 磁盘如何读取数据1.4 盘面、柱面、磁盘的物理地址1.5 磁盘的分类1.6 磁盘的结构小结2 磁盘调度算法2.1 一次磁盘读/写操作需要的时间2.2 先来先服务算法(FCFS)2.3 最短寻找时间优先(SSTF&#x…

深度学习准备「爆破」著名的欧拉方程

来源:ScienceAI编辑:绿萝250 多年来,数学家一直试图「爆破」物理学中一些最重要的方程:那些描述流体如何流动的方程。如果他们成功了,那么他们将会发现一种情况,在这种情况下,这些方程会被打破—…

18 操作系统第五章 设备管理 IO设备的基本概念和分类 IO控制器 IO控制方式 IO软件层次结构 IO核心子系统 假脱机技术 设备的分配与回收 缓冲区管理

文章目录1 IO设备的基本概念和分类1.1 什么是I/O设备1.2 I/O设备分类2 IO控制器2.1 I/O设备组成2.2 I/O控制器功能2.3 I/O控制器的组成2.4 寄存器编址方式2.5 IO控制器小结3 IO控制方式3.1 程序直接控制方式3.2 中断驱动方式3.3 DMA方式3.3.1 DMA控制器3.3.2 DMA方式3.4 通道控…

Nature发布第一张人类造血干细胞发育的全面路线图

来源:生物通加州大学洛杉矶分校(UCLA)的科学家创建了一份史无前例的路线图,追踪了人类胚胎中造血干细胞发育的每一步,为人们在实验室中生产功能齐全的造血干细胞提供了蓝图。来自胚胎主动脉壁的人类造血干细胞这项研究…

1 计算机组成原理第一章 计算机系统概述 计算机发展历程、层次结构、性能指标

文章目录1 计算机发展历程1.1 软硬件发展1.2 分类以及发展方向2 计算机系统层次结构2.1 计算机系统组成2.1.1 硬件的基本组成2.1.2 软件系统2. 2 CPU及其工作过程2.2.1 运算器2.2.2 控制器2.2.3 计算机的工作过程2.2.4 计算机系统层次结构2.2.5 存储器3 计算机性能指标3.1 容量…

Google 与 GitHub 结盟,为保护软件供应链而战!

出品:CSDN(ID:CSDNnews)整理:章雨铭 责编:屠敏4月7日,据谷歌透露,它一直在跟GitHub合作,创建一种防伪方法,用于签署源代码,解决像影响Solar…

5 计算机组成原理第四章 指令系统

文章目录1 指令格式1.1 指令定义1.2 指令格式1.3 指令格式-地址码1.4 指令格式-操作码1.5 操作码分类1.6 操作类型2 数据存放指令寻址2.1 数据存放方式2.2 指令寻址2.3 操作数类型2.4 数据寻址2.4.1立即寻址2.4.2 直接寻址2.4.3 间接寻址2.4.4 寄存器寻址2.4.5 寄存器间接寻址2…

【Brain】脑智前沿科普|用数学解释大脑学习的过程

来源:脑与心智毕生发展研究中心原文作者:Kate Nussenbaum,Alexandra O. Cohen原文编辑:David Sheinberg小小评阅人:Brown University Pre-College Stem I Program中文翻译版权:脑与心智毕生发展研究中心中文…

6 计算机组成原理第五章 中央处理器 CPU功能和结构 指令执行过程

文章目录1 CPU功能和基本结构1.1 CPU的功能1.2 运算器的基本结构1.3 控制器的基本结构1.4 CPU基本结构1.5 CPU的功能和基本结构小结2 指令周期和数据流2.1 指令执行过程2.2 指令周期流程2.3 指令周期的数据流-取指周期2.4 指令周期的数据流-间址周期2.5 指令周期的数据流-执行周…

7 计算机组成原理第五章 中央处理器 数据通路

文章目录1 数据通路的功能和基本结构单总线1.1 数据通路的功能1.2 数据通路-基本结构单总线2 数据通路-CPU内部单总线方式2.1 三种结构之间数据传送方式2.2 CPU内部单总线方式-例题3 专用通路3.1 专用数据通路方式3.2 专用数据通路方式-例题1 数据通路的功能和基本结构单总线 …

新研究表明 深层神经网络的功能存在局限性

GETTY IMAGES/IEEE SPECTRUM来源:IEEE电气电子工程师深度神经网络越来越有助于设计微芯片,预测蛋白质如何折叠,并在复杂游戏中胜过人们。然而,研究人员现在发现,这些人工智能系统的稳定性和准确度在理论上存在根本的限…

8 计算机组成原理第五章 中央处理器 控制器 硬布线控制器 微程序控制器

文章目录1 控制器的功能和工作原理1.1 控制器的结构和功能1.2 控制单元的输入和输出1.2.1 控制单元输入1.2.2 控制单元输出2 硬布线控制器2.1 CPU的控制方式2.2 安排微操作时序的原则(最短时间完成,参考)2.2.1 安排微操作时序-取指周期2.2.2 …

从特斯拉AI团队学到的九条方法论

来源:AI前线作者:Gary Chan译者:Sambodhi策划:李冬梅尽管 OpenAI 以其在自然语言处理上的成就而著称,而 DeepMind 则以强化学习和决策而闻名,特斯拉(Tesla)无疑是计算机视觉领域最有…

9 计算机组成原理第五章 中央处理器 指令流水线

文章目录1 指令流水线基本概念性能指标1.1 指令流水的定义1.1.1 指令分法1.1.2 指令执行时间1.2 流水线的表示方法1.3 流水线的性能指标2 指令流水线影响因素分类2.1 机器周期的设置2.2 影响流水线的因素2.2.1 数据相关(数据冲突)三种类型2.2.2 流水线影…

【赛迪智库】美国允许自动驾驶汽车取消方向盘对我国L4级自动驾驶的影响

来源:赛迪智库日前,美国国家公路交通安全管理局(NHTSA)发布了最终版的《无人驾驶汽车乘客保护规定》,其中对于由自动驾驶系统操作的车辆将不被要求配备传统方向盘等手动控制装置。新规有望促进美国L4级自动驾驶汽车商业…

10 计算机组成原理第六章 总线 总线的概念与分类 总线性能指标 总线仲裁 总线操作和定时 总线标准

文章目录1 总线的概念与分类1.1总线的定义1.2 总线的特点1.3 总线的特性1.4 总线的分类1.4.1 串行总线与并行总线1.4.2 按总线功能分类1.5 系统总线的结构1.6 总线概念与分类小结2 总线的性能指标2.1 性能指标分析2.2 总线性能指标小结3 总线仲裁3.1 总线仲裁的基本概念3.2 集中…

远程操控大脑?科学家成功利用近红外线控制老鼠的行为

GETTY IMAGES来源: IEEE电气电子工程师近日,科学家首次发明了一种非侵入性的方法来控制大脑回路——大脑中的神经元群,它们共同执行一项特定任务,成功完成了让实验室动物从远处自由移动。这项将近红外光射入大脑的新技术&#xff…

3 计算机组成原理第三章 存储系统 主存简单模型及寻址 半导体寄存器 存储器分类 主存与CPU连接 双口RAM和多模块寄存器

文章目录1 主存简单模型及寻址的概念1.1 主存储器1.1.1 存储器芯片的基本结构1.1.2 寻址2 半导体存储器2.1 半导体随机存取存储器2.1.1 DRAM的刷新2.1.2 SRAM的读周期2.1.3 SRAM的写周期2.1.4 RAM-易失性存储器2.2 ROM2.2.1 ROM分类2.2.2 半导体随机存储器小结3 存储器分类3.1 …