可构建AI的“AI”诞生:几分之一秒内,就能预测新网络的参数

78138c857f8566cacdeda3447e000ce8.png

来源:学术头条 

作者:Anil Ananthaswamy

译者:刘媛媛

原文出处:quantamagazine.org

人工智能在很大程度上是一场数字游戏。当深度神经网络在 10 年前开始超越传统算法,是因为我们终于有了足够的数据和处理能力来充分利用它们。

今天的神经网络更依赖于数据和算力。训练网络时,需要仔细调整表征网络的数百万甚至数十亿参数值,这些参数代表人工神经元之间连接的强度。目标是为它们找到接近理想的值,这个过程称为优化。但训练网络要达到这一点并不容易。伦敦 DeepMind 的研究科学家 Petar Veličković 说:“训练可能需要花费几天、几周甚至几个月的时间”。

但上述这种情况可能很快就会改变。安大略省圭尔夫大学的 Boris Knyazev 和他的同事设计并训练了一个“超网络”——一种其他神经网络的“霸主”,该网络可以加快训练过程。给定一个为某些任务设计的新的、未经训练的深度神经网络,超网络可以在几分之一秒内预测新网络的参数,理论上可以使训练变得不必要。由于超网络学习了深度神经网络设计中极其复杂的模式,因此这项工作也可能具有更深层次的理论意义。这项研究题为 Parameter Prediction for Unseen Deep Architectures。

目前,超网络在某些环境中表现的出人意料地好,但仍有增长空间。Veličković 说:“如果他们能解决相应问题,这将对机器学习产生很大的影响”。

c2b47e50a7b30539124f96b878bb6168.png

获得“超能力”

目前,训练和优化深度神经网络的最佳方法是一种称为随机梯度下降技术(SGD)的变体。训练涉及在给定任务中(例如:图像识别)最小化网络误差。SGD 算法通过大量标记数据来调整网络参数,并减少误差或损失。梯度下降是损失函数从高值向下降到某个最小值的迭代过程,它代表了足够好的(有时甚至时最好的)参数值。

但是这种技术只有在网络需要优化时才有效。为了构建最初的神经网络(一般由从输入到输出的多层人工神经元组成),工程师必须依靠直觉和经验法则。这些架构在神经元层数、每层神经元数等方面可能有所不同。

f3551fcdd11c2ab9febeaa36c4e48071.png图1 梯度下降算法用来降低网络的“损失函数”,其中较高的值表示较大的损失。该算法试图找到全局最小值以最小化损失。

理论上,一个人可以从很多架构开始,然后优化每个架构并选择最好的。但现任 Google Brain 的访问研究员 MengYe Ren 说:“训练需要花费相当多的时间,训练和测试每个候选网络架构是不可能的。它不能很好地扩展,尤其是考虑到数百万种可能的设计。”

所以在 2018 年,Ren 和他在多伦多大学的前同事 Chris Zhang 及他们的顾问 Raquel Urtasun 尝试了一种不同的方法。他们设计了所谓的图超网络(Graph Hypernetwork: GHN),可以在给定一组候选架构的情况下,找到解决某些任务的最佳深度神经网络架构。

该名称概述了他们的方法。“图”指的是深度神经网络的架构,可以被认为是一个数学图——由线或边连接的点或节点的集合。这里的节点代表计算单元(通常是神经网络的整个层),边代表这些单元互连的方式。

图超网络的工作原理是首先对于任何需要优化的架构(称其为候选架构),它尽最大努力预测候选者的理想参数。然后将实际神经网络的参数设置为预测值,并在给定任务上对其进行测试。Ren 的团队表明,这种方法可用于对候选架构进行排名,并选择表现最佳的架构。

当 Knyazev 和他的同事看到图超网络的想法时,他们意识到可以在此基础上进行构建。在他们的新论文中,该团队展示了如何使用 GHN,不仅从一组样本中找到最佳架构,还可以预测最佳网络的参数,使其在绝对意义上表现良好。在还没有达到最好的情况下,其可以使用梯度下降进一步训练网络。

Ren 说:“这是一篇非常扎实的论文,它包含了更多我们所做的实验。看到图超网络在非常努力地提升绝对性能,我们大家都很高兴。”

5a2cec002cf991209ceebb3264a36991.png

训练“教练”

Knyazev 和他的团队将他们的超网络命名为 GHN-2,它改进了Ren及其同事构建的图超网络的两个重要方面。

首先,他们依赖 Ren 等人将神经网络架构描绘为图的技术。图中的每个节点都是关于执行某种特定类型计算的神经元子集的编码信息。图的边缘描绘了信息如何从一个节点到另一个节点,从输入到输出。

第二,他们借鉴了训练超网络预测新的候选架构的方法。这需要另外两个神经网络。第一个启用对原始候选图的计算,从而更新与每个节点相关的信息,第二个将更新的节点作为输入,并预测候选神经网络的相应计算单元的参数。这两个网络也有自己的参数,必须在超网络正确预测参数值之前对其进行优化。

具体流程如下,首先你需要训练数据——候选人工神经网络(Artifical Neural Network: ANN)架构的随机样本。对于示例中的每一个架构,先从一个图开始,之后使用图超神经网络预测参数,并使用预测的参数初始化候选 ANN。使用 ANN 来执行一些特定的任务,如图像识别。通过计算 ANN 的损失函数,来更新做出预测的超网络参数,而不是更新 ANN 的参数做出预测。这样可以使超网络在每一次迭代后做的更好;然后,通过迭代标记过的训练数据集中的每一个图像和架构的随机样本中的每一个 ANN,来减少每一步的损失,直到达到最优。一般这个情况下,你就可以得到一个训练有素的超网络。

因为 Ren 的团队没有公开源代码,所以 Knyazev 的团队采纳了这些想法,从头开始编写了自己的软件,并对其进行了改进。首先,他们确定了 15 种类型的节点,通过混合、匹配可以构建任何现代深度神经网络。他们还在提高预测的准确性上取得了一些进步。

最重要的是,为了确保 GHN-2 学会预测各种目标神经网络架构的参数,Knyazev 及其同事创建了一个包含 100 万个可能架构的独特数据集。Knyazev 说:“为了训练我们的模型,我们创建了尽可能多样化的随机架构”。

因此,GHN-2 的预测能力更有可能被很好地推广到看不见的目标架构。谷歌研究院大脑团队的研究科学家 Thomas Kipf 说:“例如,它们可以解释人们使用的所有典型的最先进的架构,这是一个重大贡献。”

28107e5508d48dbedf88daef3c043020.png图2 图神经网络

25ddb276586a6285e4648ea82325abad.png

令人印象深刻的结果

当然,真正的考验是让 GHN-2 发挥作用。一旦 Knyazev 和他的团队训练它预测给定任务的参数,例如,对特定数据集中的图像进行分类,他们就测试了它为任何随机候选架构预测参数的能力。这个新的候选者可能具有与训练数据集中的百万架构相似的属性,或者可能不同——有点离群值。在前一种情况下,目标架构被认为是在分发中;在后者中,它已无法分发。深度神经网络在对后者进行预测时经常会失败,因此在此类数据上测试 GHN-2 非常重要。

借助经过全面训练的 GHN-2 模型,该团队预测了 500 个以前看不见的随机目标网络架构的参数。然后将这 500 个网络(其参数设置为预测值)与使用随机梯度下降训练的相同网络进行对比。尽管有些结果更加复杂,但新的超网络通常可以抵御数千次 SGD 迭代,有时甚至做得更好。

480fdbf6561a586541006037d98d5d0b.png图3 安大略省圭尔夫大学的 Boris Knyazev ,帮助建立了一个超网络,旨在预测未经训练的神经网络的参数。

对于图像数据集 CIFAR-10 ,GHN-2 在分布式架构上的平均准确率为 66.9%,而使用接近 2,500 次 SGD 迭代训练的网络,所达到的平均准确率为 69.2%。对于非分布式架构,GHN-2 的表现出人意料地好,达到了大约 60% 的准确率。特别是,它对一种特定知名深度神经网络架构 ResNet-50 实现了 58.6% 的可观准确率。Knyazev 在该领域的旗舰会议 NeurIPS 2021 上说:“鉴于 ResNet-50 比我们的平均训练架构大大约 20 倍,所以 ResNet-50 的泛化效果出奇地好,”。

GHN-2 在 ImageNet 上表现不佳,ImageNet 是一个相当大的数据集。平均而言,它的准确率只有 27.2% 左右。尽管如此,这与使用 5,000 步 SGD 训练的相同网络的 25.6% 的平均准确度相比也是有利的。 (当然,如果你继续使用 SGD,你最终可以以相当大的成本获得 95% 的准确率。)最关键的是,GHN-2 在不到一秒的时间内做出了 ImageNet 预测,而使用 SGD 在图形处理单元上预测参数,来获得相同的性能,平均花费时间比 GHN-2 要长 10,000 倍。

Veličković 说:“结果绝对令人印象深刻,他们基本上大大降低了能源成本。”

当 GHN-2 从架构样本中为一项任务找到最佳神经网络,而该最佳选择还不够好时,至少模型已经得到了部分训练并且可以进一步优化。与其在使用随机参数初始化的网络上释放 SGD,不如使用 GHN-2 的预测作为起点。Knyazev 说:“基本上我们模仿的是预训练”。

26ab6e4e9c453465c578bca55eb16e62.png

超越 GHN-2

尽管取得了这些成功,Knyazev 认为机器学习社区一开始会抵制使用图超网络。他将其比作 2012 年之前深度神经网络面临的阻力。当时,机器学习从业者更喜欢手工设计的算法,而不是神秘的深度网络。但是,当对大量数据进行训练的大型深度网络开始超越传统算法时,这种情况发生了变化。Knyazev :“这可以走同样的路。”

与此同时,Knyazev 看到了很多改进的机会。例如,GHN-2 只能被训练来预测参数以解决给定的任务,例如对 CIFAR-10 或 ImageNet 图像进行分类,但不能同时进行。在未来,他设想在更多样化的架构和不同类型的任务(例如图像识别、语音识别和自然语言处理)上训练图超网络。然后根据目标架构和手头的特定任务来进行预测。

如果这些超网络真的成功,新的深度神经网络的设计和开发,将不再局限于财力雄厚和能够访问大数据的公司。任何人都可以参与其中。Knyazev 非常清楚这种“使深度学习民主化”的潜力,称其为长期愿景。

然而,如果像 GHN-2 这样的超网络真的成为优化神经网络的标准方法,Veličković 强调了一个潜在的大问题。他说:“你有一个神经网络——本质上是一个黑盒子,再使用图超网络去预测另一个神经网络的参数。当它出错时,你无法解释[它]。”

当然,在很大程度上这已经是神经网络的特点了。Veličković 说:“我不会称之为弱点,而称之为警告信号。”

然而,Kipf 看到了一线希望。“一些其他的事物让我对此感到最兴奋,即 GHN-2 展示了图神经网络在复杂数据中寻找模式的能力。”

通常,深度神经网络会在图像、文本或音频信号中找到模式,这些是相当结构化的信息类型。而 GHN-2 在完全随机的神经网络架构图中找到模式。这是非常复杂的数据。

然而,GHN-2 可以泛化——这意味着它可以对看不见的、甚至分布式网络架构以外的参数做出合理的预测。Kipf 说:“这项工作向我们展示了许多模式在不同的架构中以某种方式相似,并且模型可以学习如何将知识从一种架构转移到不同的架构,这可能会激发一些神经网络的新理论。”

如果是这样的话,它可能会让我们对这些黑匣子产生新的、更深入的理解。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

021a9f5d906941556c1f6c07f3e4286d.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482604.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux-01-概述

文章目录入门概述走近Linux系统入门概述 我们为什么要学习Linux linux诞生了这么多年,以前还喊着如何能取代windows系统,现在这个口号已经小多了,任何事物发展都有其局限性都有其天花板。就如同在国内再搞一个社交软件取代腾讯一样&#xff0…

MySQL-Front的安装简介

本博文在作者的个人网站、博客园和CSDN同步发表,如要转载,请标明原作者和出处。 最近在学习MySQL数据库,开始的时候使用的Windows的命令行进行最基本的代码的输入,可是后来就觉得比较麻烦了,于是想找一款图形化数…

生命是什么?生物化学、物理学、哲学对生命本源的共同探索

来源: 集智俱乐部作者:Mark A. Bedua译者:宋词、范星辰 审校:周理乾、梁金编辑:邓一雪导语地球上充盈着生命,通常我们很容易分辨哪些是生命,哪些不是生命。可是,关于生命是什么&…

linux-02-常用的命令-必须掌握

文章目录目录管理基本属性文件内容查看目录管理 绝对路径和相对路径 我们知道Linux的目录结构为树状结构,最顶级的目录为根目录 /。 其他目录通过挂载可以将它们添加到树中,通过解除挂载可以移除它们。 在开始本教程前我们需要先知道什么是绝对路径与相…

上交大许志钦:神经网络中的奥卡姆剃刀——简单有效原理

来源: 智源社区作者:许志钦整理:熊宇轩编辑:李梦佳本文整理自青源Talk第十期,视频回看地址:https://event.baai.ac.cn/activities/217【专栏:研究思路】奥卡姆剃刀是由14世纪方济会修士奥卡姆的…

linux-03-Vim使用+账号用户管理

什么是Vim编辑器 Vim是从 vi 发展出来的一个文本编辑器。代码补完、编译及错误跳转等方便编程的功能特别丰富,在程序员中被广泛使用。 简单的来说, vi 是老式的字处理器,不过功能已经很齐全了,但是还是有可以进步的地方。 vim 则…

孙正义:未来30年投资趋势【附PPT】

来源:投资家、蓝血研究(lanxueyanjiu)作者:孙正义对于今后30年来讲,我认为现在是个很关键的时刻,尤其是在各位的人生当中。而且现在是一整个概念的转变,我们要包容这个概念的转变。我想先给大家看两张照片。…

linux-04-磁盘命令+进程命令

磁盘管理 概述 Linux磁盘管理好坏直接关系到整个系统的性能问题。 Linux磁盘管理常用命令为 df、du。 df :列出文件系统的整体磁盘使用量du:检查磁盘空间使用量 df df df命令参数功能:检查文件系统的磁盘空间占用情况。可以利用该命令来获…

华人一作统一「视觉-语言」理解与生成:一键生成图像标注,完成视觉问答,Demo可玩...

来源:机器学习研究组订阅这个 BLIP 模型可以「看图说话」,提取图像的主要内容,不仅如此,它还能回答你提出的关于图像的问题。视觉 - 语言预训练 (Vision-Language Pre-training,VLP) 提高了许多视觉 - 语言任务的性能。…

2020年9月25日-01-项目启动(团队分工)+带宽,网络速度的计算

此博客用于记录2020年9月25日每日分享, 大概讲讲团队里的分工合作那些事儿。 关于带宽啊,网速啊之类的一些事儿 日期:2020年9月25日 主题: 团队合作怎么合作?有什么人?一般用什么工具?诸如此类…

群体决策是如何误入歧途的

1986年,刚刚升空不久就发生爆炸的挑战者号航天飞机。© Boing Boing来源: 利维坦文:Joshua Holden译:以实马利校对:兔子的凌波微步原文:nautil.us/what-makes-group-decisions-go-wrong-and-right-1340…

2020年9月26日-02-软件工程-工程化思维+瀑布模型+敏捷开发

此博客用于记录2020年9月26日每日分享, 软件工程中的集中常见模式,瀑布模型,敏捷开发等 日期:2020年9月26日 主题: 讨论讨论怎么使用软件工程的思想来解决问题软件工程中的集中常见模式,瀑布模型&#xff…

PowerDesigner15在win7-64位系统下对MySQL 进行反向工程以及建立物理模型产生SQL语句步骤图文傻瓜式详解...

1、安装PowerDesigner15、MySQL5.不详细讲解了。网上一大把。请各位亲参考去。 2、安MyODBC-standard-3.51.0.7-win.msi、mysql-connector-odbc-5.1.5-win.msi两个文件。可以支持odbc在win7下创建连接。 3、安装好之后,最好重新启动系统。不要试图在win7控制面板内找…

转换机器学习:面向多学科问题,构建机器学习新生态

来源: 集智俱乐部作者:Ivan Olier译者:郭瑞东审校:张澳编辑:邓一雪导语机器学习方法在生命、物理、社会经济等复杂系统的应用日渐频繁。如何针对特定任务选取合适的机器学习方法,如何综合利用各类机器学习方…

nginx正向代理 反向代理

1、正向代理 1.我访问不了某网站,但是我能访问一个代理服务器,这个代理服务器呢,他能访问那个我不能访问的网站 2.于是我先连上代理服务器,告诉他我需要那个无法访问网站的内容,代理服务器去取回来,然后返回给我。 3.客户端必须设置正向代理…

【综述专栏】从微分几何和代数拓扑的视角来重新探讨图神经网络

来源:知乎—努力努力再努力q地址:https://zhuanlan.zhihu.com/p/435040892在科学研究中,从方法论上来讲,都应“先见森林,再见树木”。当前,人工智能学术研究方兴未艾,技术迅猛发展,可…

2021-07-27-jeesite学习笔记

2021年7月30日 https://blog.csdn.net/weixin_43886319/article/details/102668518 日了狗 2021年7月29日 sqlJenkins充吧 第一天 参考博文 安装jdk https://blog.csdn.net/qq_42815754/article/details/82968464 有关linux环境变量 https://blog.csdn.net/ljheee/articl…

elasticsearch-1

单实例安装 1、官网下载tar压缩包 https://www.elastic.co/downloads/elasticsearch 2、将下载好的压缩包elasticsearch-5.5.2.tar.gz上传到linux服务器,并解压缩 tar -vxf elasticsearch-5.5.2.tar.gz 3、cd进入到elasticsearch-5.5.2目录中,启动ela…

清华博士后用10分钟讲解AlphaCode背后的技术原理,原来程序员不是那么容易被取代的!...

来源:AI科技评论不久前,DeepMind 的团队发布了一个可以自动生成竞赛级代码的人工智能系统——AlphaCode,号称「媲美普通程序员」,一经发表就在国内外的AI圈里引起了巨大轰动。 -论文地址:https://storage.googleapis.c…

css基础选择器

文章目录css简介css语法规范css代码风格:css选择器的作用css基础选择器标签选择器:类选择器多类名选择器id选择器:id选择器和类选择器的区别:通配符选择器:选择器总结css简介 ​ CSS 是层叠样式表 ( Cascading Style …