【综述专栏】关于AI Architecture未来的一些思考

c26b6ccfc43c1e784f630baaa72450c4.png

来源:知乎—金雪锋

地址:https://zhuanlan.zhihu.com/p/428802599

10月28日,Jeaf Dean发了一篇博客,简单介绍了谷歌下一代AI架构Pathways的关键特性。

https://blog.google/technology/ai/introducing-pathways-next-generation-ai-architecture/

文章引起了AI圈内很多人士的关注,特别是对AI平台架构有兴趣的对此做了非常丰富的解读。

MindSpore项目组内部也进行了讨论,总结了一些观点供大家思考(这些观点主要来自岳大师)。

在分享我们对AI架构的未来的一些分析判断之前,也先简单的谈谈对Pathways的几个关键点的看法。

Pathways一文,三个要点,其实是两个方面:

  • 一是关于智能模型能力提升的两个点:one model fit 'all' tasks (multi-task)和multiple senses(multi-modeling);

  • 二是切实影响了AI平台架构的一个点:sparse activation,dynamic-routing。

关于第一方面,多任务,是智能算法一直在发展的方向,多任务模型问题在于任务到底有多么多?泛泛的说多任务,其实需要看这些不同的问题之间,内部是否具有通用的机理,多任务的模型对各个任务都有增益;多模态,也是智能算法一直在发展的方向,到底融合哪些信息,其实是一个按应用分场景的问题。我们认为,在多感官信息融合,类似拟人机器人等场合,为了丰富信息来源,本就是必然的;如何多信息融合,不一定有一个通用的最优模式。

总之,关于第一方面的两个点,如果泛泛的一股脑的多任务多模态,效果未必就好,甚至可能过于理想主义。关键要看是否必要:智能模型的部署,至少要粗略的分两种场景,数据中心的巨无霸和边缘终端等专一小模型,在计算力和能耗上不得不考虑。如果是面向更强或者更通用的智能的研究,怎么探索都不为过。只是多任务和多模态,对所谓下一代AI架构来说,个人感觉不是最关键的。

关于第二方面,文章提到的GShard和Switch Transformer等代表的稀疏激活/动态路由等机制,确实会对AI平台的架构产生影响。

我们认为除了Jeaf Dean提到的几个点外,下面几个方向也会深刻影响AI架构未来,值得关注:

1)当前AI计算模式和理想模式的差距;

AI算法最基本的两部分,表达和优化。前者NeruralNetwork/DeepLearning对平台来说是算子的DAG;后者BackPropagation对平台来说是计算梯度然后逐层调整权重。对于后者,从计算流程上看,形象的说,就是ABCDE层前馈,然后EDCBA反馈,一轮又一轮。每一轮,输出对标签的“全局”错误信号,本质上要的逐层传播到最前面的层。

对比人脑,很难找到这种全局错误信号的一轮次一轮次的同步的传播,做到基于物理邻接的层(节点)的错误信息进行学习,应该才是更理想的表达和学习的机制。其中Local Learning是对该问题的研究,曾经系统的跟踪了这些方向:Predictive Coding,Proxy Objective,Feedback Connection,Weight Constraint,Synthetic Gradient,Target Propagation,NGRAD GlobalErrorVector DistributionalCodeDopamine,Biological Plausibility,Equilibrium Propagation,Extra X-Learning。

按照不同的"Local"思路,进一步展开看:

  • 朴素的物理原则/生物机制(关联和竞争) :Hebbian/ContrastiveHebbian /Grossberg/Oja/LWA/…

Random Feedback Weights

  • 辅助网络学习调节:RL for Local Learning/MetaL for Local Learning/

  • 时变比对:Real Time Recurrent Leaning/Recurrent Backpropagation/Eligibility Propagation(资格传播)/Equilibrium Propagation(均衡传播) (No.3)

  • 生成模型:Target Propagation/Difference Target Propagation/Predictive Coding (No.1)

  • 反馈连接比对:Feedback Connections/Direct Feedback Alignment (No.2)/ Deep Feedback Control

  • 对称权重或符号:Weight Mirror & KP+/ Weight Symmetry/ Sign Symmetry

  • 神经/脉冲启发的扩展图(节点):SpikeGrad/

  • 其他:NGRAD/Neural Gradient Representation by Activity Differences / Dynamic Stimuli(动态刺激) Trace Learning/ GlobalErrorVector Broadcasting/ Node Perturbation(节点扰动)

我们需要从三个维度权衡出一条好的路线:1) 能否规模化学习深度网络处理复杂大任务,2) 是否具有局部学习之外的其他学习能力(在线,增量,持续),3) 是否具有硬件友好性(哪怕是全新的可行的底层硬件结构)。

可惜到目前为止,这些方向的研究进展,都还没有达到期望的效果。

回到我们讨论的AI下一代架构的话题上来,Local Learning/Non-BP/Gradient-Free的突破,应该是对架构影响最大的,直接对DAG和BP的冲击。

2)类脑等神经科学发展和相关机制/思想被引入智能算法的影响;

在Bio-Brain和Brain-like的神经计算中,我们觉得这几个关键特征,对AI架构影响很大,现在的AI平台在计算流程中并没有很好的支撑:Asynchronized,Full-Parallel,Pipeline Inference,Sparse Activation,Dynamic Routing。

以异步、高并行度来说,每一个神经元都可以看成一个带有独立内存的和独立芯片的完整的计算单元,甚至更小的神经突触都可以看成异步并行的单元。

以Pipeline Inference来说,人脑是不间断的在做Inference,而且Learning/Train和Inference是紧密的结合在一起的,现在即使是Online Learning也是相对明确可区分的Train和Infer。

当然,另外一个大的方向Spike NN如果能够在CV,NLP等主要的问题上效果超越,AI的平台架构也将是大的改变甚至重启。

Pathways提到的关键点中,包含了Sparse Activation,Dynamic Routing;而Multitask-SingleModel,MultiModeling我们任务对AI架构冲击不大。

3)AI算法发展可能引出的架构需求;

在AI算法发展中,如Reservoir Computing,那种Dense的Topology和Recurrent的计算流,如果大型的网络,会对当前的AI平台有一定挑战。当前AI算法能较好的解决很多类型的问题如CV,NLP的,特别Transformer为主的巨无霸模型大有一招鲜吃遍天的感觉;但还有一些问题求解极其糟糕,比如Math-Problem(参见google,facebook等公开的一些数据集和当前AI解决的进展),在这些问题上,堆规模几乎无用甚至还有反作用,我们分析,可能Modularity Compositional-Generalization,Neural Memory,High-Integrated Complex Reinforcement Learning,Discrete/Non-Differentiable Algorithms等会是潜在的突破方向;这些方向对AI下一代的架构,可能会有冲击,虽然还不太明朗。

4)AI重量级应用方向的计算的特点;

笼统的说,相对通用的问题如CV,NLP的AI的算法发展进入了一个平缓期,我们认为AI+Science,诸如生物、材料、数字艺术等领域,会有更多的人力物力会投入进来。

这些方向,我们已经感受到一些对AI下一代架构的冲击或诉求:

1)在生物制药、物理材料、求解器等科学问题上,有一类共同的问题:Size Generalization或Scale Generalization。如果我们叫传统的泛化为Instance Generalization,即我们训练和推理的输出结构一样,需要的泛化能力是对新样本的正确预测。而Size/Scale泛化,则是在一个小体系上训练,需要在大若干倍的体系上预测。在Protein/AlphaFold,RL|GNN-TSP,Material等场景已经存在。这既需要算法支持,对平台也有一定的冲击,比如计算图动态能力,超大规模数据结构(不一定稀疏)的支持。

2)同样,在科学计算领域,广义物理世界的很多问题,是含有时间因素的,即Time Dependent。无论是原子,分子,到蛋白质,到细胞。含时对模型和平台都有新的挑战。

综上,我们分析了包含Pathways一文三个关键点中真正对AI Architecture有影响的Sparse-Activation/Dynamic-Routing,也分析了其他一些有潜在大冲击的方向,特别是Local Learning和AI Science Computing。当然最近期看,Sparse-Activation/Dynamic-Routing是已经最急迫的需要,大模型上由平台原生支持:类似Dynamic-Dispatch这种面向用户的API/算子,和内部在节点内和节点间的Sparse Activation来低能耗大模型计算。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

3ff15680f08328612eddf1b7bfb77b60.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/483325.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

构造方法-带参

1 /*2 //编写狗类,属性:品种、颜色、名字、年龄、性别,方法:输出狗的信息3 */4 class Dog{5 //无参构造方法6 /*public Dog(){7 //完成对品种、颜色、名字、年龄、性别8 breed "中华田园犬…

计算机网络——链路层之停止等待协议

文章目录1.为什么要有停止等待协议?2.研究停止等待协议的前提3.停止等待协议有几种应用情况?3.1 无差错情况3.2 有差错的情况4.总结1.为什么要有停止等待协议? 2.研究停止等待协议的前提 3.停止等待协议有几种应用情况? \qquad无差…

一图看清全球270家典型区块链服务商

来源:资本实验室根据资本实验室与远望智库联合发布的《2021全球区块链应用市场报告》,区块链技术通过与各行业、各领域的持续融合,正处于加速落地应用阶段,并显示出其在信任、共享、交易、效率、安全等方面的独特性能,…

计算机网络——链路层之信道

文章目录一.信道划分介质访问控制1.传输数据使用的两种链路2.介质访问控制3.信号划分介质访问控制3.1 频分多路复用FDM3.2 时分多路复用TDM3.3 波分多路复用WDM3.4 码分多路复用一.信道划分介质访问控制 1.传输数据使用的两种链路 2.介质访问控制 3.信号划分介质访问控制 3.1 …

034 Android NavigationView和DrawerLayout实现抽屉式导航设计(侧边栏效果)

1.创建带侧滑效果的activity 右击&#xff0c;new---->activity---->选择NavgationDrawer Activity 2.xml文件布局 (1)activity_main_function.xml <?xml version"1.0" encoding"utf-8"?> <android.support.v4.widget.DrawerLayout xmlns…

计算机网络——链路层之局域网

文章目录一 局域网的基本概念和体系结构1.局域网2.局域网拓扑结构3.局域网传输介质4.局域网介质访问控制方法5.局域网的分类6.IEEE802标准7.MAC和LLC子层8.总结二 以太网1.以太网概述2.以太网提供无连接、不可靠服务3.以太网传输介质与拓扑结构4.10BASE-T以太网5.适配器和MAC地…

法国学者29页预印本论文「证明」黎曼猜想,这次的方向对了吗?

来源&#xff1a;机器之心2018年秋天&#xff0c;当菲尔兹奖、阿贝尔奖得主、89岁高龄的迈克尔 阿蒂亚&#xff08;Michael Atiyah&#xff09;爵士站在海德堡获奖者论坛的讲台&#xff0c;用45分钟、一页PPT展示了自己对黎曼猜想的证明时&#xff0c;众人沸腾。这是阿蒂亚爵士…

计算机网络——链路层之PPP协议和HDLC协议

文章目录一 PPP协议1.广域网2.PPP协议的特点3.PPP协议应该满足的要求4.PPP协议的三个组成部分5.PPP协议的状态图6.PPP协议的帧格式二 HDLC协议一 PPP协议 1.广域网 2.PPP协议的特点 3.PPP协议应该满足的要求 4.PPP协议的三个组成部分 5.PPP协议的状态图 6.PPP协议的帧格式 二 …

中国科技的家底是什么?

来源&#xff1a; 观察者网作者&#xff1a;胡延平第四产业新视角下的中国家底&#xff1a;基石企业如何帮助这个国家升级经济&#xff1f;9个问题&#xff1a;技术向哪里升格、产业向哪里升级、经济向哪里升维&#xff1f;什么样的家底支持我们采取什么样的策略&#xff1f;融…

批量替换文件夹下所有文件的内容

将上面的10.0.13.16:4000变成10.0.13.16:5000 sed -i "s/10.0.13.16:4000/10.0.13.16:5000/g" grep -rl "10.0.13.16" ./ 转载于:https://www.cnblogs.com/boshen-hzb/p/10935345.html

linux的基础知识——TCP握手

1.TCP为什么需要三次握手&#xff1f; \qquad因为IP处于网络层&#xff0c;不稳定&#xff0c;与硬件联系紧密。传输层是对网路层的不稳定性做完全不弥补——UDP——无连接的不可靠报文传输&#xff1b;对网络层做完全弥补——TCP——面向连接的可靠数据包传递。TCP连接断开包含…

拒绝赛博朋克:斯坦福HAI报告警示“科技巨头垄断AI研究已成威胁”,力挺「国家安全云」计划...

来源&#xff1a;AI科技评论作者&#xff1a;莓酊编辑&#xff1a;青暮人工智能技术从诞生伊始就被冠以悬在人类头上的达摩克利斯剑之名。在游戏《赛博朋克2077》&#xff08;Cyberpunk 2077&#xff09;中&#xff0c;超级科技企业荒坂集团制霸全球&#xff0c;掌控着大部分国…

项目:基于以太网通信,单片机作为客户端,接收CAN-Ethernet的十六进制数据

一、物理连接 二&#xff0c;流程分析 电脑连接CAN分析仪&#xff0c;电脑通过软件USB-CAN把can十六进制数据发到CAN分析仪。CAN分析仪连接CAN转以太网设备&#xff0c;数据通过CAN转以太网设备后&#xff0c;通过网线传送到单片机。这里面&#xff0c;CAN转以太网设置为TCP C…

深度学习 AI 解释:神经网络

来源&#xff1a;ScienceAI编译&#xff1a;绿萝在过去的 10 年里&#xff0c;性能最好的人工智能系统——比如智能手机上的语音识别器或谷歌最新的自动翻译器——都是由一种称为「深度学习」的技术产生的。深度学习实际上是一种称为神经网络的人工智能方法的新名称&#xff0c…

美国国家科学院发布:材料有哪些研究前沿?

来源&#xff1a;中国科学院科技战略咨询研究院作者&#xff1a;张超星编辑&#xff1a;新材料在线美国国家科学院、工程院和医学科学院发布了针对材料研究的第三次十年调查——《材料研究前沿&#xff1a;十年调查》报告。该报告主要评估了过去十年中材料研究领域的进展和成就…

牛顿第三定律不再起作用:芝加哥大学找到了一种新系统,作用力不等于反作用力...

来源&#xff1a;AI科技评论作者&#xff1a;吴彤编辑&#xff1a;青暮世界上还有许多并未达到平衡的系统&#xff0c;比如生命&#xff0c;在这样的系统中&#xff0c;牛顿第三定律失效了。目前&#xff0c;芝加哥大学的研究员找到了一种思考非平衡系统中相变的新方法。牛顿第…

linux的基础知识——TCP通信状态

文章目录1.半关闭shutdown2.端口复用setsockopt2.1 程序中遇到的问题2.2 端口复用3.多路I/O转接3.1 什么是多路I/O转接服务器&#xff1f;3.2 select3.3 poll3.4 epoll3.4.1 epoll API1.半关闭shutdown 2.端口复用setsockopt 2.1 程序中遇到的问题 2.2 端口复用 #include<s…

大脑模拟AI学习策略,这项逼近反向传播的研究登上《自然-神经科学》

来源&#xff1a;机器之心编辑&#xff1a;陈萍、杜伟大脑是如何近似反向传播算法的&#xff1f;发表在《自然 - 神经科学》的一篇论文&#xff0c;研究者找到了可以生活在活体大脑并进行实时工作的等价物&#xff0c;他们提出的大脑学习算法模型可以模拟反向传播过程。每当人类…

linux的基础知识——TCP异常断开

1.TCP异常断开 1.1 心跳检测机制 1.2 设置TCP属性

普京谈“元宇宙”:这无疑是一种挑战

来源&#xff1a;参考消息网据塔斯社莫斯科11月12日报道&#xff0c;俄罗斯总统弗拉基米尔普京认为&#xff0c;“元宇宙”带来的可能性应该用于突破距离的限制&#xff0c;帮助交流和学习&#xff0c;而不是逃避现实世界的出路。普京在出席2021年“人工智能之旅”国际会议&…