图灵奖得主Jack Dongarra:高性能计算与AI大融合,如何颠覆科学计算

9e4cf9a2d3e7d378bb6478a7d71ff6e2.jpeg

来源: 智源社区

整理:王光华

编辑:李梦佳

导读:浩瀚的宇宙中两个星云不断彼此接近、融合、再爆炸,这样奇幻的天文景观正是采用高性能计算(HPC)进行建模仿真生成的。

966d0eb54ad3c91f5fee6b7e93c37d8a.gif

在过去的三十年间,高性能计算(HPC)取得了突飞猛进的进展,在科学计算等领域发挥着重要的作用。而当前,云计算和移动计算正逐渐成为主流的计算范式,与此同时深度学习等AI方法所带来的颠覆性影响,给HPC与AI的融合带来了新的挑战和机遇。在第十届全国社会媒体处理大会(SMP 2022)上,图灵奖得主Jack Dongarra梳理了高性能计算近年来最主要的应用和发展。

83eedd6b61198aa64e5f8045e0afbac2.jpeg

Jack Dongarra,高性能计算专家,2021年图灵奖获得者,美国田纳西大学创新计算实验室主任。其对数值算法和库的开创性贡献,使高性能计算软件在四十多年中与硬件的指数级改进保持同步。他获得过诸多学术成就,包括 2019 年他获得 SIAM / ACM 计算科学与工程奖,2020 年他因高性能数学软件领域的领导能力获得 IEEE 计算机先锋奖。他是 AAAS、ACM、IEEE 和 SIAM 的研究员,英国皇家学会的外国研究员,以及美国国家工程院的成员。

高性能计算广泛应用于科学的“第三极”

d560e6c246976439cc7707d428f7a9b3.jpeg

当前,高性能计算(HPC)方法广泛地应用于科研仿真,而仿真也被誉为科学研究的“第三极”。一直以来,科学研究和工程研究通常采用基于理论和实验的范式。然而,这两种方法存在很多固有的限制,比如,通常建造大型的风洞非常的困难,试验飞机引擎与飞鸟碰撞的成本将非常昂贵,等待观察气候变化将会非常的耗时与缓慢,新药品和武器等试验将会非常的危险等等。此外,我们有时无法通过实验来研究某些问题,比如研究星系运动和研发新药品等。因此,研究者们逐渐利用科学计算手段进行仿真,研究此类问题。这种方法通常基于已知的物理规律和数字计算方法,通过高性能的计算机系统仿真相应的物理现象。

算力之巅——超级计算机

cffa59d38df042c2c37714d17af9a639.jpeg

人们一般基于商品化的成熟芯片构建典型的超级计算机,在一个板卡上集成多个芯片,每个芯片中都拥有多个核心(Core)。同时,通常会在板卡上使用图形处理单元(GPU)等作为增强算力的加速器。在同一机架柜上,不同的板卡通过高速的链接进行通信,不同的机柜通过交换机(switch)互联在一起,这样组成的一个超级计算机可能需要占用两个网球场那么大的空间。

11f85846fe05f868f9d0e643de51be71.jpeg

这样的超级计算机的并行性非常之高,通常采用的是分布式内存和「MPI+Open-MP」的编程范式。与数据的浮点计算相比,在HPC系统不同部分之间数据的移动非常的昂贵。现有的超级计算机支持包括64,32,16,8等位宽的不同的精度的浮点计算。

e7267e14c69601d799623095222c8ff7.jpeg

当前,最快的超级计算机能够提供Exaflop/s级别(1018)的算力。这是一个非常巨大的数值,如果每个人一秒钟完成一次乘加计算,那么,需要全球所有人花费四年的时间才能完成超级计算机一秒钟完成的计算。同时,为了维持这样的超级计算机的运转,每年需要花费千万美元的电费。

8c1d06e3d00b15d0fb5ab076a1ecceb6.jpeg

从过去近三十年间全球超级计算机TOP500的性能变化情况可以发现,超算性能近乎保持着指数级的增长速度。有趣的是,如今日常所用的MacBook的性能,比1993年当时世界上最先进的超级计算机的性能还要强大,当时那台计算机制造于洛斯阿拉莫斯国家实验室,主要用于核武器设计。今年6月的数据显示,全球排名前10的超级计算机当中,有5个来自美国,有2个来自中国(分别位于无锡和广州),其余3个来自芬兰、日本和法国。

4fc501b5714355d5cb47b8f318b3ae43.jpeg

“和而不同”的HPC & ML/AI

74a609926996cbe0295aca4448770b3f.jpeg

HPC和ML计算有着即相似又不同的特性。HPC属于数字计算密集型的,通常输入非常有限的数据,经过非常大量的数字计算,输出大量的数据。而在ML领域进行高性能数据处理(HPDA),通常需要输入大量的数据,输出的却是相对比较少的数据。两者使用的数据精度也非常不同,在科学仿真等高性能计算场景下通常使用64比特浮点数据,而在机器学习场景下会使用16比特浮点数据。

034e552448dd7b793904f1557e664ab8.jpeg

5cd010e5d5ad807ad0380e2887074588.jpeg

AI在科学研究的诸多不同的方面发挥着非常重要的作用:AI能够在不同领域辅助科学发现,提高计算体系结构的性能,以及在边缘管理和处理大量数据。因此,在科学计算领域机器学习等技术被应用到气候学、生物学、药学、流行病学、材料学、宇宙学甚至高能物理等等很多学科以提供增强的模型和更先进的仿真方法。比如,用深度学习辅助药品研发、预测流行病以及对基于医学影像的肿瘤进行分类等等。

1bc0f7ae8438812c3ef7926215e95109.jpeg

科研仿真和AI计算可以非常有效地进行联合,因为二者都需要模型和数据。通常,仿真使用(数学)模型产生数据,(AI)分析使用数据来生成模型。使用分析方法得到的模型和其他的模型一起可以被用到仿真中去;仿真产生的数据和其他来源的数据一起可以被用于分析。这样就形成了一个相互促进的良性循环。

29a1095d3fca292b4c504474f393a66e.jpeg

除了在具体的应用领域相互补充之外,HPC&AI在基本开发方法、软件与软件基础设施和AI硬件架构等领域都有非常多的联系。同时也将二者更广泛地联系起来,比如:AI可以用来引导仿真、更快地调整仿真应用的参数、提供定制化的计算核函数,以及将传统的HPC和神经形态计算相结合等很多内容。AI&ML具有颠覆性的影响力,正如通常所说:「AL&ML并不会代替科学家,但是使用AI&ML工具的科学家会代替那些不使用这些工具的科学家」。

展望未来:HPC系统将更加定制化

06ace0b6e2d06c95401429186b18a907.jpeg

未来的HPC系统将可以被定制化。当前,HPC主要有CPU和GPU两种类型的处理器,未来将采用更多不同的单元,比如FPGA、ML加速器和ASIC芯片等等。更多采用不同结构和范式的处理器将会越来越多地添加HPC计算系统当中,比如神经形态处理处理、量子计算以及光计算等或将发挥越来越重要作用。在构建新的HPC系统的时候,人们将能够按需使用相应的模块与功能。

总结

HPC硬件在不断地演进,有标量计算机器、向量计算机器、分布式系统、加速器以及混合精度计算机器等等。当前计算机领域发生着三个重大的变化,高性能计算、深度学习、以及边缘计算与人工智能。算法和软件应该随着硬件不断的进化,正如Leiserson等人的论文所述,在摩尔定律之后,仍然存在很大的空间可以通过算法、软件和硬件架构去提升HPC系统的终极性能。

0e582d66f6baac4208d22cad1977f172.jpeg

Q&A

问题1:当前,业界和学界都比较关注神经网络大模型的训练,比如GPT3等具有超过1700亿的参数量,通常需要百个高性能的GPU训练1~3个月。未来采用高性能计算机可以在几天或几个小时内完成相关的训练吗?

回答1:GPU给计算机提供了强大的数值计算的能力。例如,超级计算机中98%的算力来自于GPU。而在CPU和GPU之间移动数据非常耗时。为了减少成本高昂的数据移动,可以通过将GPU和CPU距离更加贴近的方法,采用Chiplet等芯片设计方法或更为切实可行的实现路径。另外,直接将数据和对应的处理单元离得更近的方法对于解决数据搬运成本高昂的问题也将非常有帮助。

问题2:我们观察到一个现象,当前很多机器学习算法可以和硬件一起演化,并且相互影响。比如,当前ML领域性能最好的Transformer模型,英伟达等公司专门为其设计了专用的架构,使得Transformer更好用。您是否观察到这样的现象,如何评论?

回答2:这是一个非常好的例子,展现了硬件设计和其他方面的相互促进。当前很多硬件研究人员密切关注行业的变化,并对趋势做出判断。将应用与硬件进行联合设计可以显著地提升性能,进而销售更多的硬件。我认同这种「算法和硬件共同演化」的说法。

问题3:您指出未来高性能计算将是一个异构的混合体。集成这些部分将是一个非常困难的问题,甚至将会导致性能的降低。如果我们只是单纯地使用GPU,可能会导致更好的性能。您如何评价?

回答3:当前,高性能计算机中将CPU和GPU非常松散地耦合在一起,需要将数据从CPU传输到GPU上进行计算。未来,采用不同的硬件相互耦合到一起的趋势会继续延续。比如,使用专门的硬件做ML计算,可以是对GPU的进一步的增强。通过将ML相关的算法加载到对应的加速器上,在加速器上执行算法的细节并将计算结果传输给对应的处理器。未来也可实现可插拔的量子加速器,使其执行对应的量子算法等等。

问题4:HPC是非常昂贵的,尤其对于研究者和中小企业而言。是否存在类似云计算等方式能够让从事研究的师生和中小企业也用得起HPC?

回答4:在美国,使用HPC需要向有关部门提交相关的申请,说明正在研究的问题和需要的计算量。如果得到批准,就不用担心HPC使用的费用问题。在美国进行过一项是否应该将所有的HPC转变为基于云的系统的研究。结果表明,基于云的方案比直接使用HPC系统贵2-3倍。需要注意的是这背后的经济学假设:HPC被足够多的人共同使用,并且需要解决的问题有时需要使用整个HPC系统。这种情形下拥有一个专用的HPC更优于购买云服务。在美国和欧洲所观察到的现状是这样。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

dcada0f5d531164d04a60c51c7b88966.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481652.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

国科大高级人工智能10-强化学习(多臂赌博机、贝尔曼)

文章目录多臂赌博机Multi-armed bandit(无状态)马尔科夫决策过程MDP(markov decision process1.动态规划蒙特卡罗方法——不知道环境完整模型情况下2.1 on-policy蒙特卡罗2.2 off-policy蒙特卡罗时序差分方法强化学习:Reinforcement learning…

《Science》封面:华大基因领导构建了世界上第一张大脑再生的时空地图

来源:生物通由华大基因研究院领导的多所研究团队使用华大基因Stereo-seq技术,构建了世界上第一个蝾螈(Ambystoma mexicanum)大脑发育和再生的时空细胞图谱,揭示了脑损伤如何自我愈合。这项研究发表在最新一期的《Science》杂志的封面故事上。…

国科大高级人工智能12-博弈

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注…

科研进展 | 脑智卓越中心揭示神经元与胶质细胞互作参与胶质细胞命运决定的机制...

来源:中科院神经所神经元细胞与胶质细胞是神经系统最主要的两个细胞分类。在神经发育过程中,神经元类型先产生(“神经发生”,neurogenesis),胶质细胞后产生(“胶质发生”,gliogenesi…

国科大高级人工智能-总结

文章目录1.概论2. 搜索A\*最优性三个传教士与野人3.神经网络RBM DBN DBM hopfield比较结构及特性逐层贪婪训练与CDBPGAN4.逻辑一个永远无法归结结束的FOL合取范式规范化归结原理4.1resolution是完备的、可靠的Modus ponens4.1 蕴含与包含的证明蕴含与implication的关系5. 模糊数…

Science封面:全球首个脑再生时空图谱

来源:brainnews报道来源:作者团队原文链接:https://doi.org/10.1126/science.abp9444为了深入研究墨西哥钝口螈端脑再生的细胞和分子机制,并探讨其与发育的关系,研究人员收集了不同损伤再生阶段(7个再生阶段…

国科大prml10-无监督学习

文章目录1.监督学习与无监督学习2. 聚类分析2.1簇的其他区别2.2类型2.2.1 基于中心的簇2.2.2 基于连续性的簇2.2.3 基于密度的簇2.2.4 基于概念的簇2.3 应用2.4 三要素3.距离函数3.1 距离函数的要求3.2标准化3.3其他相似、不相似函数4.评价指标4.1外部指标(有参考模…

英伟达、AMD 高端芯片断供,国产芯片如何迅速崛起

来源:大数据文摘转载自AI科技大本营整理:苏宓出品:CSDN8 月 31 日,据外媒 Protocol、路透社等多家报道,美国开始对出口人工智能相关应用所需的先进芯片施加新的限制,其中 AMD、NVIDIA(英伟达&am…

高文院士:AI将为芯片设计带来革命性改变

来源:中国电子报作者:姬晓婷9月1日,世界人工智能大会在上海举行。在芯片主题论坛上,中国工程院院士、鹏城实验室主任高文发表了题为“人工智能与EDA技术的前瞻性发展”的演讲。在高文看来,AI的应用将使芯片设计所需的时…

国科大prml11-降维

文章目录1.维度、特征与维度灾难维度特征维度灾难降维1 维度选择3.特征抽取3.1 预备知识3.2 线性模型3.2.1 多维缩放MDS3.2.2 线性降维的一般形式3.2.3 PCA主成分分析3.3 非线性模型3.3.1KPCA3.3.2流行学习(欧氏距离不能反映相似性)3.3.3 拉普拉斯特征映…

神经元模型:从离子通道到计算

导语本篇推文来自集智俱乐部的网站集智斑图的一篇路径《神经元模型:从离子通道到计算》,路径基于神经动力学模型读书会第一季臧蕴亮老师的分享整理而成。感兴趣的朋友可以结合本次分享的回放(回放链接https://campus.swarma.org/course/4433&…

国科大prml12-半监督学习

文章目录1.假设2. 自学习算法3.多视角学习3.1 协同训练(co-training)3.2 多视角学习4. 生成模型生成模型的例子4.2 GMM高斯混合模型4.2.1 EM算法用于GMM4.2.2减小风险的启发式4.3 聚类标签法(cluster-and-label)5. S3VMsTSVM5.2 学习算法SVMlightSVM^{li…

我国城市大脑首批三项标准的解读和专家评议

来源:远望智库预见未来我国城市大脑首批三项标准的解读与专家评议2022年9月1日,中国指挥与控制学会在京召开《城市大脑首批标准新闻发布会》正式发布《城市大脑 术语》、《城市大脑顶层规划和总体架构》;《城市大脑数字神经元基本规定》等三项…

谷歌新作:扩散模型背后的数学原理

来源:机器之心扩散模型背后的数学可是难倒了一批人。最近一段时间,AI 作画可谓是火的一塌糊涂。在你惊叹 AI 绘画能力的同时,可能还不知道的是,扩散模型在其中起了大作用。就拿热门模型 OpenAI 的 DALLE 2 来说,只需输…

国科大prml13-概率图(CRF,HMM)

文章目录1. 有向概率图模型(贝叶斯网络)1.1 概率分布1.2 表示1.3 条件独立性1.3.2 检验条件独立算法(贝叶斯球)2. 无向图模型(马尔科夫随机场)2.1 条件独立性2.2 概率分布2.3 表示无向图的条件独立性判断3.…

解读2022城市大脑首批三项标准(新版)

来源:远望智库预见未来解读2022城市大脑首批三项标准(新版)2022年9月1日,中国指挥与控制学会在京召开《城市大脑首批标准新闻发布会》正式发布《城市大脑 术语》、《城市大脑顶层规划和总体架构》;《城市大脑数字神经元…

单个细胞比科学家们以前认为的更聪明

来源:生物通细胞不仅根据生长因子等外部信号做出选择,还根据从细胞内部接收到的信息做出选择。每一天,人类都在为自己做选择。为了确保做出的决定适合当时的情况,这些决定通常需要结合一系列上下文线索。我们的感官为我们提供了做…

国科大prml14-独立于算法的机器学习(boosting/

文章目录1.哲学定理2. 重采样resampling2.1 bagging2.2 boosting2.3 adaboost2.3.2训练误差2.4 active learning3. 估计和比较分类器--交叉检验3.1 交叉验证5.adaboost在人脸检测上的应用5.1肤色模型5.2基于AdaBoost的快速人脸检测如何选择好的模型和评价模型?独立于…

解读2022中国城市大脑首批三项标准(新版)

来源:远望智库预见未来解读2022城市大脑首批三项标准(新版)2022年9月1日,中国指挥与控制学会在京召开《城市大脑首批标准新闻发布会》正式发布《城市大脑 术语》、《城市大脑顶层规划和总体架构》;《城市大脑数字神经元…

国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例

文章目录2. 特征设计与提取过程q2.1 局部特征--SIFT2.2局部特征HOG3. 特征汇聚或变换h3.1BoVW视觉词袋模型3.2PCA4.以人脸识别为例4.1 主动统计模型4.1.1ASM(active shape model)4.1.2 AAM主动表观模型4.2人脸特征提取和比对特征脸Fisherfaces方法--本质(Fisher线性…