英伟达用AI设计GPU算术电路,面积比最先进EDA减少25%,速度更快、更加高效

1fdb6eee6fe513914f35194d156074bf.png

来源:机器之心

随着摩尔定律的放缓,在相同的技术工艺节点上开发能够提升芯片性能的其他技术变得越来越重要。在这项研究中,英伟达使用深度强化学习方法设计尺寸更小、速度更快和更加高效的算术电路,从而为芯片提供更高的性能。

4e7febe98cb6cc4ab5b89dcdb8fe2b6a.gif

大量的算术电路阵列为英伟达GPU提供了动力,以实现前所未有的AI、高性能计算和计算机图形加速。因此,改进这些算术电路的设计对于提升 GPU 性能和效率而言至关重要。

如果AI学习设计这些电路会怎么样呢?在近期英伟达的论文《PrefixRL: Optimization of Parallel Prefix Circuits using Deep Reinforcement Learning》中,研究者证明了AI不仅可以从头开始设计这些电路,而且AI设计的电路比最先进电子设计自动化(EDA)工具设计的电路更小、更快。

ef6e64c8cc46cfb3aef14c1a293582c4.jpeg

论文地址:https://arxiv.org/pdf/2205.07000.pdf

最新的英伟达Hopper GPU架构中拥有近13000个AI设计的电路实例。下图1左PrefixRL AI设计的64b加法器电路比图1右最先进EDA工具设计的电路小25%。

125bb4c724061bed80fa94fe602982b1.jpeg

电路设计概览

计算机芯片中的算术电路是由逻辑门网络(如NAND、NOR和XOR)和电线构成。理想的电路应具有以下属性:

  • 小:更小的面积,更多电路可以封装在芯片上;

  • 快:更低的延迟,提高芯片的性能;

  • 更低功耗。

在英伟达的这项研究中,研究者关注电路面积和延迟。他们发现,功耗与感兴趣电路的面积密切相关。电路面积和延迟往往是相互竞争的属性,因此希望找到有效权衡这些属性的设计的帕累托边界。简言之,研究者希望每次延迟时电路面积是最小的。

因此,在PrefixRL中,研究者专注于一类流行的算术电路——并行前缀电路。GPU中的各种重要电路如加速器、增量器和编码器等都是前缀电路,它们可以在更高级别上被定为为前缀图。

那么问题来了:AI智能体能设计出好的前缀图吗?所有前缀图的状态空间是很大的O(2^n^n),无法使用蛮力方法进行探索。下图2为具有4b电路实例的PrefixRL的一次迭代。

b50ce28c91f96c18e96734f2af2c67a9.jpeg

研究者使用电路生成器将前缀图转换为一个带有电线和逻辑门的电路。接下来,这些生成的电路通过一个物理综合工具来优化,该工具使用门尺寸、复制和缓冲器插入等物理综合优化。

由于这些物理综合优化,最终的电路属性(延迟、面积和功率)不会直接从原始前缀图属性(如电平和节点数)转换而来。这就是为什么AI智能体学习设计前缀图但又要对从前缀图中生成的最终电路的属性进行优化。

研究者将算术电路设计视为一项强化学习(RL)任务,其中训练一个智能体优化算术电路的面积和延迟属性。对于前缀电路,他们设计了一个环境,其中RL智能体可以添加或删除前缀图中的节点,然后执行如下步骤:

  1. 前缀图被规范化以始终保持正确的前缀和计算;

  2. 从规范化的前缀图中生成电路;

  3. 使用物理综合工具对电路进行物理综合优化;

  4. 测量电路的面积和延迟特性。

在如下动图中,RL智能体通过添加或删除节点来一步步地构建前缀图。在每一步上,该智能体得到的奖励是对应电路面积和延迟的改进。

a5d5bd04c22c571c3bbc49bef7a8a055.gif

原图为可交互版本

完全卷积Q学习智能体

研究者采用Q学习(Q-learning)算法来训练智能体电路设计。如下图3所示,他们将前缀图分解成网格表示,其中网格中的每个元素唯一地映射到前缀节点。这种网格表示用于Q网络的输入和输出。输入网格中的每个元素表示节点是否存在。输出网格中的每个元素代表添加或删除节点的Q值。


研究者采用完全卷积神经网络架构,因为Q学习智能体的输入和输出都是网格表示。智能体分别预测面积和延迟属性的Q值,因为面积和延迟的奖励在训练期间是单独可观察的。

bdd380ebb44ff022d6bb44e474d374df.jpeg图3:4b前缀图表示(左)以及完全卷积Q学习智能体架构(右)。

Raptor进行分布式训练

PrefixRL需要大量计算,在物理模拟中,每个GPU需要256个CPU,而训练64b任务则需要超过32000个GPU小时。此次英伟达开发了一个内分布式强化学习平台Raptor,该平台充分利用了英伟达硬件优势,从而可以进行这种工业级别的强化学习(如下图4)。

Raptor能够提高训练模型的可扩展性和训练速度,例如作业调度、自定义网络和GPU感知数据结构。在PrefixRL的上下文中,Raptor使得跨CPU、GPU和Spot实例的混合分配成为可能。

这个强化学习应用程序中的网络是多种多样的,并且受益于以下几点:

  • Raptor在NCCL之间切换以进行点对点传输,从而将模型参数直接从学习器GPU传输到推理GPU;

  • Redis 用于异步和较小的消息,例如奖励或统计信息;

  • 对于JIT编译的RPC,用于处理大容量和低延迟的请求,例如上传经验数据。

最后,Raptor提供了GPU感知数据结构,例如具有多线程服务的重放缓冲器,以接收来自多个worker的经验,并行批处理数据并将其预先载入到GPU上。


下图4显示PrefixRL框架支持并发训练和数据收集,并利用NCCL有效地向参与者(下图中的actor)发送最新参数。

386fa18573511d60c1bdf133b76f70db.jpeg

图4:研究者采用Raptor进行解耦并行训练和奖励计算,以克服电路合成延迟。

奖励计算

研究者采用权衡权重w (范围为[0,1])来组合区域和延迟目标。他们训练具有不同权重的各种智能体以获得帕累托边界,从而平衡面积、延迟之间的权衡。

RL环境中的物理综合优化可以生成各种解决方案来权衡面积和延迟。研究者使用与训练特定智能体相同的权衡权重来驱动物理综合工具。


在奖励计算的循环中执行物理综合优化具有以下优点:

  • RL智能体学习直接优化目标技术节点和库的最终电路属性;

  • RL智能体在物理综合过程中包含目标算法电路的周边逻辑,从而共同优化目标算法电路及其周边逻辑的性能。

然而,进行物理综合是一个缓慢的过程(64b加法器~35秒),这可能大大减慢RL的训练和探索。


研究者将奖励计算与状态更新解耦,因为智能体只需要当前的前缀图状态就可以采取行动,而不需要电路合成或之前的奖励。得益于Raptor,他们可以将冗长的奖励计算转移到CPU worker池中并行执行物理综合,而actor智能体无需等待就能在环境中执行。


当CPU worker返回奖励时,转换就可以嵌入重放缓冲器。综合奖励会被缓存,以避免再次遇到某个状态时进行冗余计算。

结果及展望

下图5展示了使用PrefixRL设计的64b加法器电路、以及来自最先进EDA工具的帕累托支配加法器电路的面积和延迟情况。

最好的PrefixRL加法器在相同延迟下实现的面积比EDA工具加法器低25%。这些在物理综合优化后映射到Pareto最优加法器电路的前缀图具有不规则的结构。

ac52cd909c946c9b49283562b7e1a275.gif

图5:PrefixRL设计的算术电路比最先进的EDA工具设计的电路更小和更快。(左)电路架构;(右)对应的64b加法器电路特性图

据了解,这是首个使用深度强化学习智能体来设计算术电路的方法。英伟达构想了一种蓝图:希望这种方法可以将AI应用于现实世界电路设计问题,构建动作空间、状态表示、RL 智能体模型、针对多个竞争目标进行优化,以及克服缓慢的奖励计算过程。

原文链接:

https://developer.nvidia.com/blog/designing-arithmetic-circuits-with-deep-reinforcement-learning/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

77add30a764579b1d12f960ae335b943.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481828.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

国家自然科学基金项目经费怎么用有了新规定

国家自然科学基金项目经费怎么用有了新规定 人工智能技术与咨询 来源:光明日报 为破除科研经费在申请、管理、使用方面存在的“难点”“堵点”和“痛点”,今年8月,《国务院办公厅关于改革完善中央财政科研经费管理的若干意见》正式印发。作…

无人系统群体智能及其研究进展

来源:无人机作者:周兴社,武文亮(西北工业大学 计算机学院,陕西 西安 710129)摘 要:群体智能是人工智能的重要发展方向之一.无人系统群体智能作为人工群体智能的主要形态之一,在许多军用和民用领域都具有广阔…

工信部推动第二批“5G+工业互联网”实践的通知

工信部推动第二批“5G工业互联网”实践的通知 人工智能技术与咨询 工业和信息化部办公厅关于印发第二批“5G工业互联网”十个典型应用场景和五个重点行业实践的通知 工信厅信管函〔2021〕279号 各省、自治区、直辖市及计划单列市、新疆生产建设兵团工业和信息化主管部门&…

AI进军学术界:自己写稿自己发,提醒人类“密切监控”自己

来源:网易新闻(网络一线牵)采写/编译:南都见习记者杨博雯“我只是希望我没有打开潘多拉的盒子。”当哥德堡大学的研究员Almira Osmanovic Thunstrm完成研究时,反而这样表示。她研究的内容是让AI自己完成一篇关于自身的…

基于句式元学习的Twitter分类

关注微信公众号:人工智能技术与咨询。了解更多咨询! 基于句式元学习的Twitter分类 人工智能技术与咨询 本文来自《北京大学学报(自然科学版)》,作者闫雷鸣等 摘要 针对多类别的社交媒体短文本分类准确率较低问题, 提出一种学习多种句式的…

OpenAI 研究员:数据不足时,如何实现监督学习

来源:AI科技评论作者:Lilian Weng编译:丛末编辑:陈彩娴现实应用中,数据易得,而有标签的数据少有。一般而言,当监督学习任务面临标签数据不足问题时,可以考虑以下四种解决办法&#x…

知识图谱及其在安全领域的应用

知识图谱及其在安全领域的应用 人工智能技术与咨询 关注微信公众号:人工智能技术与咨询。了解更多咨询! 本文作者作者:Toky,由 Seebug Paper 发布 1. 知识图谱是什么? 1.1 知识(Knowledge&#xff09…

深度残差网络的无人机多目标识别

深度残差网络的无人机多目标识别 人工智能技术与咨询 来源:《图学学报》。作者翟进有等 摘要:传统目标识别算法中,经典的区域建议网络(RPN)在提取目标候选区域时计算量大,时间复杂度较高,因此提出一种级联区域建议…

让 AI “读懂”人类价值观!朱松纯团队工作登上 Science 头条

来源&#xff1a;AI科技评论作者&#xff1a;朱松纯团队今日&#xff08;7月14日&#xff09;&#xff0c;国际顶级学术期刊<Science Robotics >发表了朱松纯团队&#xff08;UCLA袁路遥、高晓丰、北京通用人工智能研究院郑子隆、北京大学人工智能研究院朱毅鑫等作者&…

《加强5G公众移动通信系统无线电频率共享管理》最新解读来啦

《加强5G公众移动通信系统无线电频率共享管理》最新解读来啦&#xff01; 人工智能技术与咨询 近日&#xff0c;工业和信息化部印发了《关于加强5G公众移动通信系统无线电频率共享管理有关事项的通知》&#xff08;下称《通知》&#xff09;&#xff0c;现就《通知》有关内容…

李祎博士谈类脑研究:学科交叉、软硬件突破、学术界与工业界的协同攻关

来源&#xff1a;DOIT传媒类脑计算系统是借鉴人脑信息处理方式&#xff0c;打破“冯诺依曼”架构束缚&#xff0c;适于实时处理非结构化信息、具有自主学习能力的超低功耗新型计算系统。作为生命科学最尖端、最前沿的领域&#xff0c;脑科学是人类最难攻克的科学堡垒之一&#…

如何做嵌入式人工智能

如何做嵌入式人工智能 人工智能技术与咨询 来源&#xff1a;PerfXLab澎峰科技 澎峰科技是中科院的技术团队&#xff0c;做过国际知名的开源矩阵计算库OpenBLAS&#xff0c;获得过中国计算机学会科技进步二等奖、中国科学院杰出科技成就奖&#xff0c;是国家高新技术企业、中…

如果宇宙是答案,那么问题是什么?

来源&#xff1a;未读利昂莱德曼&#xff08;Leon Max Lederman&#xff0c;1922&#xff0d;2018&#xff09;&#xff0c;前费米国家加速器实验室主任&#xff0c;美国科学促进会理事会主席。他主持设计了超导超级对撞机建造计划&#xff0c;是“上帝粒子”一词的提出者。198…

通信网信息传输与分发技术国家级重点实验室2021年度预研基金项目申请指南

通信网信息传输与分发技术国家级重点实验室2021年度预研基金项目申请指南 人工智能技术与咨询 人工智能技术与咨询 北京龙腾亚太教育咨询有限公司依托中国管理科学研究院职业资格认证培训中心成立于2016年9月30日,并于2020年开始与中华文化促进会、中国国家人事人才培训网合…

寻找可落地的因果科学范式:从因果推理到因果学习

来源&#xff1a;集智俱乐部作者&#xff1a;丁善一 编辑&#xff1a;邓一雪导语目前在互联网的交互框架内&#xff0c;用户和消费者只被允许做“有限的表达”&#xff0c;比如被设计好的制式问题、按钮、案件、关键词命中等等&#xff0c;从而臆测主观诉求&#xff0c;然后希望…

液体火箭发动机技术国家级重点实验室2021年度对外开放项目指南

液体火箭发动机技术国家级重点实验室2021年度对外开放项目指南 人工智能技术与咨询 国家级重点实验室 简介 西安航天动力研究所液体火箭发动机技术国家级重点实验室瞄准面向航天运输系统对液体火箭发动机技术的需求&#xff0c;重点开展基础性、创新性和重大关键技术的预先研…

迈向可验证的 AI: 形式化方法的五大挑战

来源&#xff1a;前沿科技作者&#xff1a;Sanjit A. Seshia, Dorsa Sadigh, S. Shankar Sastry编译&#xff1a;李梅、黄楠编辑&#xff1a;陈彩娴人工智能试图模仿人类智能的计算系统&#xff0c;包括人类一些与智能具有直观联系的功能&#xff0c;例如学习、解决问题以及理性…

数字孪生及其在航空航天中的应用

数字孪生及其在航空航天中的应用 人工智能技术与咨询 来源&#xff1a;《航空学报》&#xff0c;作者孟松鹤等 摘要: 数字孪生已引起国内外的广泛重视&#xff0c;可看作是连接物理世界和数字世界的纽带。其通过建立物理系统的数字模型、实时监测系统状态并驱动模型动态更新实…

【综述专栏】马毅沈向洋曹颖最新AI综述火了!

来源&#xff1a;量子位在科学研究中&#xff0c;从方法论上来讲&#xff0c;都应“先见森林&#xff0c;再见树木”。当前&#xff0c;人工智能学术研究方兴未艾&#xff0c;技术迅猛发展&#xff0c;可谓万木争荣&#xff0c;日新月异。对于AI从业者来说&#xff0c;在广袤的…

水声被动定位中的机器学习方法研究进展综述

水声被动定位中的机器学习方法研究进展综述 人工智能技术与咨询 来源&#xff1a;《信号处理》&#xff0c;作者牛海强等 摘 要&#xff1a; 本文对基于机器学习方法的水声被动定位研究进展进行了综述。所涉及的机器学习方法有多层感知机(前馈神经网络)、支持向量机、随机森…