AI芯片发展的前世今生

来源:数学与人工智能,以上文章观点仅代表文章作者,仅供参考,以抛砖引玉!

人工智能芯片的分类

2.1 传统CPU困局

自20个世纪60年代早期开始,CPU(中央处理器)开始出现并使用在计算机工业中。现如今,虽然CPU 在设计和实现上都发生了巨大变化 ,但是基于 冯 · 诺依曼架构的 CPU 基本工作原理却一直没有发 生很大变化。如图 1 所示 ,冯 · 诺依曼架构分为中央 处理单元(CPU)和存储器,CPU主要由控制器和运 算器两大部件组成[15]。在工作时 ,CPU 每执行一条指令都需要从存储器中读取数据 ,根据指令对数据 进行相应的操作,因此CPU不仅负责数据运算,而且 需要执行存储读取 、指令分析 、分支跳转等命令。同 时可以通过提升单位时间内执行指令的条数 ,即主 频 ,来提升计算速度。但在人工智能深度学习领域 中程序指令相对较少 ,但对大数据的计算需求很大 , 需要进行海量的数据处理。当用 CPU 执行 AI 算法 时 ,CPU 将花费大量的时间在数据/指令的读取分析 上 ,在一定的功耗前提下 ,不能够通过无限制的加快CPU 频率和内存带宽来达到指令执行速度无限制的 提升。因此在这种情形下 ,传统 CPU 结构缺点明显 , 在人工智能芯片领域中的算力瓶颈问题很难解决 。

2.2 人工智能芯片中的后CPU时代

基于 CPU 的算力问题 ,近年来人工智能芯片领域的科学家们进行了富有成果的广泛研究 ,主要集 中在 AI 芯片目前的两种发展方向。一个方向是继 续延续经典的冯 · 诺依曼计算架构 ,以加速计算能力 为发展目标,主要分为并行加速计算的GPU(图形处 理单元)、半定制化的 FPGA(现场可编程门阵列)、全 定制化的 ASIC(专用集成电路)。另一个方向就是 颠覆传统的冯 · 诺依曼计算架构 ,采用基于类脑神经 结构的神经拟态芯片来解决算力问题。下面将对这 两个方向的人工智能芯片特点进行详细描述。

2.2.1 按架构分类

(1)图 形 处 理 单 元(graphics processing unit ,GPU)。GPU 是相对较早的加速计算处理器 ,具 有速度快、芯片编程灵活简单等特点。由于传统CPU 的计算指令遵循串行执行方式 ,不能发挥出芯片的全部潜力 ,而 GPU 具有高并行结构 ,在处理图形 数据和复杂算法方面拥有比 CPU 更高的效率。在结 构上 ,CPU 主要由控制器和寄存器组成 ,而 GPU 则拥 有更多的逻辑运算单元(arithmetic logic unit,ALU) 用于数据处理,这样的结构更适合对密集型数据进 行并行处理 ,程序在 GPU 系统上的运行速度相较于 单核 CPU 往往提升几十倍乃至上千倍。同时 ,GPU拥有了更加强大的浮点运算能力 ,可以缓解深度学 习算法的训练难题,释放人工智能的潜能。但是GPU 也有一定的局限性。深度学习算法分为训练和 推断两部分 ,GPU 平台在算法训练上非常高效。但 在推断中对于单项输入进行处理的时候 ,并行计算 的优势不能完全发挥出来 。

(2)现场可编程门阵列(field programmable gate array ,FPGA )。FPGA 是 在 PAL 、GAL 、CPLD 等 可 编 程器件基础上进一步发展的产物。其基本原理是在FPGA 芯片内集成大量的基本门电路以及存储器 ,用 户可以通过更新FPGA配置文件(即烧入)来定义这 些门电路以及存储器之间的连线。这种烧入不是一 次性的,因此,它既解决了定制电路灵活性的不足, 又克服了原有可编程器件门电路数有限的缺点。与GPU 不同 ,FPGA 同时拥有进行数据并行和任务并行 计算的能力 ,适用于以硬件流水线方式处理一条数 据 ,且整数运算性能更高 ,因此常用于深度学习算法 中的推断阶段。不过 FPGA 通过硬件的配置实现软 件算法 ,因此在实现复杂算法方面有一定的难度 。

将FPGA和CPU对比可以发现两个特点,一是FPGA没有内存和控制所带来的存储和读取部分,速度更快,二是FPGA没有读取指令操作,所以功耗更低。劣势是价格比较高,编程复杂,整体运算能力不是很高。功耗方面 ,从体系结构而言 ,FPGA 也具有天生 的优势。传统的冯氏结构中,执行单元(如CPU核) 执行任意指令,都需要有指令存储器 、译码器 、各种 指令的运算器及分支跳转处理逻辑参与运行,而FPGA每个逻辑单元的功能在重编程(即烧入)时就已经确定 ,不需要指令,无需共享内存 ,从而可以极 大地降低单位执行的功耗 ,提高整体的能耗比。FPGA最值得注意的例子可能是 CNP [16] ,它进一步改 进并重命名为 NeuFlow [17] ,后来改编为 nn-X [18]。这些设计可以实现 10~100 KM/s 操作(GOPS),功率仅 为10W以下。

(3)专用集成电路(application-specific integrated circuit,ASIC)。目前以深度学习为代表的人工智能 计算需求,主要采用GPU、FPGA等已有的适合并行 计算的通用芯片来实现加速。在产业应用没有大规 模兴起之时 ,使用这类 GPU 、FPGA 已有的通用芯片 可以避免专门研发定制芯片( ASIC )的高投入和高风 险。但是,由于这类通用芯片设计初衷并非专门针 对深度学习 ,因而天然存在性能 、功耗等方面的局限 性。随着人工智能应用规模的扩大 ,这类问题日益 突显。

GPU 作为图像处理器 ,设计初衷是为了应对图像 处理中的大规模并行计算。因此 ,在应用于深度学习 算法时无法充分发挥并行计算优势。深度学习包含 训练和推断两个计算环节 ,GPU 在深度学习算法训练 上非常高效 ,但对于单一输入进行推断的场合 ,并行 度的优势不能完全发挥。其次,GPU采用SIMT计算 模式 ,硬件结构相对固定 ,无法灵活配置硬件结构 。此外,运行深度学习算法能效低于FPGA。

虽然 FPGA 倍受看好 ,但其毕竟不是专门为了适 用深度学习算法而研发 ,实际应用中为了实现可重 构特性 ,FPGA 内部有大量极细粒度的基本单元 ,但 是每个单元的计算能力都远低于 CPU 和 GPU 中的ALU 模块;其次 ,为实现可重构特性 ,FPGA 内部大 量资源被用于可配置的片上路由与连线 ,因此计算 资源占比相对较低;再者,速度和功耗相对专用定制 芯片(ASIC)仍然存在不小差距;而且FPGA价格较 为昂贵,在规模放量的情况下单块FPGA的成本要远 高于专用定制芯片。

因此 ,随着人工智能算法和应用技术的日益发 展,以及人工智能专用芯片ASIC产业环境的逐渐成 熟 ,全定制化人工智能 ASIC 也逐步体现出自身的优 势。ASIC是专用定制芯片,定制的特性有助于提高ASIC 的性能功耗比 ,缺点是电路设计需要定制 ,相 对开发周期长 ,功能难以扩展。但在功耗 、可靠性 、 集成度等方面都有优势 ,尤其在要求高性能 、低功耗 的移动应用端体现明显。比如谷歌的 TPU、寒武纪 的 GPU ,地平线的 BPU 都属于 ASIC 芯片 。

(4)神经拟态芯片(类脑芯片)。在人工智能芯片中,传统的冯·诺依曼架构存在着“冯·诺依曼瓶 颈”,它降低了系统的整体效率和性能[19]。为了从 根本上克服这个问题 ,神经形态计算近年来已成为 基于冯 · 诺依曼系统的这些传统计算架构的最有吸 引力的替代方案。术语“神经形态计算”首先由Mead[20] 在 1990 年提出 ,它是一种受大脑认知功能 启发的新计算范式。与传统的 CPU / GPU 不同 ,生 物脑(例如哺乳动物的大脑)能够以高效率和低功 耗在小区域中并行处理大量信息。因此 ,神经形态 计算的最终目标是开发神经形态硬件加速器 ,模拟 高效生物信息处理,以弥合网络和真实大脑之间的 效率差距[21] ,这被认为是下一代人工智能的主要驱 动力。

神经拟态芯片不采用经典的冯 · 诺依曼架构 ,而 是基于神经形态架构设计 ,是模拟生物神经网络的 计算机制 ,如果将神经元和突触权重视为大脑的“处 理器”和“记忆”,它们会分布在整个神经皮层[22]。神 经拟态计算从结构层面去逼近大脑 ,其研究工作可 分为两个层次 ,一是神经网络层面,与之相应的是神 经拟态架构和处理器 ,以 IBM Truenorth 为代表 ,这 种芯片把定制化的数字处理内核当作神经元 ,把内存作为突触。

其逻辑结构与传统冯·诺依曼结构不同:内存、CPU和通信部件完全集成在一起,因此信 息的处理在本地进行 ,克服了传统计算机内存与CPU 之间的速度瓶颈问题。同时神经元之间可以方 便快捷地相互沟通 ,只要接收到其他神经元发过来 的脉冲(动作电位),这些神经元就会同时做动作;二 是神经元与神经突触层面 ,与之相应的是元器件层 面的创新。如 IBM 苏黎世研究中心宣布制造出世界 上首个人造纳米尺度的随机相变神经元,可实现高 速无监督学习 。

当前 ,最先进的神经拟态芯片仍然远离人类大 脑的规模(1010个神经元,每个神经元有103~104个突 触),至多达到104 倍,如表1所示。为了达到在人脑 中规模,应将多个神经拟态芯片集成在电路板或背 板上 ,以构成超大规模计算系统。神经拟态芯片的 设计目的不再仅仅局限于加速深度学习算法 ,而是 在芯片基本结构甚至器件层面上改变设计 ,希望能 够开发出新的类脑计算机体系结构,比如采用忆阻 器和 ReRAM 等新器件来提高存储密度。这类芯片 技术尚未完全成熟 ,离大规模应用还有很长的距离 , 但是长期来看类脑芯片有可能会带来计算机体系结构的革命 。

2.2.2 按功能分类

根据机器学习算法步骤 ,可分为训练(training)和推断( inference )两个环节 。训练环节通常需要通过大量的数据输入,训练出一个复杂的深度神经网络模型。训练过程由于涉 及海量的训练数据和复杂的深度神经网络结构 ,运 算量巨大 ,需要庞大的计算规模 ,对于处理器的计算 能力 、精度 、可扩展性等性能要求很高。目前市场上通常使用英伟达的 GPU 集群来完成 ,Google 的TPU2.0/3.0 也支持训练环节的深度网络加速 。

推断环节是指利用训练好的模型 ,使用新的数 据去“推断”出各种结论。这个环节的计算量相对训 练环节少很多 ,但仍然会涉及到大量的矩阵运算 。在推断环节中 ,除了使用 CPU 或 GPU 进行运算外 ,FPGA 以及 ASIC 均能发挥重大作用。表 2 是 4 种技 术架构的芯片在人工智能系统开发上的对比 。

2.2.3 按应用场景分类

主要分为用于服务器端(云端)和用于移动端( 终 端 )两 大 类 。

服务器端:在深度学习的训练阶段 ,由于数据量及运算量巨大 ,单一处理器几乎不可能独立完成 1 个 模型的训练过程 ,因此 ,负责 AI 算法的芯片采用的是 高性能计算的技术路线 ,一方面要支持尽可能多的网 络结构以保证算法的正确率和泛化能力;另一方面必 须支持浮点数运算;而且为了能够提升性能必须支持 阵列式结构(即可以把多块芯片组成一个计算阵列以 加速运算)。在推断阶段,由于训练出来的深度神经 网络模型仍非常复杂 ,推断过程仍然属于计算密集型 和存储密集型 ,可以选择部署在服务器端 。

移 动 端( 手 机 、智 能 家 居 、无 人 车 等 ):移 动 端 AI芯片在设计思路上与服务器端 AI 芯片有着本质的 区别。首先,必须保证很高的计算能效;其次,在高 级辅助驾驶 ADAS 等设备对实时性要求很高的场 合 ,推断过程必须在设备本身完成 ,因此要求移动端 设备具备足够的推断能力。而某些场合还会有低功 耗 、低延迟 、低成本的要求 ,从而导致移动端的 AI 芯 片多种多样 。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/487229.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

华为服务器怎么格式化系统,如何格式化服务器

如何格式化服务器 内容精选换一换已获取该弹性云服务器的密钥文件,如未获取,请参见获取弹性云服务器的密钥文件。弹性云服务器已经绑定弹性IP地址。已配置安全组入方向的访问规则。如果您是在Windows操作系统上登录Linux,可以按照下面方式登录…

防止被算力“锁死”,人工智能进化急需革命性算法

来源:搜狐,以上文章观点仅代表文章作者,仅供参考,以抛砖引玉!“深度学习所需的大规模样本数据对于算力产生巨大需求,但近日美国麻省理工学院等研究机构的报告显示,深度学习正在逼近算力极限&…

Hinton口中破解宇宙终极秘密的GPT-3厉害在哪?这有篇涂鸦详解

大数据文摘出品编译:王绍宇、 AndyGPT-3最近又开始火起一阵,关于GPT-3的各种精彩文章现在也很多,其中不光有展示了它生成结果的,也有对结果一些思考的,还有可视化其工作原理的。由于GPT-3各种参数应用太强大&#xff0…

c# ref和out参数

向方法传递参的时候,对应的参数通常会用实参的拷贝来初始化。就是说随便在方法内部进行怎样的修改,都不会影响作为参数传递的变量的原始值。 通过上面的例子我们可以看出来,如果一个方法的参数是引用类型,那么使用哪个参数来进行任…

Gartner:如何利用数字孪生帮助企业创造价值?

❑ 导 读白皮书预测:到2021年,半数的大型工业企业将使用数字孪生,从而使这些企业的效率提高10%。到2024年,超过25%的全新数字孪生将作为新loT原生业务应用的绑定功能被采用。全文共计1723,预计阅读时间6分钟来源 | 树根…

集成电路将成一级学科,这些高校迎来重大机遇!

来源:软科8月4日,国务院发布关于印发《新时期促进集成电路产业和软件产业高质量发展的若干政策》的通知。《新时期促进集成电路产业和软件产业高质量发展的若干政策》在人才政策这一项中提到:进一步加强高校集成电路和软件专业建设&#xff0…

震撼三观:从细胞到宇宙

这是一次高速旅行,每次都以10倍的速度跳跃。从 10的0次方开始(也就是1 米), 然后每次按照10的乘方增加。从10米, 100 米, 1000米,以此类推, 直至巨视世界的无尽。来源:通往知识之路(ID:tongwang…

边缘AI芯片市场将在2025年首次反超云端AI芯片市场

边缘AI将利用许多其他新兴技术,为消费者和企业领域的各种新商机铺平道路。来源:雷锋网作者:吴优由于市场对低延迟、数据隐私以及低成本和超节能的可用性的日益关注,预计到2025年,边缘AI芯片组市场将首次超过云AI芯片组…

倪光南:看好鸿蒙系统,坚持生态体系创新才能不被“卡脖子”

图为倪光南院士接受专访来源:澎湃新闻8月7日,在中国信息化百人会2020年峰会上,华为消费者业务CEO余承东关于“麒麟芯片将绝版”的消息一石激起千层浪,在新的国际环境下,国内科技企业应当如何突破重围,自主创…

弦理论三先驱获2020年狄拉克奖

狄拉克奖是国际理论物理中心(International Centre for Theoretical Physics,ICTP)为纪念理论物理学家狄拉克而在1985年设置的奖项,被视为理论和数学物理领域的最高荣誉之一。近日,ICTP 在意大利 Trieste 宣布了2020年…

CCAI 2020 | 黄铁军:“仿真主义”下的人工智能发展之路

来源:中国人工智能学会在人工智能发展的60多年中,大致有四种方法来实现某些人工智能:符号主义,联结主义,行为主义和统计学,它们分别从不同的角度抓住了“智能”的一些特点,因此各自引领着一个时…

物联网激荡MEMS传感器浪潮

来源:第三代半导体联合创新孵化中心物联网悄然而至。如今,物联网已进入跨界融合、集成创新和规模化发展新阶段,将为经济社会发展注入新活力,培育新动能。物联网在交通、物流、环保、医疗、安防、电力等领域的应用逐渐得到规模化验…

《自然》《科学》相继发文批评质疑:俄罗斯注册新冠疫苗“让众人面临风险”...

来源:环球科学编译丨杨心舟8月11日,俄罗斯总统普京在与政府成员举行会议时透露,俄罗斯已经注册世界第一种新冠肺炎疫苗。普京表示,这款疫苗非常有效,能够形成稳定的免疫力并且已通过所有的检查,并且自己的女…

翻译连载 | 附录 A:Transducing(下)-《JavaScript轻量级函数式编程》 |《你不知道的JS》姊妹篇...

原文地址:Functional-Light-JS原文作者:Kyle Simpson-《You-Dont-Know-JS》作者关于译者:这是一个流淌着沪江血液的纯粹工程:认真,是 HTML 最坚实的梁柱;分享,是 CSS 里最闪耀的一瞥…

思未尽,行致远丨记 IBM 成立 109周年

来源:IBM中国主创团队(IBM Social & Studio DL team)策划:点亮 IBM 庆生蜡烛的甜心御姐 June撰稿:被百年“名场面”感动 cry 的原创一哥 Raphal设计:熬出黑眼圈也要操刀设计的鲁先森排版:话…

王恩哥院士:信息化发展进程中,科学、基础研究和技术、应用都是关键

图为王恩哥院士接受新华网采访来源:新华网由深圳市人民政府指导,中国信息化百人会主办,华为技术有限公司协办的中国信息化百人会2020年峰会于8月7日启幕。会上,中国信息化百人会顾问、中国科学院院士、北京大学原校长、中国科学院…

英特尔的六大新技术

来源:芯东西(公众号:aichip001) 芯东西8月14日消息,昨日晚间,英特尔在2020年架构日上推出10nm SuperFin晶体管技术,将实现其有史以来最强大的单节点内性能增强。据悉,10nm SuperFin技…

中国芯片设计云技术白皮书2.0发布

来源:摩尔精英作为行业内专业的IT/CAD技术服务团队,摩尔精英IT/CAD事业部曾于2019年11月21日的南京ICCAD大会上发表的《芯片设计云计算白皮书1.0》中,初步探索了基于公有云的EDA计算平台的实现方案。随着进一步的探索和方案优化,我…

希尔伯特著名的第六问题 – 原来麦克斯韦早就有解?

转自:知社学术圈作者:Natalie Wolchover 编译:子聿希尔伯特的第六大问题号召人们公理化物理学定律,也就是说从一套初始假设或者公理的基础出发严格构建它们。这样做将会揭示需要不同公设的定律之间的矛盾。从相同的公理出发推导…

layui富文本编译器添加图片

1、创建富文本编辑器 <form class"layui-form" method"post" id"myForm" enctype"multipart/form-data"><div class"layui-form-item layui-form-text"><label class"layui-form-label">内容&…