AI芯片之争白热化的当下,如何设计一款真正适用于终端的AI芯片?

来源:36氪

概要:2017年,人工智能最火的风口一定是AI芯片。


2017年,人工智能最火的风口一定是AI芯片。


AI芯片的出现,与深度学习技术的成熟及应用密不可分。深度学习的过程可以简化理解为利用大量标注的数据进行训练,训练出一个行之有效的模型,再将这一模型运用于新数据的推断。


这个耳熟能详的爆款算法是建立在多层大规模神经网络之上的,后者本质上是包含了矩阵乘积和卷积操作的大运算量函数。往往需要先定义一个包含回归问题的方差、分类时的交叉熵的代价函数,再数据分批传递进网络,根据参数求导出代价函数值,从而更新整个网络模型。这通常意味着至少几百万次的相乘处理,计算量巨大。通俗来说,包含了数百万次A*B+C的计算,算力消耗巨大。


为解决这一问题,AI芯片应运而生。2017年开始,围绕AI芯片,半导体行业,战事升级,赛场上新老玩家暗潮涌动,连横合众,大有“AI芯片太多,设备都不够用了”之势。


时间进入2018年,备受关注的大小公司都将正式推出自研AI芯片。这些芯片也都被业界寄予厚望,是否能解决或者部分解决终端计算难题?什么样的芯片才能够真正适应终端智能的需求?


这些都是我们十分好奇且关注的问题。于是也与一些创业者进行了交流。本文即是其中的一篇,来自于与探境科技CEO鲁勇的访谈。目前探境科技正研发适用于终端的AI芯片,在创业前鲁勇曾在芯片厂商Marvell任高管,从事过存储芯片的相关工作,而存储正是计算之外所有芯片另一核心。基于过往的经历、经验与观察,鲁勇认为,做适用于终端的AI芯片,除了要在计算方面提升,存储优化同样至关重要。


以下为正文,来自36氪对鲁勇的访谈内容,36氪基于访谈内容对其观点进行了整理。



AI算法在芯片实现时遇到的核心问题不是计算资源而是存储问题,强如GPU提供众多的计算资源,而实际计算能力与计算资源大为降低。


概括来说,存储问题分为两个部分,一个是带宽问题,一个是功耗问题,这两个问题的解决其实也是耦合在一起的。


具体来说,深度学习算法使用大量存储资源,即包括静态模型参数,也包括网络层之间的动态数据。对于静态模型参数权重,动辄几十兆上百兆样本数量,无法在片上SRAM保存,因此需要存入外部DRAM。DRAM与AI计算芯片间带宽有限,如果芯片上计算资源很大,但受存储带宽的瓶颈限制,实际计算力大为下降。


打比方来说,负责存储的DRAM和与负责计算的芯片就像是位于河两岸的仓库,整个运算的过程可以类比从存储的仓库搬取数据、搬运过桥,将数据搬入计算的单元进行处理,并高速循环往复。而当前的AI芯片技术重点提升将数据搬入计算单元后的处理速度,但因为搬出数据、过桥的过程基本未发送变化,因此整体的效率提升还相对有限。


与之对应的方法即是克服存储带宽的手段:一是减少数据量,降低所需数据带宽,就是说想办法只要从仓库搬出少量数据,就可以达到同样的效果;二是更科学的调度数据使用,提升调度的效率。


(1)减少数据容量


如果数据量降低了,这将总体上减少对DRAM的访问,在DRAM物理带宽保持不变的前提下,降低了DRAM的依赖性,提高了整体性能,同时减少DRAM访问也将大幅减少系统功耗开销。因此首先需要解决的问题是减少静态参数权重的大小。通常的解决办法包括参数定点化,将每个32bit浮点数减少为16bit以下的定点数,至少能降低50%甚至75%的存储容量,也同样幅度的降低了存储带宽的需求。实践证明16bit定点化可以采用线性量化的方式,而16bit以下定点化根据模型的不同,有些需要采用非线性量化才可以达到维持模型性能的目的。


目前主要有模型剪枝、设计适于终端设备的简化网络两种实现方式。模型剪枝作为进一步降低模型容量和存储带宽的方式,是基于神经网络模型存在大量冗余信息的基础,而另一种从源头开始重新设计适于终端设备的简化网络的方式也在逐渐兴起,从同样规模的网络性能来看,新设计的网络可能比旧网络通过剪枝再训练的方式更为简单快捷,性能也更好。


(2)更科学的调度数据使用


深度学习的计算大量使用乘累加,即完成AXB+C的工作,这种乘累加单元(MAC)每次运算需要三个输入,完成一个输出。参与运算的数据包括事先准备好的权重参数和网络层产生的中间数据。每个乘累加完成后的输出通常也会作为下一次运算的输入,因此如何调度这些数据成为关键。


功耗角度来说,从DRAM获取数据所消耗的功耗最大,从SRAM中获取数据其次,从本地寄存器中获取数据消耗功耗最低,但从成本角度考虑刚好相反,因此这三个不同层次的存储器的使用非常关键,我们希望尽可能减少DRAM的访问,最理想的结果是仅从DRAM中读取一次事先存好的模型参数,而不依赖DRAM做任何其他工作。


从宏观上看,整个深度学习运算计算一次,进入MAC的总数据量远大于静态数据的容量,因为无论是模型参数还是中间数据都多次被重复使用,因此实际所需的数据带宽非常大,并且当所有这些数据都仅通过DRAM被缓存使用时,其功耗开销也是惊人的,因此充分利用各级缓存的特性非常重要,设计一个合理的数据流,将多次被重复使用的数据放在离计算资源较近的地方,少量读取的数据放在DRAM中,将提高计算性能,降低系统功耗。



那么问题来了,如何才能设计一款真正适用于终端的AI芯片。


简单的设计一个卷积加速器并不能带来深度学习计算性能上的提高,合格的计算架构需要结合对存储问题的分析来设计,不仅要考虑计算架构,也要考虑存储的数据流控制,因此深度学习的计算特点并非是一个简单粗暴的并行计算问题。


首先还是要考虑浮点和定点计算的问题,8 位的整数乘法比IEEE 754标准下16位浮点乘法降低 6 倍的能耗,占用的芯片面积也少 6 倍;而整数加法的差异是13倍的能耗与38倍的面积,因此终端AI芯片采用定点计算将获得巨大收益。当定点成为设计目标的时候,要充分考虑软硬件的结合,不同网络对定点位数的影响程度是不一样的,数据量化的具体方式也有差异,有线性量化也有非线性量化的方法,因此针对应用场景结合软件协同设计非常有必要。


其次深度学习不是简单粗暴的并行计算但仍然有明显的并行计算特征,因此考虑存储问题后放入更多的计算资源会大幅提高计算性能。首先将最多被重复使用的数据放在接近计算资源的地方,这符合较为流行的In Memory Computing(存储计算一体化)的思想,并且考虑到当前工业水平,这更为实际,而通过重新设计包括计算单元的存储单元或采用ReRAM等方式是未来的 发展方向。


第三要考虑到深度学习数据的另一重要特性,即数据稀疏化特性,也就是说在参与运算的数据中有大量的零值数据存在,这些零值数据即可以在存储中被压缩存放,降低存储容量和带宽需求,也可以在计算中被进一步调度,减少运算压力,提高运算的有效性能。这些零值数据不仅存在于模型参数中,也大量存在于神经网络各层运算的中间数据中,这两方面都需要进行考虑。稀疏数据在多核心并行计算中的调度是个复杂的问题,而不同网络结构也会带来不同的影响,因此将软硬件协同设计,动态调度的调度器是非常复杂的设计难点。


最后要考虑针对不同网络的资源有效利用率问题,由于神经网络差异化较大,如果希望针对不同网络都有较高的资源有效利用率,则需要在较细的颗粒度上进行优化,进一步加深了数据流调度器的复杂度。



未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。由互联网进化论作者,计算机博士刘锋与中国科学院虚拟经济与数据科学研究中心石勇、刘颖教授创建。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/497450.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

李开复:AI巨头是有史以来最难以打破的垄断

来源:凤凰网概要:李开复认为目前最需要的是小的AI公司,甚至于打破巨头垄断局面的“破局者”也会是这些由小变大的AI公司。当地时间周二(1月23日),世界经济论坛在瑞士达沃斯小镇正式举行,各国政要、企业家、学者云集。创…

杨立昆辞Facebook人工智能实验室主任,任首席科学家

来源:澎湃新闻概要:他将不再担任Facebook 人工智能实验室主任一职,改任Facebook首席人工智能科学家,从而能更加专注于带领科学研究与AI策略。当地时间1月23日,执掌Facebook人工智能实验室(FAIR)…

Redis系列一、redis介绍与安装

一、Redis介绍 redis是一种基于键值对(key-value)数据库,其中value可以为string、hash、list、set、sorted set等多种数据结构,可以满足很多应用场景。还提供了键过期,发布订阅,事务,流水线&am…

redhat6.3的linux内核版本,1-6-RHEL6.3-内核升级(Red Hat Enterprise Linux Server6.3)@树袋飘零...

本节介绍内容:1、内核的概述2、源码编译安装文件系统中的ntfs内核模块案例分析1、内核的概述Linux操作系统是用来跟硬件和用户程序互联的支撑平台,设备的驱动程序完全可以访问硬件,而设备的驱动程序以模块化的形式设置,可以进行安…

MIT人工突触芯片新突破:指甲大小的芯片有望媲美超算

原作 Jennifer ChuRoot 编译自 MIT News量子位 出品 | 公众号 QbitAI论传递信息的能力,计算机的二进制目前还比不上人脑。因为大脑神经元之间传递的信号形式远多过0或1两种:根据突触(神经元之间的结构)间不同的神经递质&#xff0…

Redis系列二、redis的五种数据结构和相关指令之String

redis是一种基于键值对(key-value)的内存数据库,redis数据结构可以分为string、hash、list、set、sorted set。本节中将介绍Redis支持的主要数据结构中的string,以及相关的常用Redis命令。 redis的五种数据结构和相关指令之Strin…

体积最小桌面linux,Tiny Core Linux - 体积最小的精简 Linux 操作系统发行版之一 (仅10多MB) - 蓝月网络...

Tiny Core Linux (TCL) 是一款极体积极小且高度可扩展的微型 Linux 发行版,它将一个 Linux 操作系统精简到仅有 10 多 MB 左右的大小,似乎小巧得有点让人叹为观止!要知道无论是常见的 Ubuntu、CentOS、Debian 的体积动辄就是几百MB甚至要上GB…

美国公布长达35页的《2016-2045年新兴科技趋势报告》

来源:云谷资本概要:前段时间美国公布的一份长达35页的《2016-2045年新兴科技趋势报告》。该报告是在美国过去五年内由政府机构、咨询机构、智囊团、科研机构等发表的32份科技趋势相关研究调查报告的基础上提炼形成的。前段时间美国公布的一份长达35页的《…

Redis系列三、redis的五种数据结构和相关指令之Hash

本节中将介绍Redis支持的主要数据结构,以及相关的常用Redis命令。redis是一种基于键值对(key-value)的内存数据库,redis数据结构可以分为string、hash、list、set、sorted set。 redis的五种数据结构和相关指令之Hash 哈希hash …

深度学习在推荐系统上的应用

作者:陈仲铭,知乎 ID:ZOMI深度学习最近大红大紫,深度学习的爆发使得人工智能进一步发展,阿里、腾讯、百度先后建立了自己的AI Labs,就连传统的厂商OPPO、VIVO都在今年开始筹备建立自己的人工智能研究所。确…

Redis系列四、redis的五种数据结构和相关指令之List

本节中将介绍Redis支持的主要数据结构,以及相关的常用Redis命令。redis是一种基于键值对(key-value)的内存数据库,redis数据结构可以分为string、hash、list、set、sorted set。 redis的五种数据结构和相关指令之List 列表list …

那些顶级的AI机器人“大脑”

来源:机器人创新生态概要:如果说AI是赋予各个下游产业的“大脑”,那分布在世界各地的研究院就是AI的“大脑”。如果说AI是赋予各个下游产业的“大脑”,那分布在世界各地的研究院就是AI的“大脑”。从地域来看,美国依然…

Redis系列五、redis的五种数据结构和相关指令之Set

本节中将介绍Redis支持的主要数据结构中的set,以及相关的常用Redis命令。 redis的五种数据结构和相关指令之set 集合set 集合(set)与列表类似,都是用来保存多个字符串,但集合与列表有两点不同:集合中的元…

srt编辑的文件在linux显示乱码,解决看本地视频srt字幕乱码问题教程-srt文件

大家好,我是Ysaku,今天给大家带来一个解决srt字幕乱码问题的教程,今天在做视频的时候发现下载的视频配上srt字幕后显示的字幕会出现乱码情况,在修正问题后,我想大家也会也到这样的情况,那正好今天分享给大家…

李开复对话李飞飞:AI要理解人类的情感,还早着呢

来源:创业家第48届世界经济论坛年会在瑞士达沃斯召开,主题为“在分化的世界中打造共同命运”。达沃斯当地时间1月23日中午,在MIT的午餐会上,创新工场董事长李开复与李飞飞(Google Cloud AI/ML领域首席科学家&#xff0…

Redis系列六、redis的五种数据结构和相关指令之Sorted Set

本节中将介绍Redis支持的主要数据结构,以及相关的常用Redis命令。redis是一种基于键值对(key-value)的内存数据库,redis数据结构可以分为string、hash、list、set、sorted set。 redis的五种数据结构和相关指令之有序集合sorted …

AI时代的高科技读心术:算法解码脑中图像

来源:科研圈翻译 李杨,审校 张梦茜,编辑 魏潇让我们想象一下:只要在心里浮现出某个人物或风景,就能从一堆数码照片中把它搜索出来。或者不用动笔就能画出一个新的厨房设计。又或者给心爱的人发送一张想象中的落日照…

《Nature》发布毫米级软体机器人,可在没有任何物理干预情况下游走于人体

转载自公众号:机器人大讲堂概要:一直以来,微型机器人、软体机器人成为科学研究的热点,我们都期盼机器人能听从指挥的到达人体指定位置,在对人体危害最小的情况下递送药物或者切除病变组织。1966年著名作家艾萨克阿西莫…

Nature:寻找记忆的痕迹

来源:神经科技对于不是《神探夏洛克》超级粉丝的人来说,认知神经科学家Janice Chen对这部英国广播公司的热播侦探剧的了解比大多数人多。当观众观看这部电视剧的第一集然后描述其情节时,Chen能在脑部扫描仪的帮助下监视他们的脑子里正在发生什…

tcl linux 刷 安卓系统,安卓用户看过来—手把手教你刷第三方系统

来来来,小葵花课堂讲课啦。孩子咳嗽老不好,多半是废了,打一顿就好。手机卡顿老不好,先别着急,来刷个机吧。众所周知,因为安卓系统自身的特性,安卓手机用久了难免出现卡顿。一般来说解决的方法有…