来源:《微纳电子与智能制造》
随着边缘计算技术的兴起,各种各样的感知系统给人类带来了便捷高效的生活。以日常使用的手机为例,工程师为其置入了各种各样的传感器,并通过运行其上的机器学习算法,部署了很多便捷的功能。例如,很多手机正面有一个光学传感器,当监测到使用者抬起手机时,系统通过智能算法做出判断并自动亮屏。大部分手机还配备了麦克风和智能语音助手,用户可以通过语音指令解锁手机或者下达各种任务。除此之外,很多手机配备了磁力传感器,据此来获得手机姿态来自动调整屏幕方向。
然而,尽管手机的功能越来越强大丰富,手机的续航时间和持续工作时间早已成为其最大的使用痛点。包括上述手机的应用范例,绝大部分嵌入式设备都属于能量受限系统,这一特点给把计算部署到边缘侧带来了巨大挑战。因此,研究人员想方设法降低系统功耗,来获取更长的待机时间和持续工作时间,这一需求被称为“持续感知”。
本文将探讨持续感知系统在边缘计算的应用,并重点关注人工智能和传感系统紧密结合的研究方向。文章分为5个部分,第一部分讨论了传统感知系统的构成,第二部分描述了持续感知的典型应用场景,第三部分详细给出了持续感知的概念和特点,文章第四部分总结并讨论了近年来学术界和工业界的设计维度和创新方向,第五部分总结了全文。
传统感知系统的构成
传感技术是现代社会必不可少的基础技术之一,也是各种智能算法和应用的数据来源。种类繁多的传感器为人类的生活提供了诸多的便利。如图1所示,传统的感知系统通常由以下几个部分构成:首先将物理域信号转化为模拟电信号,随后通过模数转换器(analog-to-digitalconverter,ADC)进行模数转换,接着进行数字域的信号处理。
在这一范式指导下,各器件的生产厂商结合最新的技术进步,不断提升传感系统的性能表现。但是这一技术范式有着明显的缺点:
(1)各个模块分立设计,独立优化,忽略了系统整体优化的潜力。
例如,现在主流的音频传感器集中在优化音频信号转换为电信号的过程[1]。随后电信号通过模数转换器进入数字域[2-5]。在模数转换之后,信息就被传到以CPU为代表的数字处理器,进行压缩编码等工作[6-8]。然而,集成化的设计已经被证明可以极大地提升系统的性能。传统的分立设计浪费了整体系统设计的巨大潜力[9-11]。
(2)对于事件驱动型应用,处理了大量无用载荷。
以安防场景为例,如图2所示,很多公司采用摄像头全程拍摄,随后由专人值守在后方监控室内,防止盗窃或者其他的安全事故发生[12-14]。但是,真正的有效数据和事件在所有时空数据中所占的比例是非常小的[15-16]。这意味着,大量的无效数据被直接传到后台控制环节,既增加了人力成本,也增加了数据传输和存储的成本[17]。
(3)面向通用型应用,增加了设计难度和生产成本,针对性不强。
目前,各传感器的生产厂商的很多产品针对性不强,想要在各个指标上达到最优,来保证不同应用的各有侧重的需求。例如互补金属氧化物半导体。(complementarymetaloxidesemiconductor,CMOS)ImageSenso(rCMOS图像传感器)的生产厂商在设计传感器时,并没有考虑太多应用场景的需求,而是集中精力提高主要参数的技术性能[18-21]。但其实,以行动目标检测为例,此类应用对于图像传感器的帧率等指标要求并不很高,其准确率主要由传感器的感光度决定。这就意味着,传统的与应用场景分离的设计带来了很多严重过剩的性能,既增加了研发设计的难度和生产使用的成本,也显著提升功耗,不利于“持续感知”类应用[22-26]。
传感器产生数据只是第一步,数据随即传输到云计算中心或直接留在边缘侧进行相应的处理,两种范式的优劣将在下一章节讨论。
边缘智能
传感器的数据如果在云端处理,一般要集中送到最近的数据中心。以数据中心为代表的云端自诞生伊始就面临着功耗、网络互联和散热成本的巨大挑战;典型的人工智能应用,以其巨大的数据流量和高强度的计算需求,又给最先进的云计算平台带来了新的挑战。作为一种减少云端资源消耗的有效方法,边缘计算技术最近被研究人员提出并受到广泛关注,如图3所示[27]。在边缘计算系统中部署人工智能算法,被称为边缘智能。
边缘智能是指将机器学习等智能算法部署到网络边缘——嵌入式终端中,即在云服务的终点和物联网的源头上执行智能计算的技术[27-30]。例如,智能手表是身体和手机之间的边缘,其上运行着健康监测和疾病预防等智能应用;桥梁健康监测传感器是桥身与维护中心之间的边缘,安防摄像头是监控区域与后方安保中心之间的边缘,其上运行着环境检测、非法入侵监控等智能任务[31-35]。总而言之,边缘智能的核心原理是:将与智能应用相关的算法直接在边缘侧的终端进行[27]。
由于边缘智能可以显著降低云计算中心的工作压力,并且极大地方便了人类的生活,因此边缘计算应用潜力巨大。图4描述了边缘智能的典型工作场景。
(1)可穿戴式设备
可穿戴式设备是嵌入式边缘计算的很重要的应用场景。文献[36]中讨论了GoogleGlass和AppleWatch在学习和教育的广泛应用。学生可以通过GoogleGlass和AppleWatch快速方便地访问信息,连接到校园各处的边缘设备,来提高学习效率。文献[37]展示了面向患者的可穿戴无线医疗传感器网络,由主传感器板、传感器节点和网关构成,测量受试者的胸部主要的生命体征,包括心率、呼吸率和体温,并通过蓝牙低功耗(BLE)模块传输到网关。
(2)环境监测
边缘计算的兴起给传感网络带来了新的发展机会。文献[38]提出了用于桥梁健康监测应用的结构健康监测系统,包括用于测量桥柱的倾斜角度的加速度传感器、用于测量水位的超声波传感器。传感器节点和中心站工作在同一频段。通过使用中心站,从节点接收传感器数据并发送到后端服务器节点。
(3)机器人
边缘计算可以让机器人系统具有更加丰富的功能。文献[39]提出了一种用于工业机器人的新型的多传感气体感知系统,用于感知车间内的气体成分。最近几年,多机器人系统也成为一个研究热点。多机器人系统的集体行为受其感知的物理环境、机器人群体间信息交换和决策所支配。英特尔公司设计了一个用于分布式、自主协作的多机器人系统的处理芯片,用于搜索和救援等复杂任务[40]。他们设计了一款22nm制程的低功耗机器人片上系统(systemonchip,SoC),还配有视听和运动传感器,电池,低功耗无线通信和运动执行器组件。
(4)特种应用
除了日常应用的场景,边缘计算在一些特殊领域如国防、极端环境,也有巨大的发展空间。某些具有特殊功能的传感器能否正常工作,是影响核电厂安全性的主要因素,由于此类传感器更换成本极高,因此与核电厂安全相关的重要传感器通常采用冗余设计的方法。文献[41]提出了一种结合硬件冗余和离散小波变换的故障诊断方法,并结合相关法律和标准,给出了诊断装置的硬件实现方案。针对军事应用,文献[42]为操作指挥官开发了一个有效的嵌入式感知系统,以便部署或定位士兵并了解士兵在军事行动中的状态(死亡或存活)。
虽然边缘侧的应用潜力巨大,然而很多终端采用电池供电或者用太阳能板等稀疏能量收集系统来维持运转,因此,待机时间和持续工作时间成为各种应用需求的最主要的挑战。
持续感知
目前,以物联网为代表的边缘侧,在满足应用需求的前提下,要求感知系统的待机时间和持续工作时间要尽可能长,称这一需求为持续感知。
所谓持续感知,即是对于应该处理的任务或者事件可以持续做出及时响应的感知系统。
3.1 持续感知与传统感知系统的区别
如表1所示,持续感知系统通常是在能量受限的系统上运行的某类智能应用,同时,这类系统通常采用了定制化设计,且为了实现低功耗多采用事件驱动的方式工作。
这里要理清持续感知与传统的常开型应用系统的区别。如图5所示,持续感知不必要求系统一直处于工作状态,只需要能够及时处理相关事件或者任务即可[43-47]。这意味着,很多事件触发型任务也属于持续感知的范畴,常开型应用系统是持续感知系统的一个子集[23,48-50]。
3.2 持续感知的优点
与传统感知系统相比,持续感知有诸多优点。
首先,在持续感知系统中,专用设计可以放松对某些指标的要求,设计难度和成本也会下降[27-30]。此外,系统超长的待机时间减少了维护费用,给传感器增加了部署智能应用的可能性,减少了云端处理负载和边缘与云端通信的代价。
3.3 设计挑战
虽然持续感知系统优势明显,然而也给研究人员和工业界带来了很多挑战。
(1)功耗优化难题
如前所述,由于边缘侧的终端通常是能量受限的系统,或者仅是采用了低效率的能量收集系统[51-57]。因此,功耗问题成为运行各种智能应用最突出的矛盾之一。在摩尔定律显著放缓的情况下,专用芯片(applicationspecificintegratedcircuit,ASIC)和现场可编程门阵列(fieldprogrammablegatearray,FPGA)是可能的解决方案,但也带来了新的挑战和问题[58-61],远远不能满足持续感知的需要。
(2)定制化设计的固有问题与新情况
系统的定制化设计可以显著降低系统的整体功耗,但是设计难度大、验证周期长,相关软件生态目前并不完备[62-65]。再者,设计的定制化程度和使用灵活性也是一对矛盾,定制化设计的粒度大小在很大程度上决定了使用灵活性,如何在两者之间取得平衡也亟待探索[27-30]。
(3)设计边界探索
在很多场景中,不可能在边缘处理全部任务,有一部分任务必须传送到云端进行后续处理。较少的边缘处理,较多的云端处理,意味着边缘计算模块设计难度下降,但也会带来通信代价提升,实时性和安全性产生退化。反之,嵌入式边缘设备的处理实时性和安全得到提升,但是边缘端计算压力将会增加,功耗矛盾更加突出[27-30,66-70]。
(4)安全性问题
在边缘终端,隐私和安全保护是最重要的设计要求之一。如果将物联网(internetofthings,IoT)设备部署到家庭中,则可以从感知的数据中学习许多隐私信息。在边缘侧进行计算,如何防止隐私泄露,是一个尚未得到重视和解决的问题。最近几年,英特尔处理器曝出的安全漏洞已经警醒硬件系统的安全问题面临着极为严峻的挑战[71-73]。在自动驾驶这种攸关生命的应用中,任何安全风险都可能带来生命安全事故。研究人员对特斯拉自动驾驶系统的测试,已经证明此类系统的安全性令人担忧[74-75]。安全问题在边缘感知系统,将以新的挑战继续促动研究人员进行研究。
为了应对上述挑战,研究人员在不同维度上进行研究,来缓解或者解决持续感知的设计难题。
设计维度与创新
为了解决上述挑战,如图6所示,按照由底层向上层的顺序,从新型传感器的设计、新型电路、架构设计、应用算法的改进、以及算法和电路联合设计等几个维度展开讨论。
4.1传感器设计
传感器是数据的源头,其设计优劣直接关系到产生的数据质量与算法的有效性。
目前,传感器的设计逐渐向新工艺、新材料,以及直接集成处理模块等方向发展。人脸识别、虚拟现实/增强现实等新型视觉相关应用的需求推动了对高性能全局快门(globalshutter,GS)传感器的需求。大多数商用GS传感器有着严重的漏光和较低的快门效率。文献[76]提出了一种采用TSMC堆叠背面照射(backsideillumination,BSI)CMOS工艺制造的GS图像传感器,GS操作期间的功耗得到了显著降低,图像质量也得到了改善。除此之外,动态视觉传感器(dynamicvisionsensor,DVS)也在兴起。DVS与主流CMOS图像传感器不同的地方是,其是由事件驱动产生数据,而非时序帧采样。由于其数据密度低的特点,在对功耗要求特别高的IoT应用中逐渐受到青睐[77]。
除了视觉信号,音频信号在语音识别、声纹解锁等应用也占据着重要位置。悬浮振动膜是构成现代声换能器的基础。然而,基于大膜和薄膜的大规模机械谐振器的实现仍面临若干挑战。文献[78]开发了一种简单且可重复的方法来转移由石墨烯和高分子薄膜组成的毫米级圆形和方形膜,获得了谐振性能的改善。
针对客观物理环境的感知随着智能制造和智慧农业的兴起得到了新的机遇。文献[79]开发出了基于纳米金属氧化物半导体的挥发性化合物传感器系统,通过对净化系统的污水流出物的典型微生物足迹的连续定性观察,来监测异常工业排放及确定其空间位置。文献[80]演示了在低功率非分散红外(nondispersiveinfrared,NDIR)基二氧化碳传感器中使用CMOS红外发射器,具有以下优点:它们更快,更小,功耗更低,并且可以与电路集成。
近年来,电子嗅觉传感器(电子鼻)也得到了广泛应用。文献[81]提出基于金属氧化物半导体设计的电子鼻(E-Nose),用于监测成熟过程中水果的挥发性有机物产生的变化。应变和压力传感器是近年来最受欢迎的研究方向之一,是智能和柔性电子产品的关键部件。文献[82]提出了超灵敏石墨烯异质结构薄膜的合成方法。以该方法制成的传感器的灵敏度可达5.64kPa-1,同时响应频率为10kHz,反射分辨率超出了人体皮肤的敏感度。该研究为未来的一体化灵活人工感觉神经铺平了道路。
4.2 电路设计
由于很多边缘计算的节点使用电池供电或者能量收集系统,因此处理电路的功耗始终是一个主要的设计难点。一方面,采用专用设计的CMOS电路,仍有很大的优化空间。文献[83]中提出了一种超低功耗的常开型语音活动检测芯片。作者使用基于时间交错混频器的电路形式,将放大器、ADC和数字处理部分功耗降低了4倍,神经网络(neuralnetwork,NN)处理模块在数字域中实现了12倍的功率降低语音检测精度达到91.5%。文献[84]中提出了一种面向边缘计算、基于时间域运算的高能效神经网络加速器。作者采用了双向存储器延迟线执行时域乘累加操作,克服了以往模拟乘累加计算的拓展性受限和容易发生失配的缺点,实现了13.46TOPS/W的极高能效。
除了数据处理模块,一些工作关注低功耗接口的设计。文献[85]介绍了用于可穿戴式、入耳式耳机
高保真音频的体内传输人体通信收发器的设计,其在5Mb/s的数据速率下的能耗<40μW,实用了现有技术下体域网收发器中的最高能量效率。
在另一方面,以新兴的金属氧化物电阻随机存取存储器(resistiverandom-accessmemory,ReRAM)和铁电栅场效应晶体管(ferroelectricfield-effecttran-sistor,FeFET)为代表的新器件,已显示出其用于主存储器的潜力。ReRAM是存内计算(processinginmemory,PIM)中较有前景的解决方案,凭借其交叉阵列结构,ReRAM可以有效地执行矩阵向量乘法,并且已被广泛研究以加速机器学习的计算。
近年来,很多工作开始关注ReRAM在高能效感知系统中的实现,PRIME使用ReRAM进行神经网络计算,与先前的NN加速器相比,具有显着的性能提升和节能效果,将性能提高了约2360倍,能效提高了约895倍[86]。文献[87]利用FeFET实现了3种不同的电路设计风格:互补(差分)、动态电流模式和动态逻辑。与现有方法(即基于磁隧道结和CMOS等)进行比较,在相同的特征尺寸下,FeFET设计在主要指标中表现出较大的改进,同时还提供非易失性和更少的器件数量。
4.3 架构设计
在电路之上,研究人员对持续感知系统的架构也进行了大量优化。针对目前得到广泛应用的神经络计算,Eyeriss提出了一种新颖的数据流,称为行静态(rowstatic,RS)[88]。RS数据流可以适应不同的卷积神经网络(convolutionalneuralnetwork,CNN)结构,可以进行重新配置以适应给定形状的计算映射,通过最大限度的数据重用来提高能量效率,以减少数据搬移,Eyeriss处理AlexNet为278mW,处理VGG-16仅为236mW。
由于全定制架构的使用灵活性较差,可重构计算以其兼顾高效性和灵活性的特点,受到很多研究人员的青睐。这一领域,Thinker是近年来的一个代表性工作[89]。Thinker是一种高能效可重构混合神经网络处理器。Thinker的每个处理单元(processingelement,PE)支持位宽自适应可重构,以满足神经层的各种位宽自适应可重构,以满足神经层的各种位宽,也提高了计算吞吐量和平均能效。其次,PE阵列支持按需阵列分区和可重构,以并行处理不同结构的NN,从而提高了PE利用率提高和计算能效。
在定制和可重构的架构之外,FPGA由于其配置的高度灵活性和较好的能效表现,得到了广泛运用。文献[90]总结了CNN对存储、计算和系统灵活性的要求,提出了一种可编程且灵活的CNN加速器架构——Angel-Eye,以及数据量化方法和编译工具。数据量化方法有助于在精度损失可忽略不计的前提下,将数据位宽降低至8位。在同一平台上评估,Angel-Eye的速度比同类工作实现快6倍,功效高5倍。
除此之外,针对特种应用的特殊架构设计,在航天、核能等场景发挥了重要作用。文献[91]针对小型化复杂设备的总辐射剂量测试的成本效益测试设置和程序,通过电子源进行片上辐照,对芯片进行照射,将多种传感机制与相关性分析相结合,以促进效果建模和定制环形振荡器网络的调整,以便将来航天器自主飞行使用。
4.4 算法优化
运行在硬件之上的感知算法,近年来逐渐被以神经网络为代表的机器学习所主导。目前,深度神经网络(deepneuralnetwork,DNN)已经广泛应用于各类智能感知任务,包括图像识别、语义分割、语音识别、自主建图和导航、自然语言处理等。其中,图像识别技术目前已经较为成熟,Resnet和Densenet的表现已经超过了人类的水平。但是较复杂的任务,如自主建图和导航(simultaneouslocalizationandmapping,SLAM)、语义分割等目前仍有较大发展空间,而这些任务恰恰是自动驾驶和机器人等应用的关键算法之一。
MASK-RCNN是一种近来很受欢迎的通用的对象实例分割框架,MASKR-CNN是在fasterR-CNN的基础上,通过添加用于边界框识别的分支来扩展实现的[92],如图7所示[93]。MaskR-CNN很容易训练,只需很少的开销就可以以5fps的速度加速R-CNN,准确率也有不错的表现。
而SLAM方面,回环检测和多传感数据融合是两大难点。文献[94]提出了一种针对动态环境的语义SLAM,称为DS-SLAM。在DS-SLAM中并行运行5个线程:跟踪、语义分段、本地映射、循环关闭和密集语义映射创建,将语义分割网络与移动一致性检查方法相结合,减少了动态对象的影响,从而在动态环境中大大提高了定位精度;同时,DS-SLAM生成密集的语义八叉树映射,可用于后续的高级任务。
虽然DNN在很多任务上精度达到了空前的水准,然而由于DNN的训练对于现有硬件架构而言挑战巨大,部分算法方面的研究已经从主要关注准确率,逐渐转变为关注算法是否适合硬件实现。对于DNN,模型大小是影响性能、可扩展性和能效的重要因素。重量修剪对网络规模可以实现良好的压缩比,但存在3个明显的缺点:
(1)修剪后的网状结构不规则,影响性能和吞吐量;
(2)训练复杂性增加,很难从头开始训练;
(3)缺乏对压缩比和推理精度的严格保证。为了克服这些局限性,文献[95]提出了CirCNN,一种使用块循环矩阵表示权重和处理神经网络的原理方法。CirCNN利用基于快速傅里叶变换(FFT)的快速乘法,将计算复杂度从O(n2)降低到O(nlogn),并将存储复杂度从O(n2)降低到O(n),精度损失可忽略不计。与其他方法相比,CirCNN由于具有数学严谨性:基于CirCNN的DNN可以收敛到与没有压缩的DNN相同的有效性。值得一提的是,这一工作已经在芯片设计工作上得到验证,文献[96]推出了能效高达140.3TOPS/W神经网络加速器STICKER-T。
4.5 算法电路联合优化
除了算法和电路分立设计之外,一些新兴计算范式要求从设计之初便进行软硬件联合优化。比较有代表性的工作是近似计算和模拟计算。在模拟域进行神经网络运算,可以使用大规模并行模拟信号处理电路实现超高效计算,可以显著降低ADC的代价。AICNN作为一种作为设计实现,与CPU相比,实现了67000倍的能效提升,精度损失小于1%[97]。
此外,为了高精度地保存模拟运算中的数据,一些高线性度的模拟buffer也被设计出来[98]。但对于模拟技术来说,工艺偏差可能导致模拟神经网络(analogneuralnetwork,ANN)处理器的精度损失和良率降低。文献[99]提出了一种系统级的迁移学习方法,以降低工艺偏差对精度的影响,如图8所示。
该方法可以提高50%的工作点漂移容差和70%~100%的失配容差容忍度,精度损失小于1%。与传统的全精度(32位浮点)训练系统相比,它还减少了66.7%的存储代价,并且将乘法效率提高了约50倍。针对SIFT算法中常见的高斯滤波器,某些工作采用电阻网络实现了这一功能,处理速度提高了20倍[100-102]。
此外,针对语音信号的梅尔倒频谱系数(Melfrequencycepstralcoefficient,MFCC)特征提取,文献[103]提出了全新的处理流程:先在模拟域进行了相关运算,然后用滤波器提取出各个频段的信号,再进行模数转换。这一新流程与传统方法相比,降低了97.2%的功耗,同时运算速度提高了6.4倍。
由于很多工作已经证明,神经网络、图[像104处-10理9]等应用算法具有强大的容错能力,自然地,近似计算被引入相关研究中[104-109]。一方面,研究人员设计了很多近似算子,如近似乘法器、近似加法器等,来实现可容错计算中的低功耗。文献[111]通过引入对数运算进行高能效的近似乘法运算,取得了不错的效果。另一方面,不少工作集中于近似存储的设计,如降低比特位数、降低静态随机存取存储器(staticrandom-accessmemory,SRAM)供电电压等。
由于近似计算的精度与算法、数据分布强相关,因此高效的应用级仿真平台也受到关注。文献[117]针对近似算子、比特位宽截断等网络近似化处理,构建了一个高效快速可配置的仿真平台,并且还提出了重训练的方法来弥补精度损失。此外,计算机被视为广义的近似计算,但其数学严谨性非常完备,因此受到了研究人员的亲睐[118]。
总结与展望
传统的感知系统各个模块分立设计,忽略了系统整体优化的潜力;对于某些应用,如事件驱动型应用,处理了大量无用载荷,增加了设计难度和使用成本。边缘智能将机器学习等智能感知算法部署到网络边缘侧的终端,放松了对某些指标的要求,设计难度和成本也会下降。持续感知的特点减少了维护费用,给传感器增加了部署智能应用的可能性,减少了云端处理负载与边缘和云端通信的代价。
同时,这一技术也带来了新的设计挑战:功耗优化、定制化设计的困难、设计边界探索、安全性问题。为此,目前研究人员正在从传感器优化与集成处理模块设计、电路定制化与新器件的使用、架构创新与探索、算法精度与硬件友好性优化、软硬件联合设计等几个维度进行工作,以期为各种应用和场景的持续感知需求找到合适的解决方案。
来源:李桂宏, 乔飞. 面向边缘智能设备的持续感知集成电路与系统[J]. 微纳电子与智能制造, 2019, 1(2): 47-61.
LI Guihong,QIAO Fei. Continuous perception integrated circuits and systems for edge-computing smart devices[J]. Micro/nano Electronics and Intelligent Manufacturing, 2019, 1 (2): 47-61.
《微纳电子与智能制造》刊号:CN10-1594/TN
主管单位:北京电子控股有限责任公司
主办单位:北京市电子科技科技情报研究所
北京方略信息科技有限公司
未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。
如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”