12月15日,光子计算芯片公司曦智科技(Lightelligence)发布了其最新高性能光子计算处理器:PACE(Photonic Arithmetic Computing Engine,光子计算引擎)。该处理器单个光子芯片中集成超过10,000个光子器件,运行1GHz系统时钟,运行特定循环神经网络速度可达目前高端GPU数百倍。
曦智科技创始人兼CEO沈亦晨博士在MIT(麻省理工学院)的主要研究方向便是光子AI计算,并与Nicholas Harris一起在2017年《自然-光学》发表论文(Deep learning with coherent nanophotonic circuits),。谈到将光路应用于机器学习任务,比如语音和图像识别。他们的设计被评为“代表了使用光的神经网络最关键构建块之一的真正并行实现,现代代工厂可以轻松地批量制造这种类型的光子系统。”这意味着芯片的光子计算机可能会成为一个市场巨大的业务,每个要使用神经网络进行决策的设备都会用到一个光子计算机。
而后便创立了曦智科技,与MIT的朋友、师长一起组成了创始团队,主要精力都集中在科研成果的转化上。至今4年多的时间里,一步一步将这项技术从最初的实验室,转化到一个接近于可以商业量产的阶段。
沈亦晨表示,自2012年后,神经网络的大小和计算模型的大小出现了爆炸式的增长。2012年以后,平均每3到4个月,计算模型的大小就会翻一倍。和2012年相比,我们现在最大的神经网络的模型大概是当时的15到30万倍左右,目前模型的增长还在持续,但是明显受制于算力底层的限制,制约了人工智能的进一步发展。
如今电子芯片发展面临的三个主要瓶颈在于算力、数据传输、存储三个方面。
算力瓶颈主要来源于两方面,第一个方面是摩尔定律。在过去近50年里,晶体管的密度可以每18到20个月翻一倍。这也是大家通常所说的28纳米、12纳米、7纳米、5纳米的支撑。如今已经发展到5纳米的芯片可以量产,台积电日后也会推出3纳米的芯片。从物理角度来讲,其实一个原子大小就有接近0.3纳米,3纳米的制程实际上已经非常接近物理极限,所以纳米的支撑再向前演进也不可能像过去50年那样不断翻倍;第二个算力限制主要是功耗和发热角度。2015年后,随着晶体管越来越小,面临着比较严重的问题,就是晶体管上的隧穿现象。就算晶体管变小了,功耗也不能显著降低,这也是电子芯片进一步提高算力的主要破瓶颈,算力瓶颈直接决定了单位面积电芯片上能做的计算密度,已经很难再提高了。进一步提高算力的唯一办法就是扩大电芯片的面积,但芯片面积越大,在数据传输上的功耗就会显著增长,功耗的比例也会越来越大。这是从本质上制约了我们用一块更大的电芯片去完成算力突破的一个主要原因。
如今用光代替电解决部分计算,成为了突破现有破瓶颈的有效途径。在数据搬运上,光已经在光通信领域充分证明其领先性和优势了。目前所有长距离通信,包括数据中心里服务器和服务器之间的数据都是通过光纤代替铜导线进行的。光进入到芯片去帮助运算是一个必然的方向。
另外,如今大数据、人工智能越来越多都是在做现行计算,曦智科技也发现了用光高校做线性计算的方式。光子芯片的高通量、低功耗、低延时等特点,在未来的计算处理器市场有着广阔的前景。
PACE处理器的结构由光芯片和电芯片两部分组成。电芯片上主要做数据的存储和数模混合的调度,光芯片上主要做数据的计算。最后,光和电芯片会做3D封装技术倒装的堆叠。通过重复矩阵乘法和巧妙利用受控噪声组成的紧密回环来实现低延迟,从而生成伊辛问题(Ising)和最大割 / 最小割问题(Max-cut / Min-cut)的解决方案。
PACE包含64x64的光学矩阵,核心部分由一块集成硅光芯片和一块CMOS微电子芯片以3D封装形式堆叠而成。对于每个光学矩阵乘法,输入向量值首先从片上存储中提取,由数模转换器转换为模拟值,通过电子芯片和光子芯片之间的微凸点应用于相应的光调制器,形成输入光矢量。接着,输入光矢量通过光矩阵传播,产生输出光矢量,并达到一组光电探测器阵列,从而将光强转换为电流信号。最后,电信号通过微凸点返回到电子芯片,通过跨阻放大器和模数转换器返回数字域。测试显示,PACE的运算速度可达目前高端GPU的数百倍。
曦智科技创始人兼首席执行官沈亦晨博士表示:“PACE的发布具有里程碑式的意义:它成功验证了光子计算的优越性,为集成电路产业提供了新的发展路径。此外,它还充分展示了光子芯片与传统电子芯片无缝协同的运作方式,而这一切要归功于曦智科技光电封装团队的3D封装创新。”
在此之前,全世界集成度最高的硅光产品大概只有几个或十几个光器件。为了做光计算,曦智科技需要把集成度提高三到四个数量级,达到几万个光器件,这是在工程层面最大的挑战。如果去设计简单的几个光器件的芯片,还可以手动完成芯片设计。但如果需要放几万个器件在一个芯片上时,所有传统芯片的设计模式可能就都没有办法用了,所有的东西都要做成自动化,需要有一个自动化检测的过程。它在中间涉及到的问题,包括设计本身、任何器件都不能出错。曦智科技相当于从头开发了一个高集成度光芯片的整个设计流程。
另外,封装方式的变化也充满着挑战。传统光芯片的每一个器件的控制都是通过铜导线外接到板卡上面,通过一个外部的器件去控制光芯片上的东西。但当有上万个光器件在芯片上的时候,那些外接的封装方式就没有办法适用,因此必须开发出一种用一块电芯片去控制光芯片的一套3D的封装方式。
还有更进一步,比如说当有几万个光器件和电芯片一起深度协同的时候,发号施令的是电芯,那我们怎么能够同时给上万个光的器件去发号施令,并能够在纳秒的级别让它统一有序地进行运算?这里就涉及到了软硬集成,架构层面的努力,这些都是相当复杂的工程问题,也是沈亦晨团队过去不断在解决的问题。
沈亦晨博士说道:“未来,曦智科技将通过一个高集成、低功耗、不受摩尔定律限制的平台进一步为数据中心、云计算、金融和自动驾驶等领域提供前所未有的算力,让世界因‘光’而不同。”