来源:文汇网 作者:许琦敏、郭超豪
峰值功耗不超过110瓦,等效理论峰值速度可达每秒166.4万亿次定点运算。寒武纪科技在上海发布了中国第一款云端智能芯片——Cambricon MLU100芯片和板卡产品、寒武纪1M终端智能处理器IP产品。联想、曙光和科大讯飞作为寒武纪的合作伙伴同时发布了基于寒武纪芯片的应用产品。
作为一家国际智能芯片领域的先行者,在人工智能大爆发的前夜,寒武纪科技又一次带来了新突破,也在它“引领人类社会从信息时代迈向智能时代,做支撑智能时代的伟大芯片公司”的理想之路上迈进了一步。值得一提的是,MLU100云端智能芯片是上海寒武纪百名科研人员历时近2年的研发成果。
由端入云,寒武纪树立AI芯片新标杆
这场发布会的焦点是首次正式亮相的Cambricon MLU100云端智能芯片。
▲寒武纪芯片发布会现场
MLU100采用寒武纪最新的MLUv01架构和TSMC 16nm的先进工艺,可工作在平衡模式(1GHz主频)和高性能模式(1.3GHz主频)下,平衡模式下的等效理论峰值速度达每秒128万亿次定点运算,高性能模式下的等效理论峰值速度更可达每秒166.4万亿次定点运算,但典型板级功耗仅为80瓦,峰值功耗不超过110瓦。
与寒武纪系列终端处理器一样,MLU100云端芯片仍然延续了寒武纪产品一贯出色的通用性,可支持各类深度学习和经典机器学习算法,充分满足视觉、语音、自然语言处理、经典数据挖掘等领域复杂场景下(如大数据量、多任务、多模态、低延时、高通量)的云端智能处理需求。
MLU100的板卡使用PCIe接口,其外形设计灵感来自于寒武纪地质时代的远古海洋生物三叶虫,以黑色、蓝色为主色调,简洁而富有科技感。
值得一提的是,MLU100云端智能芯片是上海寒武纪历时近2年研发的成果,是上海智慧的结晶。寒武纪于2016年4月在上海临港落地,专注于云端智能芯片的研发和销售。目前,上海寒武纪的芯片研发人员已达百人规模,在临港和张江分别设有办公室,并依托上海脑智工程设立了院士工作站开展前瞻学术研究。寒武纪创始人陈天石博士曾获上海市五四青年奖章、上海市浦东新区十大杰出青年等荣誉。未来上海寒武纪将继续依托上海集成电路和人工智能行业的人才集聚、产业集聚的优势,与国内外的上下游企业携手共进,力争为世界智能产业打造先进的基础芯片技术和产品。
端云协作,三代IP发力“智能生态”
这次最新发布的寒武纪1M,则是该公司的第三代IP产品,在TSMC 7nm工艺下8位运算的效能比达5Tops/watt (每瓦5万亿次运算),提供三种规模的处理器核(2Tops/4Tops/8Tops)以满足不同应用场景下不同量级的智能处理需求,并可通过多核互联进一步提高性能。
▲陈天石博士
2016年,寒武纪推出的第一代终端智能处理器IP产品寒武纪1A是全球第一款商用终端智能处理器IP产品,已经应用于千万级智能终端中(包括华为Mate10、P20和荣耀10等手机)。
寒武纪1M处理器延续了寒武纪前两代IP产品(寒武纪1H/1A)卓越的完备性,单个处理器核即可支持CNN、RNN、SOM等多样化的深度学习模型,并更进一步支持SVM、k-NN、k-Means、决策树等经典机器学习算法,支持本地训练,为视觉、语音、自然语言处理以及各类经典的机器学习任务提供了灵活高效的计算平台,将广泛应用于智能手机、智能音箱、智能摄像头、智能驾驶等不同领域当中。
寒武纪终端和云端产品均原生支持寒武纪NeuWare软件工具链,可以方便地进行智能应用的开发,迁移和调优。
▲发布会现场。(谢震霖摄)
陈天石博士表示,寒武纪创立的初衷就是要让全世界都能用上智能处理器。寒武纪将秉承学术界开放、协作的精神,以处理器IP授权的形式与全世界同行共享寒武纪最新的技术成果,使全球客户能够快速设计和生产具备人工智能处理能力的芯片产品。
寒武纪在技术上贯彻“端云协作”的理念,这次发布的MLU100云端芯片,不仅可独立完成各种复杂的云端智能任务,更可以与寒武纪1A/1H/1M系列终端处理器完美适配,让终端和云端在统一的智能生态基础上协同完成复杂的智能处理任务。
寒武纪生态爆发,产业伙伴展示芯片相关应用
在陈天石博士的主旨演讲之后,寒武纪的部分产业伙伴公开展示了基于寒武纪芯片的应用方案。
联想集团于今日的发布会上推出了基于Cambricon MLU100智能处理卡的ThinkSystem SR650,打破了37项服务器基准测试的世界记录。该产品为2U2路机架式规格,支持2个MLU100智能处理卡。这款云端智能服务器的面世将全面支撑起联想客户在机器学习/VDI/虚拟化/云/数据库/分析/SAP等方向上的业务需求。
▲陈天石与他的导师陈国良院士共同发布新产品
中科曙光也在今日的发布会上同步推出了基于Cambricon MLU100智能处理卡的服务器产品系列“PHANERON”。
PHANERON系列于2017年11月面世,基于寒武纪此前公布的一款原型测试芯片。而此次发布的“PHANERON”新品跟随MLU100智能加速卡的发布进行了同步升级,性能更为强劲,可以支持2-10块寒武纪MLU处理卡,灵活应对不同的智能应用负载。
以升级版的PHANERON-10为例,单台服务器可集成10片寒武纪人工智能处理单元,可以为人工智能训练应用提供832T半精度浮点运算能力,为推理应用提供1.66P整数运算能力,典型场景下的能效提升30倍以上。此外,中科曙光还披露了人工智能管理平台SothisAI,可以与寒武纪的芯片及其开发环境实现无缝对接、深度融合。
智能语音应用的领头羊科大讯飞公司也在今日的发布会上披露了与寒武纪芯片的深度合作研发项目。根据介绍,一小时的语音数据在一个传统处理器上进行智能应用处理,需要一万小时才能完成,因此科大讯飞一直在跟踪人工智能专用芯片的前沿进展。早在2014年,科大讯飞就开始与寒武纪的早期研究团队开始沟通相关语音算法在处理器上的实现,并于2016年的天使轮注资寒武纪,2017年开始在寒武纪芯片上进行应用测试。
科大讯飞于发布会上披露的测试结果表明,寒武纪的智能处理器在语音智能处理上交出了优异的答卷,能耗效率领先竞争对手的云端GPU方案达5倍以上。寒武纪智能处理器的强大处理能力使得手机本地端可以处理更加复杂的机器学习算法,使得语音本地识别准确率相对于传统处理器领先了9.8%,显著提高了用户体验。
未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。
未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。
如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”