戳蓝字“CSDN云计算”关注我们哦!
作者:刘晶晶
针对用户需要优化传统云主机框架却无从下手的现实情况,金山云携手英特尔打造出了AI as a Service这种全新解决方案,据说能将软硬件优势很大程度发挥出来,如此“神仙级解决方案”究竟内藏什么玄机?快来了解一下!
当看到英特尔和金山云联合打造了一种“AI as a Service”新解决方案的时候,阿晶不免吃惊又有点儿小迷糊。
如今我们发现,云计算和AI在越来越多的领域相遇之后,各种“即服务”绝对是雨后春笋、层出不穷。为了保障自身在激烈的企业级竞争中处于优势地位,大家似乎纷纷寻求可以将AI集成在自身应用的产品,简单又流行且基于云的AI产品与服务(AIaaS)新解决方案就这么猝不及防地诞生啦!
“平台”与“优化”被圈定为关键词
有一点可以肯定的是,金山云在业务体系中早已“配置”了AI方面的技术团队,关于这点,在与金山云计算研发总监杨峰的交谈中也得到了证实。如果要进一步比较“AI as a Service”与其AI 技术的差异,恐怕就是应用层(可以给用户提供图像识别、人脸识别为代表的应用等优化服务)与平台层的区别了,同时这也成为“AI as a Service”的“特立独行”之处。
图片来源网络
正如杨峰对阿晶等在场记者所言,对于“AI as a Service”来说,金山云计算业务方面主要提供底层平台的支持,例如云主机、云服务器等,这种支持以及优化主要集中在平台本身,不是用户操作系统或者应用层面的优化,例如硬件的更新等。“此外,还会在此基础上完成一些解决方案的提供,例如针对某个操作系统预装一个应用软件进行优化等,但这种范围内的支持与优化工作并不局限于AI。”
更重要的一点,我觉得,大部分对AI 有诉求的企业不是希望平台层有超乎想象的业务处理能力,就是寄托在应用解决方案的角度被提供更好的选择,金山云与英特尔这波“AI as a Service”新解决方案正好属于前者。如今,通过此类优化方案来突出自身的优势,并在风起云涌的AI浪潮中增加一项“技能”,可谓明智之举。
聊毕“AI as a Service”的平台属性,据阿晶进一步了解,“AI as a Service”新解决方案的点子其实主要来源于一种优化思想。
作为密切的合作伙伴,英特尔技术对此表示:“从我们的角度出发,不同的应用场景肯定会出现差异性的需求,但在具体的操作过程中针对框架优化的问题是个困难之处。简单来说‘机器通常都很强悍,但没有经过优化的话这些机器工作起来的效果可能还是不尽如人意,所以尝试开发一套固定的实例,将可以前期完成的优化都预制到云主机上,用户使用无需重新安装以及配制,其中的性能就可以达到几倍甚至几十倍的提升。”同时,在英特尔看来,单纯硬件层面的提升能给性能带来一个数量级的提升,但如果能够结合硬件和软件组合进行提升,将会直接带来两个以上数量级的提升。因此,在追求优化目标的基础上,基于金山云主机,增强软件优化,寻求通用性能解决,是英特尔此次尝试的重要出发点。
关于“AI as a Service”新解决方案的源起,其实早在今年4月,金山云在同英特尔方面交流的过程中就提到,基础平台具备的前提下,用户针对平台基础上的优化其实是比较欠缺的。“如果将英特尔相关技术加入平台其中,即针对TensorFlow、Caffe这两个软件框架,使用最新至强平台上的AVX-512指令去做软件优化,相比之前有很大的系统集成性,用户就可以更关注业务层面的逻辑,未来以这种方式推出的新服务类型,可以被称为是AI增强,最终可以给客户带来成本的降低以及效率的提升。”杨峰说。
听过杨峰的总结,我认为该服务或者说解决方案,可以在本质上被认同是一种优化的、增强型服务,使用该服务之后无需关注协议、框架之类的基础优化工作,而是可以做到将企业精力聚焦到业务本身的功能和稳定性上,提高效率并有效降低成本。
为何选择TensorFlow以及Caffe?
群聊中,通过翻看关于“AI as a Service”的背景资料,即“基于最新发布的英特尔第二代至强可扩展处理器,金山云在其三代云主机中安装了针对至强可扩展处理器优化过的TensorFlow和Caffe,打造了基于英特尔架构的AI解决方案,显著加速AI运算过程,尤其是加速深度学习的推理过程,获得了在英特尔®至强®可扩展处理器上最佳的运行性能”的表述,我果断注意到“TensorFlow和Caffe”等热词,或许你和阿晶一样存在疑问:这种神一般的优化只限于TensorFlow以及Caffe吗?
关于此类问题,好伙伴英特尔表示有话要说。“我们针对AI 方面的优化,原则上是所有CPU都适用的。具体操作会在硬件层面加入一个加速库,名为MKL-DNN,这是专门为深度学习加速的,而且是开源的。有了底层的硬件,再配齐数学加速库之后,上面一层就是各种各样的开源框架,包括TensorFlow和Caffe,当然也同时包括其他的一些目前来看可能使用率比较低的框架。”
之所以在金山云的云主机上选择TensorFlow和Caffe,英特尔表示主要是根据用户需求来选定的,毕竟这两个框架在使用率上比较高。“未来我们的合作服务中,针对丰富的客户反馈和多元化的应用场景,当然还会加入更多的开源框架,这是一个长期持续性的过程,但不变的是我们的最终目标就是将平台能力更好地释放出来,最终实现强强组合。”
此外,英特尔与金山云合作由来已久,且英特尔跟金山云的合作是全方面的,还涵盖金山云的基础的云平台、大数据、PaaS平台,包括在上面的CDN、视频云等等。但其实除了金山云之外,有很多互联网公司甚至是其他性质的企业都积极倡导自身具有AI能力。但依照过往的经验来看,就算是体量很大的企业也不一定知道框架如何被优化来更好地发挥功能,所以对两家企业来讲真正满足用户需要是关键,对此金山云方面也表示高度认同。如此看来这套服务是不针对具体的企业性质以及体量有明确的指向性了。
关于未来,哪些升级迭代还值得期待?
关于该服务的技术升级,想必是很多开发者与企业着重关注的,对此阿晶特别整理了群聊中双方的表达,供大家参考,是否有惊喜?
英特尔技术方面:简单来说,英特尔会继续深化与金山云的合作,基于最新发布的第二代至强可扩展处理器,我们会引入一个新的指令叫VNNI,来源于英特尔为深度学习专门做的一系列加速指令集-英特尔Deep Learning Boost (DL Boost)。
所谓的VNNI,就是在AI上,除了现在使用的单精度浮点数这种支持运算之外,还会做8位INT数据的运算,这一点会在非常多的深度学习的模型上对模型做一个转化优化。
转化优化之后,它的吞吐量会有直观效果的提升,例如图片处理,每秒处理多少张图片会有非常大的性能提升;再比如说用单精度浮点数,原本每秒只能处理100张,当通过VNNI指令加速之后有可能做到处理200多张甚至是300张,当然依照不同的模型会有不同程度的增强。
同时,无论是往后的CPU,抑或明年的Cooper Lake、Ice Lake,VNNI都会进行兼容支持。这也是英特尔坚持建立一个非常庞大的软件生态的原因,我们一直向下兼容,保证用户开发的程序在新的硬件平台上同样可以运行,同时我们也会在软件生态方面同步优化、迭代,为客户提供更好的计算能力。
接下来在Cascade Lake上,通过金山云这样一个紧密的合作伙伴,通过云主机的方式,会参照其他提供应用层需求方面,积极配合做很多优化,例如Cascade Lake上支持VNNI,客户使用起来会有更高的性价比表现。
此外,整体的成熟上线也是一个过程:第一批先匹配的是Skylake,就是第一代至强可扩展处理器;第二代至强可扩展处理器也会随着整个金山云的规模的上线去做相应的优化匹配等,更重要的一点是客户需求可以加速升级过程。从云平台角度来讲,能够把这个能力整体释放出来,包括稳定性、性能等,可以看到还有很多工作要做。
金山云计算研发总监杨峰:从硬件角度来说,我们持续跟进并引入新硬件;从软件角度来说,我们要适配这个硬件,例如Skylake,增加了AVX-512这个指令集,我们自己的服务也要进行适配,能够让客户看到并使用这个AVX-512指令集,要把这个能力释放给用户,并有显著效果。
引用一段IDC的研究资料作为结尾:据了解截止到2021年,全球企业们对AI系统的支出将保持50.1%的年复合增长率,这说明企业对此类技术的总支出将会从2017年的120亿美元增加到2021年的576亿美元。此外值得注意的一点,这些支出中有很大一部分将用于基于云的AI服务。结论很显然,企业对AIaaS产生了需求,而云服务商也对此做出了积极回应,这也充分说明,类似于金山云与英特尔的“强强联手”将会进入一个前所未有的丰富期。
福利
扫描添加小编微信,备注“姓名+公司职位”,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!
推荐阅读:
一场全能的开发者大会,来自助力开发者成功进阶的华为云
抖音微博等短视频千万级高可用、高并发架构如何设计?
20大5G关键技术
Fast.ai:从零开始学深度学习 | 资源帖
10个简单小窍门带你提高Python数据分析速度(附代码)
程序员爬取 3 万条评论,《长安十二时辰》槽点大揭秘!
暗网竟成比特币最大用户? 上半年5.15亿美元被用于非法活动
真香,朕在看了!