Spark是目前相当火热的开源计算框架,相对于Hadoop,Spark优势是高性能和易用性。Spark的高性能源于其采用内存储存数据,应用可以以内存的速度进行运算;Spark的易用性在于通用的API,用户可以编写复杂的并行计算程序,使之看上去就像串行程序。这也使得Spark程序更容易开发和读懂。由于其高性能,Spark已成为机器学习的重要工具。日前,IBM宣布加入Spark社区,并与Spark的核心贡献公司Databricks合作。那么IBM将如何与社区进行合作,其自身又在Spark、大数据及机器学习领域有哪些计划?InfoQ受邀与IBM进行交流,并对以上问题进行了解读。
\\IBM对社区的贡献和对未来的规划
\\IBM大中华区大数据与分析事业部总经理钟泽敏表示,在美国的旧金山研究室有一个Spark的技术中心,有超过200位的技术人员在Spark技术中心里工作。技术中心主要的功能是把Spark的技术应用在一些企业级应用场景中,这解决了开源的另一个问题。Databricks CEO Ion Stoica表示,考虑到IBM在Spark研发方面的投入,非常期待IBM成为Spark的核心贡献者。
\\IBM大中华区大数据与分析事业部数据平台方案总经理刘胜利认为,IBM在全球的研发分为两大类,第一类叫Reserch,第二类是Develop,这两类的工作性质还是非常不同的。Reserch就是研究,他们专注研究先进的、超前的技术的前期的研发。而SystemML是IBM研发了超过十年的机器学习技术。沃森(Watson)在几年前的大型活动里,整合了很多SystemML机器学习的功能。
\\他表示,IBM与Databricks合作,是希望把SystemML的功能输送给Spark,让Spark具有更强大的机器学习能力,让数据科学家专注于算法,而不是一些简单的、细节的技术本身。
\\Databricks计划开发一个机器学习框架MLbase,这与IBM的SystemML是什么关系,双方的合作如何互补呢?IBM大中华区软件架构师总监、IBM技术科学院委员林旭光认为,SystemML其实并不是提供算法,它其实是提供一个定义的机制,可以让Data Center定义自己的算法。刘胜利表示,SPSS提供了很多和ML Lab相似的算法,并且比后者算法更多。“我们看到ML Lab的算法有局限性。”举个例子,一个专卖店会收集一些他的客户办的卡,这个卡会记录客户到他那买过什么样的东西。那么下一步专卖店对客户进行促销,首先要对客户进行分群,但是算法本身并不能解决分群的问题。还有很多行业的知识,比如对用户画像和智能推荐等。IBM可能在这方面有更强的东西,算法本身是标准化的。比如说你要分群客户是用二叉树算法、神经元网络算法还是哪个算法,这在实际操作中是有一些经验可循的。
\\那么IBM会以什么样的方式与节奏节奏,拿出多少”干货”与社区共享自己在机器学习等方面的技术呢?IBM大中华区大数据分析平台销售总监洪建勋表示,“我们做了一件很关键的事情,如何把从企业级市场得到的客户需求跟最新的技术有效的衔接起来?这点是IBM一直致力于在做的很重要的事情。同时,新技术很多,可能出现孤岛,我们能够让新的技术为企业真正融合,把这些所谓的单点和孤岛全部连接起来打通,把原来可能存在的问题尽可能地减少。”
\\毫无疑问,IBM对企业应用的理解是众多互联网公司无法比拟的,这种经验和理解是否能成为指导社区发展的力量呢?洪建勋认为,以Hadoop发展那么多年的经验看,Hadoop社区尽管规模很大,但是新的组件一直在涌现。重点技术一直有变化,而IBM这种企业级IT厂商有很多新的经验。“这也是成立ODP的价值,你可以在ODP中看到很多老的IT公司,为开放平台贡献自己的思想,为企业级客户服务。”
\\IBM培养Spark技术人才
\\钟泽敏透露,IBM已经开办免费的课程,预计在第三季度就会更新第二批免费的课程。与Databricks、AMPlab合作培养数据科学家。
\\此外,IBM去年宣布投资1亿美金,在中国推动”U100”计划,后来又推出了”A100“(百企大数据)计划,跟国内商学院一起培养学生。该项目由香港中文大学、对外经贸大学、西南交大联合发起,集合约50所商学院,IBM到学校里实地去帮老师和学生做数据挖掘、数据清洗。其中用到的工具、解决方案都由IBM提供。这个价值对于商学院,从老师到教育体系的改革,再到人才培养,都非常重要。事实上已有很多项目已经出了成果,这些研究项目都是非常有实际意义的。目前,IBM在大数据的投入已经超过250亿美元。
\\为什么是Open Data Platform?
\\Open Data Platform是众多IT巨头企业联合成立的开放数据平台。刘胜利表示,对于大部分企业用户,开源了并不是意味着大家可以直接用。“我们希望大家在使用Hadoop的时候不再局限于有限的厂商”,所以在开源之上又推出了开放数据平台。希望在选择开放数据平台里这些核心部件的时候,大家选用公共的、统一的这些代码。那么,使用这样一个开放的数据平台,就不再受限于某一家的开源代码,既利用了开源的好处,同时又让企业用户不再被厂家束缚。
\\钟泽敏表示,IBM还是注重在企业级应用。包括SQL、R语言以及数据分析都是IBM的优势。刘胜利认为,IBM做分析挖掘的语言以及SQL关系型数据库已有30多年的历史,有大量的优化技术。另外,SPSS的许多预测分析产品的算法也可以和Spark结合,因为SPSS使Spark上可以处理的数据量、处理的速度、处理的能力都得到了极大的提升。特别是SPSS最大的研发实验室在中国,有一大堆数学科学家在研究算法。
\\林旭光补充道,有些客户反馈说,用了一些厂家的开源组件之后,没办法迁移到别的平台上去,虽然产品也是开源的。这是因为这些开源产品只有几家公司或很小的群体在支持。基于此,做Open Data Platform一个很重要的目标就是,IBM用的只是开源的组件,并且都是可迁移的。
\\未来IBM会陆续推出Spark系列产品,包括Watson Analytics、DataWorks、PuerData一体机,以及一些方案和正在孵化的项目。
\\感谢魏星对本文的审校。
\\给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ,@丁晓昀),微信(微信号:InfoQChina)关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入InfoQ读者交流群)。