IBM如何拥抱Spark

Spark是目前相当火热的开源计算框架，相对于Hadoop，Spark优势是高性能和易用性。Spark的高性能源于其采用内存储存数据，应用可以以内存的速度进行运算；Spark的易用性在于通用的API，用户可以编写复杂的并行计算程序，使之看上去就像串行程序。这也使得Spark程序更容易开发和读懂。由于其高性能，Spark已成为机器学习的重要工具。日前，IBM宣布加入Spark社区，并与Spark的核心贡献公司Databricks合作。那么IBM将如何与社区进行合作，其自身又在Spark、大数据及机器学习领域有哪些计划？InfoQ受邀与IBM进行交流，并对以上问题进行了解读。

IBM对社区的贡献和对未来的规划

IBM大中华区大数据与分析事业部总经理钟泽敏表示，在美国的旧金山研究室有一个Spark的技术中心，有超过200位的技术人员在Spark技术中心里工作。技术中心主要的功能是把Spark的技术应用在一些企业级应用场景中，这解决了开源的另一个问题。Databricks CEO Ion Stoica表示，考虑到IBM在Spark研发方面的投入，非常期待IBM成为Spark的核心贡献者。

IBM大中华区大数据与分析事业部数据平台方案总经理刘胜利认为，IBM在全球的研发分为两大类，第一类叫Reserch，第二类是Develop，这两类的工作性质还是非常不同的。Reserch就是研究，他们专注研究先进的、超前的技术的前期的研发。而SystemML是IBM研发了超过十年的机器学习技术。沃森（Watson）在几年前的大型活动里，整合了很多SystemML机器学习的功能。

他表示，IBM与Databricks合作，是希望把SystemML的功能输送给Spark，让Spark具有更强大的机器学习能力，让数据科学家专注于算法，而不是一些简单的、细节的技术本身。

Databricks计划开发一个机器学习框架MLbase，这与IBM的SystemML是什么关系，双方的合作如何互补呢？IBM大中华区软件架构师总监、IBM技术科学院委员林旭光认为，SystemML其实并不是提供算法，它其实是提供一个定义的机制，可以让Data Center定义自己的算法。刘胜利表示，SPSS提供了很多和ML Lab相似的算法，并且比后者算法更多。“我们看到ML Lab的算法有局限性。”举个例子，一个专卖店会收集一些他的客户办的卡，这个卡会记录客户到他那买过什么样的东西。那么下一步专卖店对客户进行促销，首先要对客户进行分群，但是算法本身并不能解决分群的问题。还有很多行业的知识，比如对用户画像和智能推荐等。IBM可能在这方面有更强的东西，算法本身是标准化的。比如说你要分群客户是用二叉树算法、神经元网络算法还是哪个算法，这在实际操作中是有一些经验可循的。

那么IBM会以什么样的方式与节奏节奏，拿出多少”干货”与社区共享自己在机器学习等方面的技术呢？IBM大中华区大数据分析平台销售总监洪建勋表示，“我们做了一件很关键的事情，如何把从企业级市场得到的客户需求跟最新的技术有效的衔接起来？这点是IBM一直致力于在做的很重要的事情。同时，新技术很多，可能出现孤岛，我们能够让新的技术为企业真正融合，把这些所谓的单点和孤岛全部连接起来打通，把原来可能存在的问题尽可能地减少。”

毫无疑问，IBM对企业应用的理解是众多互联网公司无法比拟的，这种经验和理解是否能成为指导社区发展的力量呢？洪建勋认为，以Hadoop发展那么多年的经验看，Hadoop社区尽管规模很大，但是新的组件一直在涌现。重点技术一直有变化，而IBM这种企业级IT厂商有很多新的经验。“这也是成立ODP的价值，你可以在ODP中看到很多老的IT公司，为开放平台贡献自己的思想，为企业级客户服务。”

IBM培养Spark技术人才

钟泽敏透露，IBM已经开办免费的课程，预计在第三季度就会更新第二批免费的课程。与Databricks、AMPlab合作培养数据科学家。

此外，IBM去年宣布投资1亿美金，在中国推动”U100”计划，后来又推出了”A100“（百企大数据）计划，跟国内商学院一起培养学生。该项目由香港中文大学、对外经贸大学、西南交大联合发起，集合约50所商学院，IBM到学校里实地去帮老师和学生做数据挖掘、数据清洗。其中用到的工具、解决方案都由IBM提供。这个价值对于商学院，从老师到教育体系的改革，再到人才培养，都非常重要。事实上已有很多项目已经出了成果，这些研究项目都是非常有实际意义的。目前，IBM在大数据的投入已经超过250亿美元。

为什么是Open Data Platform？

Open Data Platform是众多IT巨头企业联合成立的开放数据平台。刘胜利表示，对于大部分企业用户，开源了并不是意味着大家可以直接用。“我们希望大家在使用Hadoop的时候不再局限于有限的厂商”，所以在开源之上又推出了开放数据平台。希望在选择开放数据平台里这些核心部件的时候，大家选用公共的、统一的这些代码。那么，使用这样一个开放的数据平台，就不再受限于某一家的开源代码，既利用了开源的好处，同时又让企业用户不再被厂家束缚。

钟泽敏表示，IBM还是注重在企业级应用。包括SQL、R语言以及数据分析都是IBM的优势。刘胜利认为，IBM做分析挖掘的语言以及SQL关系型数据库已有30多年的历史，有大量的优化技术。另外，SPSS的许多预测分析产品的算法也可以和Spark结合，因为SPSS使Spark上可以处理的数据量、处理的速度、处理的能力都得到了极大的提升。特别是SPSS最大的研发实验室在中国，有一大堆数学科学家在研究算法。

林旭光补充道，有些客户反馈说，用了一些厂家的开源组件之后，没办法迁移到别的平台上去，虽然产品也是开源的。这是因为这些开源产品只有几家公司或很小的群体在支持。基于此，做Open Data Platform一个很重要的目标就是，IBM用的只是开源的组件，并且都是可迁移的。

未来IBM会陆续推出Spark系列产品，包括Watson Analytics、DataWorks、PuerData一体机，以及一些方案和正在孵化的项目。

感谢魏星对本文的审校。

给InfoQ中文站投稿或者参与内容翻译工作，请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博（@InfoQ，@丁晓昀），微信（微信号：InfoQChina）关注我们，并与我们的编辑和其他读者朋友交流（欢迎加入InfoQ读者交流群）。