IBM如何拥抱Spark

Spark是目前相当火热的开源计算框架,相对于Hadoop,Spark优势是高性能和易用性。Spark的高性能源于其采用内存储存数据,应用可以以内存的速度进行运算;Spark的易用性在于通用的API,用户可以编写复杂的并行计算程序,使之看上去就像串行程序。这也使得Spark程序更容易开发和读懂。由于其高性能,Spark已成为机器学习的重要工具。日前,IBM宣布加入Spark社区,并与Spark的核心贡献公司Databricks合作。那么IBM将如何与社区进行合作,其自身又在Spark、大数据及机器学习领域有哪些计划?InfoQ受邀与IBM进行交流,并对以上问题进行了解读。

\\

IBM对社区的贡献和对未来的规划

\\

IBM大中华区大数据与分析事业部总经理钟泽敏表示,在美国的旧金山研究室有一个Spark的技术中心,有超过200位的技术人员在Spark技术中心里工作。技术中心主要的功能是把Spark的技术应用在一些企业级应用场景中,这解决了开源的另一个问题。Databricks CEO Ion Stoica表示,考虑到IBM在Spark研发方面的投入,非常期待IBM成为Spark的核心贡献者。

\\

IBM大中华区大数据与分析事业部数据平台方案总经理刘胜利认为,IBM在全球的研发分为两大类,第一类叫Reserch,第二类是Develop,这两类的工作性质还是非常不同的。Reserch就是研究,他们专注研究先进的、超前的技术的前期的研发。而SystemML是IBM研发了超过十年的机器学习技术。沃森(Watson)在几年前的大型活动里,整合了很多SystemML机器学习的功能。

\\

他表示,IBM与Databricks合作,是希望把SystemML的功能输送给Spark,让Spark具有更强大的机器学习能力,让数据科学家专注于算法,而不是一些简单的、细节的技术本身。

\\

Databricks计划开发一个机器学习框架MLbase,这与IBM的SystemML是什么关系,双方的合作如何互补呢?IBM大中华区软件架构师总监、IBM技术科学院委员林旭光认为,SystemML其实并不是提供算法,它其实是提供一个定义的机制,可以让Data Center定义自己的算法。刘胜利表示,SPSS提供了很多和ML Lab相似的算法,并且比后者算法更多。“我们看到ML Lab的算法有局限性。”举个例子,一个专卖店会收集一些他的客户办的卡,这个卡会记录客户到他那买过什么样的东西。那么下一步专卖店对客户进行促销,首先要对客户进行分群,但是算法本身并不能解决分群的问题。还有很多行业的知识,比如对用户画像和智能推荐等。IBM可能在这方面有更强的东西,算法本身是标准化的。比如说你要分群客户是用二叉树算法、神经元网络算法还是哪个算法,这在实际操作中是有一些经验可循的。

\\

那么IBM会以什么样的方式与节奏节奏,拿出多少”干货”与社区共享自己在机器学习等方面的技术呢?IBM大中华区大数据分析平台销售总监洪建勋表示,“我们做了一件很关键的事情,如何把从企业级市场得到的客户需求跟最新的技术有效的衔接起来?这点是IBM一直致力于在做的很重要的事情。同时,新技术很多,可能出现孤岛,我们能够让新的技术为企业真正融合,把这些所谓的单点和孤岛全部连接起来打通,把原来可能存在的问题尽可能地减少。”

\\

毫无疑问,IBM对企业应用的理解是众多互联网公司无法比拟的,这种经验和理解是否能成为指导社区发展的力量呢?洪建勋认为,以Hadoop发展那么多年的经验看,Hadoop社区尽管规模很大,但是新的组件一直在涌现。重点技术一直有变化,而IBM这种企业级IT厂商有很多新的经验。“这也是成立ODP的价值,你可以在ODP中看到很多老的IT公司,为开放平台贡献自己的思想,为企业级客户服务。”

\\

IBM培养Spark技术人才

\\

钟泽敏透露,IBM已经开办免费的课程,预计在第三季度就会更新第二批免费的课程。与Databricks、AMPlab合作培养数据科学家。

\\

此外,IBM去年宣布投资1亿美金,在中国推动”U100”计划,后来又推出了”A100“(百企大数据)计划,跟国内商学院一起培养学生。该项目由香港中文大学、对外经贸大学、西南交大联合发起,集合约50所商学院,IBM到学校里实地去帮老师和学生做数据挖掘、数据清洗。其中用到的工具、解决方案都由IBM提供。这个价值对于商学院,从老师到教育体系的改革,再到人才培养,都非常重要。事实上已有很多项目已经出了成果,这些研究项目都是非常有实际意义的。目前,IBM在大数据的投入已经超过250亿美元。

\\

为什么是Open Data Platform?

\\

Open Data Platform是众多IT巨头企业联合成立的开放数据平台。刘胜利表示,对于大部分企业用户,开源了并不是意味着大家可以直接用。“我们希望大家在使用Hadoop的时候不再局限于有限的厂商”,所以在开源之上又推出了开放数据平台。希望在选择开放数据平台里这些核心部件的时候,大家选用公共的、统一的这些代码。那么,使用这样一个开放的数据平台,就不再受限于某一家的开源代码,既利用了开源的好处,同时又让企业用户不再被厂家束缚。

\\

钟泽敏表示,IBM还是注重在企业级应用。包括SQL、R语言以及数据分析都是IBM的优势。刘胜利认为,IBM做分析挖掘的语言以及SQL关系型数据库已有30多年的历史,有大量的优化技术。另外,SPSS的许多预测分析产品的算法也可以和Spark结合,因为SPSS使Spark上可以处理的数据量、处理的速度、处理的能力都得到了极大的提升。特别是SPSS最大的研发实验室在中国,有一大堆数学科学家在研究算法。

\\

林旭光补充道,有些客户反馈说,用了一些厂家的开源组件之后,没办法迁移到别的平台上去,虽然产品也是开源的。这是因为这些开源产品只有几家公司或很小的群体在支持。基于此,做Open Data Platform一个很重要的目标就是,IBM用的只是开源的组件,并且都是可迁移的。

\\

未来IBM会陆续推出Spark系列产品,包括Watson Analytics、DataWorks、PuerData一体机,以及一些方案和正在孵化的项目。

\\

感谢魏星对本文的审校。

\\

给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ,@丁晓昀),微信(微信号:InfoQChina)关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入InfoQ读者交流群06e1fec4a87eca3142d54d09844c629f.png)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/263024.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SQL语句导入导出大全

SQL语句导入导出大全/******* 导出到excelEXEC master..xp_cmdshell ’bcp SettleDB.dbo.shanghu out c:\temp1.xls -c -q -S"GNETDATA/GNETDATA" -U"sa" -P""’ /*********** 导入ExcelSELECT * FROM OpenDataSource( ’Microsoft.Jet.OLEDB…

arcgis js 4.x 地图中加入图片

arcgis js 4.x版本,如何加入图片问题:如何将自定义图片放入到arcgis的图层当中?本人在网上查找的方法中,发现大部分方法只适用于3.x版本,只有一种引入自定义BaseDynamicLayer的方法可用,然而按照这种方式&a…

对你的的应用程序进行Debug

对你的的应用程序进行Debug 介绍如何使用Microsoft Visual Studio Code Name "Orcas" Beta 1对基于Silverlight的应用程序进行debugging .在Silverlight中debugging所使用的工具和技巧和其它的 Visual Studio projects是类似的. 想查看更多的关于debugging信息的, 查…

如果reporting server出现“无法安装打印控件”的处理方法。

1.打开"控制面板",选择"添加或删除程序"2.将显示更新更新打勾.3.查找文件"KB956391安装更新"4.卸载此文件即可打印了 转载于:https://www.cnblogs.com/miaomiaoga/archive/2008/12/02/1346319.html

在.Net如何制作自定义的快捷方式(转)

我们用.Net安装程序生成的快捷方式是这样的,如下图:该图中目标所对应的文本框是灰色的,并且下方的查找目标和更改图标两个按钮也是不可用。这样我们根本就没有办法更改这个快捷方式。假如这时有个客户需要在程序启动的时候传入一些参数&#…

大数据——Kafka学习笔记

具体代码可以参考: https://github.com/Ostrich5yw/java4BigData/tree/master/java4Kafka

ITOO高校云平台V3.1--项目总结(一)

高校云平台,可以说是我参加的的一个实战性的项目,刚开始接触,可以说是有点蒙,到真正的用到实践中去的时候才发现,之前学到的好多的知识,还只是依然处于学过的层次上,想要真正的运用到项目中去&a…

TABCTL32.OCX 文件

引用:http://zhidao.baidu.com/question/287980070.html 从网上下载TABCTL32.OCX解压缩后拷贝此文件到c:\windows\system32 点开始 运行 输入 regsvr32 TABCTL32.OCX 显示成功后就可以了。 地址: http://ishare.iask.sina.com.cn/f/7602536.html?fromli…

ASP.Net中控件的EnableViewState属性

在ASP.Net中对各个WebForm控件引入以前没有的EnableViewState属性。这个属性究竟有什么用。我们知道对于WebForm而言,其代码是在服务器端的,以处理客户端的请求。当用户通过浏览器浏览网页的时候,会对网页进行某些操作,比如打开新…

大数据——SparkCore学习笔记

Spark 一、Spark简介 Spark 是一种由 Scala 语言开发的快速、通用、可扩展的大数据分析引擎Spark Core 中提供了 Spark 最基础与最核心的功能Spark SQL 是 Spark 用来操作结构化数据的组件。通过 Spark SQL,用户可以使用 SQL 或者 Apache Hive 版本的 SQL 方言&am…

如何用Mybatis分库分表

分库 在分库的时候 有时候为了方便 一些表需要存放所有库的信息,称为全局库。如:用户表存放所有的用户。 此时分库的思路 数据库分为全局库和业务库,其中业务库又分为N多个库,全局库只放个别表方便开发。 这个时候 就需要一个全局…

Kubernetes权威指南精彩段落

2019独角兽企业重金招聘Python工程师标准>>> 看到上述两段代码,你可能会有一种“开门复动竹, 疑是故人来”的感觉。的确,这段代码经笔者反复考证后认定:100%高仿kubernetes Controller Server中的代码。连传说中的谷歌大神也能cop…

常用文献管理软件使用经验

常用的文献管理软件有:Endnote、Biblioscape和Reference Manager。由于不知道哪个好用,我把三个都装上进行了对比。 一、首先是在Word中引用文献功能的比较。 Endnote是最方便的,工具条上的按键就可以把文献插入到Word中。Biblioscape也能与W…

IMP出现的ORA-01401错误可能和字符集有关(转载)

今天在论坛上,看到有一位朋友问 “我备份数据库后在其他的机器上再导入这个数据库,出现如下错误,并只能导 入部分数据。 IMP-00019: row rejected due to ORACLE error 1401 IMP-00003: ORACLE error 1401 encountered ORA-01401: inserted v…

QT中的pro文件

动态库pro设置VERSION 1.0.1901.0时,产生目标名字总会带数字1解决方法:CONFIG skip_target_version_ext设置输出路径 DESTDIR ./output静态链接 LIBS -L$$PWD/../../lib -lopencv_world320转载于:https://www.cnblogs.com/huanyinglvtuan/p/11280013…

大数据——SparkSQL学习笔记

Spark 一、SparkSQL简介 ​ Spark用来处理结构化数据的一个模块,它提供了两个编程抽象分别叫做DataFrame和DataSet,它们用于作为分布式SQL查询引擎(类似于Hive,为便于进行MapReduce操作而使用类SQL语句进行Spark操作&#xff09…

windows phone7资料整理

wp7资料库 http://msdn.microsoft.com/zh-cn/magazine/gg598932.aspx 开发指导视频: http://channel9.msdn.com/Series/Windows-Phone-7-Development-for-Absolute-Beginners 指导博客: http://www.jeffblankenburg.com/2010/09/30/31-days-of-windows-p…

远程连接 SuSE Linux 设置方法

作者:Flyingis 且不说远程连接的便利性,就是机房里那轰轰的高分贝就足以让你的耳膜形成习惯性振动,何况还需要集中精神工作呢,在网络带宽允许的情况下,还是选择远程吧。远程连接的客户端工具有很多,有商…

android获取控件宽度高度

前几天&#xff0c;在自定义控件的时候碰到个问题&#xff0c;就是在如何获取自定义控件的高宽。在自定义控件类的构造函数中&#xff0c;本来以为可以轻松获取&#xff0c;但事实不是这样。我测试了下面代码&#xff1a; 先是布局代码&#xff1a; <com.lml.getvalues.MyVi…

浅谈Java网络编程之Socket (1)

和大家一起分享的是Java网络编程之Socket。在Java中Socket可以理解为客户端或者服务器端的一个特殊的对象&#xff0c;这个对象有两个关键的方法&#xff0c;一个是getInputStream方法&#xff0c;另一个是getOutputStream方法。getInputStream方法可以得到一个输入流&#xff…