IBM如何拥抱Spark

Spark是目前相当火热的开源计算框架,相对于Hadoop,Spark优势是高性能和易用性。Spark的高性能源于其采用内存储存数据,应用可以以内存的速度进行运算;Spark的易用性在于通用的API,用户可以编写复杂的并行计算程序,使之看上去就像串行程序。这也使得Spark程序更容易开发和读懂。由于其高性能,Spark已成为机器学习的重要工具。日前,IBM宣布加入Spark社区,并与Spark的核心贡献公司Databricks合作。那么IBM将如何与社区进行合作,其自身又在Spark、大数据及机器学习领域有哪些计划?InfoQ受邀与IBM进行交流,并对以上问题进行了解读。

\\

IBM对社区的贡献和对未来的规划

\\

IBM大中华区大数据与分析事业部总经理钟泽敏表示,在美国的旧金山研究室有一个Spark的技术中心,有超过200位的技术人员在Spark技术中心里工作。技术中心主要的功能是把Spark的技术应用在一些企业级应用场景中,这解决了开源的另一个问题。Databricks CEO Ion Stoica表示,考虑到IBM在Spark研发方面的投入,非常期待IBM成为Spark的核心贡献者。

\\

IBM大中华区大数据与分析事业部数据平台方案总经理刘胜利认为,IBM在全球的研发分为两大类,第一类叫Reserch,第二类是Develop,这两类的工作性质还是非常不同的。Reserch就是研究,他们专注研究先进的、超前的技术的前期的研发。而SystemML是IBM研发了超过十年的机器学习技术。沃森(Watson)在几年前的大型活动里,整合了很多SystemML机器学习的功能。

\\

他表示,IBM与Databricks合作,是希望把SystemML的功能输送给Spark,让Spark具有更强大的机器学习能力,让数据科学家专注于算法,而不是一些简单的、细节的技术本身。

\\

Databricks计划开发一个机器学习框架MLbase,这与IBM的SystemML是什么关系,双方的合作如何互补呢?IBM大中华区软件架构师总监、IBM技术科学院委员林旭光认为,SystemML其实并不是提供算法,它其实是提供一个定义的机制,可以让Data Center定义自己的算法。刘胜利表示,SPSS提供了很多和ML Lab相似的算法,并且比后者算法更多。“我们看到ML Lab的算法有局限性。”举个例子,一个专卖店会收集一些他的客户办的卡,这个卡会记录客户到他那买过什么样的东西。那么下一步专卖店对客户进行促销,首先要对客户进行分群,但是算法本身并不能解决分群的问题。还有很多行业的知识,比如对用户画像和智能推荐等。IBM可能在这方面有更强的东西,算法本身是标准化的。比如说你要分群客户是用二叉树算法、神经元网络算法还是哪个算法,这在实际操作中是有一些经验可循的。

\\

那么IBM会以什么样的方式与节奏节奏,拿出多少”干货”与社区共享自己在机器学习等方面的技术呢?IBM大中华区大数据分析平台销售总监洪建勋表示,“我们做了一件很关键的事情,如何把从企业级市场得到的客户需求跟最新的技术有效的衔接起来?这点是IBM一直致力于在做的很重要的事情。同时,新技术很多,可能出现孤岛,我们能够让新的技术为企业真正融合,把这些所谓的单点和孤岛全部连接起来打通,把原来可能存在的问题尽可能地减少。”

\\

毫无疑问,IBM对企业应用的理解是众多互联网公司无法比拟的,这种经验和理解是否能成为指导社区发展的力量呢?洪建勋认为,以Hadoop发展那么多年的经验看,Hadoop社区尽管规模很大,但是新的组件一直在涌现。重点技术一直有变化,而IBM这种企业级IT厂商有很多新的经验。“这也是成立ODP的价值,你可以在ODP中看到很多老的IT公司,为开放平台贡献自己的思想,为企业级客户服务。”

\\

IBM培养Spark技术人才

\\

钟泽敏透露,IBM已经开办免费的课程,预计在第三季度就会更新第二批免费的课程。与Databricks、AMPlab合作培养数据科学家。

\\

此外,IBM去年宣布投资1亿美金,在中国推动”U100”计划,后来又推出了”A100“(百企大数据)计划,跟国内商学院一起培养学生。该项目由香港中文大学、对外经贸大学、西南交大联合发起,集合约50所商学院,IBM到学校里实地去帮老师和学生做数据挖掘、数据清洗。其中用到的工具、解决方案都由IBM提供。这个价值对于商学院,从老师到教育体系的改革,再到人才培养,都非常重要。事实上已有很多项目已经出了成果,这些研究项目都是非常有实际意义的。目前,IBM在大数据的投入已经超过250亿美元。

\\

为什么是Open Data Platform?

\\

Open Data Platform是众多IT巨头企业联合成立的开放数据平台。刘胜利表示,对于大部分企业用户,开源了并不是意味着大家可以直接用。“我们希望大家在使用Hadoop的时候不再局限于有限的厂商”,所以在开源之上又推出了开放数据平台。希望在选择开放数据平台里这些核心部件的时候,大家选用公共的、统一的这些代码。那么,使用这样一个开放的数据平台,就不再受限于某一家的开源代码,既利用了开源的好处,同时又让企业用户不再被厂家束缚。

\\

钟泽敏表示,IBM还是注重在企业级应用。包括SQL、R语言以及数据分析都是IBM的优势。刘胜利认为,IBM做分析挖掘的语言以及SQL关系型数据库已有30多年的历史,有大量的优化技术。另外,SPSS的许多预测分析产品的算法也可以和Spark结合,因为SPSS使Spark上可以处理的数据量、处理的速度、处理的能力都得到了极大的提升。特别是SPSS最大的研发实验室在中国,有一大堆数学科学家在研究算法。

\\

林旭光补充道,有些客户反馈说,用了一些厂家的开源组件之后,没办法迁移到别的平台上去,虽然产品也是开源的。这是因为这些开源产品只有几家公司或很小的群体在支持。基于此,做Open Data Platform一个很重要的目标就是,IBM用的只是开源的组件,并且都是可迁移的。

\\

未来IBM会陆续推出Spark系列产品,包括Watson Analytics、DataWorks、PuerData一体机,以及一些方案和正在孵化的项目。

\\

感谢魏星对本文的审校。

\\

给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ,@丁晓昀),微信(微信号:InfoQChina)关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入InfoQ读者交流群06e1fec4a87eca3142d54d09844c629f.png)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/263024.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

arcgis js 4.x 地图中加入图片

arcgis js 4.x版本,如何加入图片问题:如何将自定义图片放入到arcgis的图层当中?本人在网上查找的方法中,发现大部分方法只适用于3.x版本,只有一种引入自定义BaseDynamicLayer的方法可用,然而按照这种方式&a…

对你的的应用程序进行Debug

对你的的应用程序进行Debug 介绍如何使用Microsoft Visual Studio Code Name "Orcas" Beta 1对基于Silverlight的应用程序进行debugging .在Silverlight中debugging所使用的工具和技巧和其它的 Visual Studio projects是类似的. 想查看更多的关于debugging信息的, 查…

在.Net如何制作自定义的快捷方式(转)

我们用.Net安装程序生成的快捷方式是这样的,如下图:该图中目标所对应的文本框是灰色的,并且下方的查找目标和更改图标两个按钮也是不可用。这样我们根本就没有办法更改这个快捷方式。假如这时有个客户需要在程序启动的时候传入一些参数&#…

大数据——Kafka学习笔记

具体代码可以参考: https://github.com/Ostrich5yw/java4BigData/tree/master/java4Kafka

大数据——SparkCore学习笔记

Spark 一、Spark简介 Spark 是一种由 Scala 语言开发的快速、通用、可扩展的大数据分析引擎Spark Core 中提供了 Spark 最基础与最核心的功能Spark SQL 是 Spark 用来操作结构化数据的组件。通过 Spark SQL,用户可以使用 SQL 或者 Apache Hive 版本的 SQL 方言&am…

Kubernetes权威指南精彩段落

2019独角兽企业重金招聘Python工程师标准>>> 看到上述两段代码,你可能会有一种“开门复动竹, 疑是故人来”的感觉。的确,这段代码经笔者反复考证后认定:100%高仿kubernetes Controller Server中的代码。连传说中的谷歌大神也能cop…

大数据——SparkSQL学习笔记

Spark 一、SparkSQL简介 ​ Spark用来处理结构化数据的一个模块,它提供了两个编程抽象分别叫做DataFrame和DataSet,它们用于作为分布式SQL查询引擎(类似于Hive,为便于进行MapReduce操作而使用类SQL语句进行Spark操作&#xff09…

用SD卡下载uboot、linux内核和文件系统

1、 移植mtd-utils: a) 下载utd-utils 下载地址为ftp://ftp.infradead.org/pub/mtd-utils/b) 交叉编译mtd-utilsi 修改Makefile CROSSarm-linux-ii makeiii 查看下mtd-utils-1.0.0目录下是否生成了咱们所需要大工具 (flashcp,nandwrite......等)。有工具生成了&#xf…

css3中变形与动画(三)

transform可以实现矩阵变换,transition实现属性的平滑过渡,animation意思是动画,动漫,这个属性才和真正意义的一帧一帧的动画相关。本文就介绍animation属性。 animation属性通过一些关键帧中元素属性的改变来实现动画效果。当然也…

Scott Mitchell 的ASP.NET 2.0数据教程之四十四::DataList和Repeater数据分页

原文 | 下载本教程中的编码例子 | 下载本教程的PDF版 导言 分页和排序是显示数据时经常用到的功能。比如,在一个在线书店里搜索关于ASP.NET 的书的时候,可能结果会是成百上千,而每页只列出十条。而且结果可以根据title(书名&#…

通过ClassLoader调用外部jar包

通过ClassLoader调用外部jar包 我们大家都知道,每个运行中的线程都有一个成员contextClassLoader,用来在运行时动态地载入其它类。 系统默认的contextClassLoader是systemClassLoader,所以一般而言java程序在执行时可以使用JVM自带的类、$JAV…

Git回滚操作的总结

git结构和各操作之间的关系 1,撤销add操作: git reset 2,撤销commit操作: git reset –soft 保留源码,只回退commit信息到某个版本,不涉及index的回退,如果还需要提交,直接commit即…

Blender建模与游戏换装(转载文)

本文转载自https://my.oschina.net/huliqing/blog/880113?hmsrtoutiao.io 如果本文涉及侵权行为,请原作者联系博主邮箱,我将及时进行删除处理 博主邮箱:yibiandaoaliyun.com 前言 本文将详细讲解3D游戏中换装的原理及换装中的一些重点问题&a…

出路在哪里?出路在于思路!智者无敌

有人工作,有人继续上学,大家千万不要错过这篇文章,能看到这篇文章也是一种幸运,真的受益匪浅,对我有很大启迪,这篇文章将会改变我的一生,真的太好了,希望与有缘人分享,也…

xml02 XML编程(CRUD)增删查改

XML解析技术概述 Demo2.java import javax.xml.parsers.DocumentBuilder; import javax.xml.parsers.DocumentBuilderFactory; import org.w3c.dom.Document; public class Demo2 { public static void main(String args[])throws Exception { //1.创建工程 DocumentBuilderFac…

ASP.NET Web Game 架构设计1--服务器基本结构

ASP.NET Web Game 架构设计1--服务器基本结构 1. 基本结构图 2. 系统组成与角色 整个系统大体上分为三个部分:1.网页客户端。2.IIS Web服务器。3.数据库及逻辑服务器。其中Web服务器不处理任何逻辑,它的作用只有两点:1.承载用户。…

人人网 Windows Phone 7 应用开发起步

目前,人人网在国内高校学生中的普及率非常高。前段时间,大概是11月下旬的样子,人人网发布了Windows Phone 7客户端的公测版。我想,Windows Phone 7本地化的优劣,直接关系到其将来在国内的市场份额。而诸如人人等针对学…

XP Sp2下双机通过无线网卡实现Internet共享

两台均有无线网卡、装有XP SP2系统的计算机如何实现共享Internet上网呢,请参考一下步骤: 1、打开两台计算机的无线网络连接属性,并切换至“无线网络配置”页签。2、点中右下角的高级按钮设置,选中最下面的“仅计算机到计算机” 和…

C#面向对象设计模式第九讲:Composite 组合模式(结构型模式)

(根据MSDN Webcast相关课程整理) 由俄罗斯套娃讲起。娃娃里又包含另一个娃娃,最后那个不包含任何娃娃。 组合模式,采用树型结构来实现普遍存在的对象容器,将本原一对多的复杂的关系,转换成一对一的简单关系…

Docker for Windows

安装条件:必须是 Win10 Pro 或者 Enterprise version. 转载于:https://www.cnblogs.com/qijiage/p/9261258.html