CSDN专訪:大数据时代下的商业存储

原文地址:http://www.csdn.net/article/2014-06-03/2820044-cloud-emc-hadoop
摘要:EMC公司作为全球信息存储及管理产品方面的率先公司,不久前。EMC宣布收购DSSD加强和巩固了其在行业内的领导地位,日前我们有幸採訪到EMC中国的张安站。他就大数据、商业存储、Spark等给大家分享了自己的看法。

谈到大数据。张安站觉得大数据本质上是两个根本性的问题。一个是数据非常大。怎样存储?另外一个是数据非常大。怎样分析?第一个问题,对于存储厂商来说。就是构建Scalability更好的存储系统。来适应这个超大规模数据存储的需求。第二就是大数据的分析,随着以Hadoop生态环境为代表的分布式计算/ 存储集群的蓬勃发展与成熟,大数据的分析变得越来越高效和准确。原来的离线数据挖掘如今能够做到在线,甚至通过在线挖掘在数分钟内对用户产生基于当前行为的推荐。

张安站,EMC中国卓越研发集团的资深project师。毕业于南开大学。毕业后增加EMC,在存储部门担任软件project师。

在读研期间,主要从事了基于手持阅读器的在线读物聚合的研究与实现,编码超过30K,积累了丰富的编码实战经验。

而且也研究了基于地理位置的在线广告投放而且成功在手持阅读器上做过原型开发。

校招时收到了百度、阿里、搜狗、EMC、 SonicWALL和创新工场等多个知名企业的offer 。而且保持了面试必过的记录。

增加EMC后。主要负责存储系统管理和监控的研究与开发。积累了丰富的系统调试经验。设计实现了存储控制协议SMIS并在系统性能调优方面积累了实战经验。承担了项目组的代码管理工作和Scrum的管理工作。

 近半年工作重心在构建下一代的商业存储的管理框架,通过又一次设计获得存储系统的可靠性(Reliability)、可用性(Availability )、可扩展性(Scalability)和性能(Performance )得到质的提升。下个月将增加百度的网页搜索部担任系统架构高级研发project师,负责网页搜索产品服务架构和数据存储架构的设计与升级。

谈到怎样学习Hadoop和Spark,他觉得精读源代码是必须的。同一时候还要学会比較,另外,Scala语言是他觉得最酷的语言。

一个优秀的程序猿,肯定会喜欢Scala。

下面是对张安站的採訪实录:

CSDN:可否介绍一下眼下从事的工作?  

张安站:当前主要工作在构建EMC中高端存储的下一代管理控制平台上。这是一个全新的平台。不同与去年公布的VNX2,VNX2实际上还是分File 和Block。它们分别使用不同的CPU。物理上是隔离的。我们如今做的平台是真正的Unified。能够在一个节点上提供File Service, Block Service。因为採用了全新的架构。整个存储系统的可靠性(Reliability)、可用性(Availability)、可扩展性(Scalability)和性能(Performance)得到质的提升。传统的存储系统扩展性是Scale-in的,做不到Scale-out。因此你能够看到每一个系统不同的产品型号支持的最大硬盘数量是固定的。因此最大的存储空间也是确定的。

为了扩容。不得不买很多其它的设备。这无疑增加了IT运维的成本。

我们如今关注的就是解决传统架构的局限,适应如今云计算,大数据对存储系统新的需求,从而使我们的产品仍然在新的环境中主导存储系统的发展。

只是遗憾的是六月份是我在EMC工作的最后一个月。

七月初我会增加百度的网页搜索部,担任系统架构资深研发project师,负责网页搜索产品服务架构和数据存储架构的设计与升级,包含网页抓取、海量数据处理平台和分布式检索系统。

也是正式開始我在职场上的大数据生涯。

对大数据的理解

CSDN:谈谈您对大数据的理解?

张安站:大数据。不同的人在不同的角度都会有不同的理解。

可是归根结底,是两个根本性的问题,一个是数据非常大。怎样存储?另外一个是数据非常大,怎样分析?第一个问题,对于我们存储厂商来说。就是构建Scalability更好的存储系统,来适应这个超大规模数据存储的需求。第二个问题,就是大数据的分析。随着以Hadoop生态环境为代表的分布式计算/ 存储集群的蓬勃发展与成熟,大数据的分析变得越来越高效和准确,原来的离线数据挖掘如今能够做到在线,甚至通过在线挖掘在数分钟内对用户产生基于当前行为的推荐。

因此,能够说,这些技术的发展。也催生了很多其它的商业模式,也正在改变我们周围的生活。

比方借助大数据分析,交通违章监控能够使用更短的时间通知违章车辆;医院能够使用很多其它的用户数据的建立更好的模型以获得更好的治疗方案;金融行业能够基于用户的投资行为为用户推荐最佳的理財产品。而这些。无一不和我们的生活息息相关。大数据方兴未艾,机遇与挑战并存,让我们这些可爱的程序猿们更好的为人民服务吧!

CSDN: EMC 不久前收购了初创公司DSSD,您怎么看?

张安站:EMC是一个收购了或者说“融合”了非常多公司的公司。

EMC历史上最著名的收购莫过于2003年以6亿多美元收购VMware。事实上对于EMC的多次收购。从另外一个方面也反应了EMC对于行业趋势的把握和敏感,EMC通过多次收购,不断的加强和巩固在行业内的领导地位,从而也影响了行业的发展趋势。

这是EMC 继收购闪存公司XtremIO后在闪存市场的又一举动。事实上,2013年公布的EMC中端存储的巅峰之作VNX Rockies也公布了VNX-F的全闪存阵列,最高的IOPS达到了110W。尽管EMC相信磁盘阵列在能够遇见的未来仍将存在。可是也能够从它一系列的动作能够看出,EMC非常重视闪存市场。

收购DSSD也是这个战略的一部分。

在EMC World 2014上宣布这个消息,足以说明对DSSD的重视。DSSD的核心团队来自ZFS。ZFS能够说是世界上最先进的文件系统,为什么叫ZFS,就是因为Z是最后一个英文字母。而在这之后。无需再有其它文件系统了。让我们拭目以待。期待2015年Andy Bechtolsheim带领的开发团队将给市场带来的EMC DSSD。

Andy在斯坦福读博士时就创立了Sun。因此有足够理由相信Andy会给闪存市场带来惊喜。

传统商业存储的机遇与挑战

CSDN: EMC World 2014 提到了EMC 存储产品对Open-Stack的支持,能不能谈一些这方面的详细内容?

张安站:商业的存储系统怎样融入到云计算的集群环境?毕竟,云计算提供了三种主要的服务。即计算资源、网络资源和存储资源。

EMC存储部门关注的就是怎样将我们的存储产品融入到Open-Stack中,使得Open-Stack能够无缝的使用EMC的存储产品。因为EMC各个存储产品的相对独立性,不同的产品线可能都会支持Open-Stack。事实上技术上说白了就是实现一个Open-Stack Cinder的驱动,实现一些Open-Stack的API以使得Open-Stack能够使用存储系统上的存储资源。

在这里不得不提的是EMC的软件定义存储的实现ViPR。

ViPR 2.0未来将成为其全部存储的核心数据平台。通过增加对OpenStack Clinder插件的支持。ViPR能够与更广泛的第三方存储系统和商品驱动器兼容,EMC觉得ViPR 2.0如今能够处理全部现有存储容量的80%。

可是从Business Value来说。EMC对于Open-Stack的支持是为了将我们的存储产品更好的融入Open-Stack中。使得它能够充分利用我们的存储服务。

事实上从这一点上来讲。和Intel积极推动非常多OpenSource的项目一样,终于的目的都是使得这些开源项目更好的执行在公司的核心的软硬件平台上。当然了。也不可否认,这些大公司的推动对于这些项目起到了非常积极的作用。有了大公司在人力物力的投入,这些开源项目都能在各自的领域有了更好的发展。

CSDN:传统商业存储的在云计算背景下的机遇与挑战?

张安站:这个问题,不得不提一下EMC如今力推的第三平台战略。简单来说。第二平台就是传统的数据中心。EMC已经确定了率先的地位。第三平台是建立在移动设备、云服务、社交网络和大数据的基础之上。可是如今科技的发展能够说是又一次定义了很多东西。就如EMC World 2014的主题 REDEFINE一样。

在这次平台转型的过程中,注定有一些公司被淘汰;一些公司会站在新的浪潮之巅。EMC的传统存储部门肯定会受到影响,可是影响到底有多大谁都不敢断言。

我们如今也是Redesign我们的产品架构。非常多模块推倒重来,以更好的适应第三平台的须要。

精读源代码是必须的

CSDN:对于学习Hadoop和Spark的同学有什么好的建议?

张安站:学习最重要的是兴趣,还有激情。不能说如今什么技术热就去学什么,那么你可能永远在追随这些技术,无法真正的在技术方面提升自己。从我自己学习Hadoop和Spark的经验来说,熟读源代码,精读源代码是必须的,特别是你须要做二次开发时。当然了博客是一个非常重要的渠道,可是博主是把自己的知识进行提炼,总结形成博文的,可能他知道的一个实现的80%,可是博文可能仅仅能展现60%。

所以自己在精读了文章后,一定要深入源代码去精读。去对照。

比方我学习HDFS时,每次看到一个模块都会和我们公司的产品实现进行横向的对照。举个样例来说,HDFS的server端分名字节点(NameNode)和数据节点(DataNode),而我们的产品实现分ControlPath和DataPath。所以从大的架构上来说,二者是想通的,尽管一个是分布式存储系统,一个是中心式的存储系统。

Spark的学习也是,而且Spark的源代码无疑更加简练。相信大家能够从源代码中学到非常多东西。大家都知道Spark是用Scala语言实现的。Scala语言是我觉得最酷的语言。

一个优秀的程序猿。肯定会喜欢Scala。

写在最后:

在採訪中,我们能感觉到张安站的激情、睿智以及文採,正如在他的最新博文Redefine:Change in the Changing World中所说,科技的发展又一次定义了技术,影响了生活,改变了你我。

点击张安站博客,查看很多其它技术性文章!

 

HDFS HA: 高可靠性分布式存储系统解决方式的历史演进

HDFS追本溯源:HDFS操作的逻辑流程与源代码解析

HDFS追本溯源:租约。读写过程的容错处理及NN的主要数据结构


转载于:https://www.cnblogs.com/wzzkaifa/p/6845022.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/488356.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

兵棋推演有助于我们了解哪些战争知识?

来源:兵推天下菲利普塞班博士是英国伦敦国王学院战争研究系的战略研究教授,他也是兵棋专家和兵棋设计师。在30多年的教学生涯中,他将兵棋融合到了课堂教学中,向学生展示兵棋推演对军事规划工作的实际作用。在一次访谈中&#xff0…

2020 五大技术趋势:无人驾驶发展、机器视觉崛起、区块链实用化、人类增强技术、超自动化...

来源:机器人创新生态__自动驾驶技术的发展_近年来,自动驾驶技术一直在发展,特斯拉、英特尔等大公司在这一领域取得了长足的进展。虽然我们还没有达到L4级或L5级自动驾驶汽车的水平,但我们已经很接近了。为了解释每个级别的含义&am…

基于java的qq屏幕截图工具的设计与实现论文_众包学习:Web界面众包评估的通用工具包...

论文:Nebeling M , Speicher M , Norrie M C . CrowdStudy: general toolkit for crowdsourced evaluation of web interfaces[C]// Acm Sigchi Symposium on Engineering Interactive Computing Systems. ACM, 2013.摘要:传统的可用性测试方法既费时又昂…

福布斯2020年AI领域10大预测:人工智能越来越“边缘化”!

来源:人工智能和大数据毫无疑问,人工智能(AI)一直是2010年代的技术主题,随着新的十年的来临,这一趋势似乎不会消失。在过去的十年中,人们会回想起真正可以被视为“智能”机器的时代,…

spss数据_职场白骨精进阶秘籍——SPSS数据分析基础

点击上方“蓝字”关注我们吧!想做数据分析,不会编程怎么办?如何让自己的数据分析更加专业?职场打拼,如何快速提升自己的竞争力?著名的未来学家托夫勒在其所著的《第三次浪潮》中将“大数据”称颂为“第三次…

人工智能和自主系统在美军联合职能中的应用

来源:知远战略与防务研究所【知远导读】随着人工智能/自主系统技术的快速发展及其在军事领域的持续应用,智能化、无人化日渐成为未来战争的发展方向。美国作为世界军事发展潮流的引领者,正在积极探索人工智能/自主系统与联合部队作战职能的融…

oracle怎么把整形,【用bbed工具对Oracle进行微整形】

CUUG ORACLE大师网络免费课程——将个人姓名、电话发送到SIGNUPCUUG.COM即可报名CUUG新增“即时同步互动远程授课”,足不出户学ORACLE!详情见:HTTP://ORACLE.CUUG.COM/DBA1.HTML2013韩国小姐选美比赛佳丽样貌神似,难以分辨,无论是…

这篇长达165页的论文,用一个里程碑式的证明同时解决了量子物理学和理论数学的难题...

来源:机器之心计算机科学、数学、物理学,这三个学科各自的一些重大难题在近日发布的一篇标题简洁的论文《MIP*RE》中同时得到了解答。在该论文中,五位计算机科学家为可通过计算方式验证的知识确立了一个新的边界。基于此,他们又为…

mysql timestamp 不走索引_面试 - 要不简单聊一下你对MySQL索引的理解?

MySQL索引?这玩意儿还能简单聊?明显是在挖坑,幸好老夫早有准备,切听我一一道来。 一、索引是什么?索引是帮助MySQL高效获取数据的数据结构。二、索引能干什么?索引非常关键,尤其是当表中的数据量越来越大时&#xff…

亚马逊首家“无人超市”系统存在bug?!开业当天,记者中途换装成功骗过摄像头...

来源:大数据文摘2018年,亚马逊推出了无人便利店Amazon Go,本着“无需排队、拿完就走”的理念在当时掀起了一番热潮。两年后,亚马逊“无人购物”升级,又在西雅图开设了“Plus版无人超市”Amazon Go Grocery(…

创新是低情商的人做的

评语:这时一个有趣的思考,不算是正式的研究,但可以算是有价值的科学火花,创新本身或许就是得罪人的事情,或者要推翻别人的观点,引起他人不高兴,或者他人有不同意见,要争论和辩解&…

【12.23】转行小白历险记-算法02

不会算法的小白不是好小白,可恶还有什么可以难倒我这个美女的,不做花瓶第二天! 一、螺旋矩阵 59. 螺旋矩阵 II - 力扣(LeetCode) 1.核心思路:确定循环的路线,左闭右开循环,思路简…

MySQL 5.7.18 解压版安装

原文链接:https://my.oschina.net/u/3474266/blog/895696 我在安装免安装版的5.7.18的时候出现了问题,正好找到这个,十分感激 今天下载安装了MySQL Community Edition 5.7.18压缩版,过程中遇到了一些坑,特地写个博客记…

订单失效怎么做的_?糟了,刚发货的订单竟然被取消掉了?我该怎么办!

“叮叮!您的Newegg国际商城有新订单啦,请及时查看!”又来新订单了,赶紧打包发货!可是三天后……“尊敬的商家您好,您的订单超过72 小时未发货,系统已经自动取消该订单”。什么?订单被…

6G概念及愿景白皮书

来源:中国指挥与控制学会“本白皮书将从6G愿景、6G应用场景、6G网络性能指标、6G潜在关键技术、国际组织和各国6G研究进展等方面展开讨论,并提出加快推进我国6G研发的相关建议。”编写 | 赛迪智库无线电管理研究所 执笔 | 彭健 孙美玉 滕学强目录一、前言…

git编译安装与常见问题解决

1. 先去官网下载一个安装包 ,假设目录/APP/ido2. cd /APP/ido3. tar -zxvf git-2.7.2.tar.gz4. 安装依赖yum -y install gcc openssl openssl-devel curl curl-devel unzip perl perl-devel expat expat-devel zlib zlib-devel asciidoc xmlto gettext-devel openss…

哺乳动物亚种在物种进化中至关重要

查尔斯达尔文的《物种起源》一书来源:科技日报 图片来源:物理学家组织网据物理学家组织网18日报道,查尔斯达尔文逝世约140年后,其进化论的一个理论终获证实!英国剑桥大学科学家在18日出版的《英国皇家学会学报B卷》上撰…

window挂载到linux服务器上,在windows 7操作系统下设置挂载Linux服务器

在Windows 7操作系统下增加了很多有用的功能,只是默认没有开启而已,今天简述下一个Windows 7下的NFS功能,通过这个功能,可以让Windows 7共享Linux下面的磁盘分区或者目录数据,这个功能原理只能通过samba或者ftp来实现&…

Android属性动画完全解析(上),初识属性动画的基本用法

转载请注明出处:http://blog.csdn.net/guolin_blog/article/details/43536355 在手机上去实现一些动画效果算是件比较炫酷的事情,因此Android系统在一开始的时候就给我们提供了两种实现动画效果的方式,逐帧动画(frame-by-frame animation)和补…

两位概率论顶级专家获得2020阿贝尔奖

来源:哆嗒数学网弗斯滕伯格介绍当希勒尔弗斯滕伯格(Hillel Furstenberg) 发表其早期的一篇论文时,有传言说他并非一个人,而是一群数学家的化名。该论文涵盖的思想覆盖诸多领域,真的不可能是一个人的成果吗?虽然这件事可…