谈到大数据。张安站觉得大数据本质上是两个根本性的问题。一个是数据非常大。怎样存储?另外一个是数据非常大。怎样分析?第一个问题,对于存储厂商来说。就是构建Scalability更好的存储系统。来适应这个超大规模数据存储的需求。第二就是大数据的分析,随着以Hadoop生态环境为代表的分布式计算/ 存储集群的蓬勃发展与成熟,大数据的分析变得越来越高效和准确。原来的离线数据挖掘如今能够做到在线,甚至通过在线挖掘在数分钟内对用户产生基于当前行为的推荐。
张安站,EMC中国卓越研发集团的资深project师。毕业于南开大学。毕业后增加EMC,在存储部门担任软件project师。
在读研期间,主要从事了基于手持阅读器的在线读物聚合的研究与实现,编码超过30K,积累了丰富的编码实战经验。
而且也研究了基于地理位置的在线广告投放而且成功在手持阅读器上做过原型开发。
校招时收到了百度、阿里、搜狗、EMC、 SonicWALL和创新工场等多个知名企业的offer 。而且保持了面试必过的记录。
增加EMC后。主要负责存储系统管理和监控的研究与开发。积累了丰富的系统调试经验。设计实现了存储控制协议SMIS并在系统性能调优方面积累了实战经验。承担了项目组的代码管理工作和Scrum的管理工作。
近半年工作重心在构建下一代的商业存储的管理框架,通过又一次设计获得存储系统的可靠性(Reliability)、可用性(Availability )、可扩展性(Scalability)和性能(Performance )得到质的提升。下个月将增加百度的网页搜索部担任系统架构高级研发project师,负责网页搜索产品服务架构和数据存储架构的设计与升级。
谈到怎样学习Hadoop和Spark,他觉得精读源代码是必须的。同一时候还要学会比較,另外,Scala语言是他觉得最酷的语言。
一个优秀的程序猿,肯定会喜欢Scala。
下面是对张安站的採訪实录:
CSDN:可否介绍一下眼下从事的工作?
张安站:当前主要工作在构建EMC中高端存储的下一代管理控制平台上。这是一个全新的平台。不同与去年公布的VNX2,VNX2实际上还是分File 和Block。它们分别使用不同的CPU。物理上是隔离的。我们如今做的平台是真正的Unified。能够在一个节点上提供File Service, Block Service。因为採用了全新的架构。整个存储系统的可靠性(Reliability)、可用性(Availability)、可扩展性(Scalability)和性能(Performance)得到质的提升。传统的存储系统扩展性是Scale-in的,做不到Scale-out。因此你能够看到每一个系统不同的产品型号支持的最大硬盘数量是固定的。因此最大的存储空间也是确定的。
为了扩容。不得不买很多其它的设备。这无疑增加了IT运维的成本。
我们如今关注的就是解决传统架构的局限,适应如今云计算,大数据对存储系统新的需求,从而使我们的产品仍然在新的环境中主导存储系统的发展。
只是遗憾的是六月份是我在EMC工作的最后一个月。
七月初我会增加百度的网页搜索部,担任系统架构资深研发project师,负责网页搜索产品服务架构和数据存储架构的设计与升级,包含网页抓取、海量数据处理平台和分布式检索系统。
也是正式開始我在职场上的大数据生涯。
对大数据的理解
CSDN:谈谈您对大数据的理解?
张安站:大数据。不同的人在不同的角度都会有不同的理解。
可是归根结底,是两个根本性的问题,一个是数据非常大。怎样存储?另外一个是数据非常大,怎样分析?第一个问题,对于我们存储厂商来说。就是构建Scalability更好的存储系统,来适应这个超大规模数据存储的需求。第二个问题,就是大数据的分析。随着以Hadoop生态环境为代表的分布式计算/ 存储集群的蓬勃发展与成熟,大数据的分析变得越来越高效和准确,原来的离线数据挖掘如今能够做到在线,甚至通过在线挖掘在数分钟内对用户产生基于当前行为的推荐。
因此,能够说,这些技术的发展。也催生了很多其它的商业模式,也正在改变我们周围的生活。
比方借助大数据分析,交通违章监控能够使用更短的时间通知违章车辆;医院能够使用很多其它的用户数据的建立更好的模型以获得更好的治疗方案;金融行业能够基于用户的投资行为为用户推荐最佳的理財产品。而这些。无一不和我们的生活息息相关。大数据方兴未艾,机遇与挑战并存,让我们这些可爱的程序猿们更好的为人民服务吧!
CSDN: EMC 不久前收购了初创公司DSSD,您怎么看?
张安站:EMC是一个收购了或者说“融合”了非常多公司的公司。
EMC历史上最著名的收购莫过于2003年以6亿多美元收购VMware。事实上对于EMC的多次收购。从另外一个方面也反应了EMC对于行业趋势的把握和敏感,EMC通过多次收购,不断的加强和巩固在行业内的领导地位,从而也影响了行业的发展趋势。
这是EMC 继收购闪存公司XtremIO后在闪存市场的又一举动。事实上,2013年公布的EMC中端存储的巅峰之作VNX Rockies也公布了VNX-F的全闪存阵列,最高的IOPS达到了110W。尽管EMC相信磁盘阵列在能够遇见的未来仍将存在。可是也能够从它一系列的动作能够看出,EMC非常重视闪存市场。
收购DSSD也是这个战略的一部分。
在EMC World 2014上宣布这个消息,足以说明对DSSD的重视。DSSD的核心团队来自ZFS。ZFS能够说是世界上最先进的文件系统,为什么叫ZFS,就是因为Z是最后一个英文字母。而在这之后。无需再有其它文件系统了。让我们拭目以待。期待2015年Andy Bechtolsheim带领的开发团队将给市场带来的EMC DSSD。
Andy在斯坦福读博士时就创立了Sun。因此有足够理由相信Andy会给闪存市场带来惊喜。
传统商业存储的机遇与挑战
CSDN: EMC World 2014 提到了EMC 存储产品对Open-Stack的支持,能不能谈一些这方面的详细内容?
张安站:商业的存储系统怎样融入到云计算的集群环境?毕竟,云计算提供了三种主要的服务。即计算资源、网络资源和存储资源。
EMC存储部门关注的就是怎样将我们的存储产品融入到Open-Stack中,使得Open-Stack能够无缝的使用EMC的存储产品。因为EMC各个存储产品的相对独立性,不同的产品线可能都会支持Open-Stack。事实上技术上说白了就是实现一个Open-Stack Cinder的驱动,实现一些Open-Stack的API以使得Open-Stack能够使用存储系统上的存储资源。
在这里不得不提的是EMC的软件定义存储的实现ViPR。
ViPR 2.0未来将成为其全部存储的核心数据平台。通过增加对OpenStack Clinder插件的支持。ViPR能够与更广泛的第三方存储系统和商品驱动器兼容,EMC觉得ViPR 2.0如今能够处理全部现有存储容量的80%。
可是从Business Value来说。EMC对于Open-Stack的支持是为了将我们的存储产品更好的融入Open-Stack中。使得它能够充分利用我们的存储服务。
事实上从这一点上来讲。和Intel积极推动非常多OpenSource的项目一样,终于的目的都是使得这些开源项目更好的执行在公司的核心的软硬件平台上。当然了。也不可否认,这些大公司的推动对于这些项目起到了非常积极的作用。有了大公司在人力物力的投入,这些开源项目都能在各自的领域有了更好的发展。
CSDN:传统商业存储的在云计算背景下的机遇与挑战?
张安站:这个问题,不得不提一下EMC如今力推的第三平台战略。简单来说。第二平台就是传统的数据中心。EMC已经确定了率先的地位。第三平台是建立在移动设备、云服务、社交网络和大数据的基础之上。可是如今科技的发展能够说是又一次定义了很多东西。就如EMC World 2014的主题 REDEFINE一样。
在这次平台转型的过程中,注定有一些公司被淘汰;一些公司会站在新的浪潮之巅。EMC的传统存储部门肯定会受到影响,可是影响到底有多大谁都不敢断言。
我们如今也是Redesign我们的产品架构。非常多模块推倒重来,以更好的适应第三平台的须要。
精读源代码是必须的
CSDN:对于学习Hadoop和Spark的同学有什么好的建议?
张安站:学习最重要的是兴趣,还有激情。不能说如今什么技术热就去学什么,那么你可能永远在追随这些技术,无法真正的在技术方面提升自己。从我自己学习Hadoop和Spark的经验来说,熟读源代码,精读源代码是必须的,特别是你须要做二次开发时。当然了博客是一个非常重要的渠道,可是博主是把自己的知识进行提炼,总结形成博文的,可能他知道的一个实现的80%,可是博文可能仅仅能展现60%。
所以自己在精读了文章后,一定要深入源代码去精读。去对照。
比方我学习HDFS时,每次看到一个模块都会和我们公司的产品实现进行横向的对照。举个样例来说,HDFS的server端分名字节点(NameNode)和数据节点(DataNode),而我们的产品实现分ControlPath和DataPath。所以从大的架构上来说,二者是想通的,尽管一个是分布式存储系统,一个是中心式的存储系统。
Spark的学习也是,而且Spark的源代码无疑更加简练。相信大家能够从源代码中学到非常多东西。大家都知道Spark是用Scala语言实现的。Scala语言是我觉得最酷的语言。
一个优秀的程序猿。肯定会喜欢Scala。
写在最后:
在採訪中,我们能感觉到张安站的激情、睿智以及文採,正如在他的最新博文Redefine:Change in the Changing World中所说,科技的发展又一次定义了技术,影响了生活,改变了你我。
点击张安站博客,查看很多其它技术性文章!
HDFS HA: 高可靠性分布式存储系统解决方式的历史演进
HDFS追本溯源:HDFS操作的逻辑流程与源代码解析HDFS追本溯源:租约。读写过程的容错处理及NN的主要数据结构