戳蓝字“CSDN云计算”关注我们哦!
技术的日新月异,让我们见证了Hadoop十年从无到有,再到称王。2006年项目成立的一开始,“Hadoop”这个单词只代表了两个组件——HDFS和MapReduce。到现在的10个年头,这个单词代表的是“核心”以及与之相关的一个不断成长的生态系统。今天,我们就来一起看看关于Hadoop的精华问答。
1
Q:能不能给点Hadoop的学习方法以及学习规划,Hadoop系统有点庞大,感觉无从学起。
A:首先搞清楚什么是Hadoop以及Hadoop可以用来做什么?然后,可以从最经典的词频统计程序开始,初步了解MapReduce的基本思路和处理数据的方式。接着,就可以正式学习Hadoop的基本原理,包括HDFS和MapReduce,先从整体,宏观核心原理看,先别看源码级别。进一步,就可以深入HDFS和MapReduce和模块细节,这个时候可以结合源码深入理解,以及实现机制。最后就是需要实战了,可以结合自己的项目或者相关需求来完成一些Hadoop相关应用。
Q:以后想从事大数据方面工作,算法要掌握到什么程度,算法占主要部分吗?
A:首先,如果要从事大数据相关领域的话,Hadoop是作为工具来使用的,首先需要掌握使用方法。可以不用深入到Hadoop源码级别细节。然后就是对算法的理解,往往需要设计到数据挖掘算法的分布式实现,而算法本身你还是需要理解的,例如常用的k-means聚类等。
Q:大数据处理都是服务器上安装相关软件吗,对程序有什么影响呢,集群、大数据是属于运维的工作内容还是工程师的呢?
A:传统的程序只能运行在单机上,而大数据处理这往往使用分布式编程框架编写,例如Hadoop MapReduce,只能运行在Hadoop集群平台上。
运维的责任:保证集群,机器的稳定性和可靠性
Hadoop系统本身研发:提高Hadoop集群的性能,增加新功能。
大数据应用:把Hadoop作为工具,去实现海量数据处理或者相关需求。
Q:Hadoop适不适用于电子政务?为什么?
A:电子政务是利用互联网技术实现政府组织结构和工作流程的重组优化,建成一个精简、高效、廉洁、公平的政府运作信息服务平台。因此电子政务肯定会产生相关的大量数据以及相应的计算需求,而这两种需求涉及的数据和计算达到一定规模时传统的系统架构将不能满足,就需要借助海量数据处理平台,例如Hadoop技术,因此可以利用Hadoop技术来构建电子政务云平台。
总结一下,任何系统没有绝对的适合和不适合,只有当需求出现时才可以决定,在一个非常小的电子政务系统上如果没有打数据处理以及计算分析需求时就不需要hadoop这样的技术,而实际上,商用的电子政务平台往往涉及到大规模的数据和大量的计算分析处理需求,因此就需要Hadoop这样的技术来解决。
Q:非大数据的项目能否用Hadoop?
A:非大数据项目是否可以用Hadoop的关键问题在于是否有海量数据的存储,计算,以及分析挖掘等需求,如果现有系统已经很好满足当前需求那么就没有必要使用Hadoop,没有必要使用并不意味这不能使用Hadoop,很多传统系统能做的Hadoop也是可以做的,例如使用HDFS来代替LINUX NFS,使用MapReduce来代替单服务器的统计分析相关任务,使用Hbase代替MySQL等关系数据库等,在数据量不大的情况下通常Hadoop集群肯定比传统系统消耗更多的资源。
---------------- 完 --------------
小伙伴们冲鸭,后台留言区等着你!
关于Hadoop,今天你学到了什么?还有哪些不懂的?除此还对哪些话题感兴趣?快来留言区打卡啦!留言方式:打开第XX天,答:……
同时欢迎大家搜集更多问题,投稿给我们!风里雨里留言区里等你~
---------------- 完 --------------
1.微信群:
添加小编微信:color_ld,备注“进群+姓名+公司职位”即可,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!
2.征稿:
投稿邮箱:liudan@csdn.net;微信号:color_ld。请备注投稿+姓名+公司职位。
推荐阅读
Kafka学习笔记
“拼多多”惊爆重大 Bug!程序员的眼泪,羊毛党的狂欢
“黄鳝门”视频女主播一审宣判!
12306能扛住明星出轨这种流量冲击吗?
V神说,解释以太坊2.0最好的文章就是这篇了
以太坊升级的拖油瓶,竟只是这几行代码
程序员有话说 | 程序猿在乘地铁的时候都在想什么? 文 推 荐
点击“阅读原文”,打开 CSDN App 阅读更贴心!
喜欢就点击“好看”吧!