戳蓝字“CSDN云计算”关注我们哦!
2006年项目成立的一开始,“Hadoop”这个单词只代表了两个组件——HDFS和MapReduce。到现在的13个年头,这个单词代表的是“核心”,今天我们就来看看关于Hadoop的精华问答。
1Q:基于Hadoop的数据中心有什么好处?
A:改善总体的SLAs(即,服务级协议)作为数据卷&复杂度的增长,例如不共享架构, 并行处理。 密集型内存处理框架,像Spark& Impala 和YARN里资源优先调度器。
扩展数据仓库可能会很贵:扩大高端硬件的容量&授权数据仓库的工具可能成本会显著增加。基于Hadoop的解决方案不仅商业硬件节点更便宜&开源工具,而且还可以通过卸载数据转换到Hadoop工具上弘扬大数据仓库解决方案;像Spark & Impala 这些更有效的大数据并行处理工具。这些都将释放数据库资源。
新途径的探索&领导:Hadoop可以给数据科学家提供一个探索性沙盒从数据库中无法正常使用的社交媒体,日志文件, 电子邮件等探索潜在数据价值。
更好的灵活性:商业需求不停的在改变, 这就要求架构&报告不停更改。基于Hadoop的解决方案不仅能够灵活的处理不断变化的架构,而且还可以从消失的资源,像社交媒体,日志文件应用,图片, PDFs,和文档文件中处理半结构化&非结构化的数据。
2
Q:大数据解决方案的关键步骤是什么?
A:提取数据,存储数据(例如 数据建模)数据处理(例如准备数据, 转换数据,查询数据)
提取数据
从各种资源上提取数据像:
1. RDBMs 相关的数据库管理系统,像 Oracle,MySQL, 等。
2. ERPs 企业资源规划系统 像SAP。
3. CRM 客户关系管理系统 像 Siebel, Salesforce 等。
4. 社交媒体数据 & 日志文件
5. 无格式文件, docos, 图片。
将他们存储在基于Hadoop的分布式文件系统上,此系统还可以缩写成HDFS。数据还可以通过批量作业提取,(例如 每15分钟运行一次, 或者每晚上运行一次)接近实时流(例如 100秒到2分钟)和实时流 (即 低于100秒)
2)存储数据:
数据可以存储在HDFS或NoSQL数据库中, 像Hbase,HDFS为了能顺序访问已经被优化了&一次写入多次读取的使用模式,HDFS用高速率读写并行化 I/O s 到多个驱动器上,Hbase在HDFS顶层用流行的列式存储关键/有价值的数据。列式数据总是在一起就像一个列式家庭一样,Hbase适合随机读取/写入访问。
3)数据处理:Hadoop用HDFS处理框架, 采用不共享架构, 这样在分布式系统里面每个节点都是完全独立于系统中的其他节点的。像 CPU , 存储卡, 磁盘存储等资源都不共享就形成了一个瓶颈,Hadoop的处理框架,像 Spark, Pig, Hive, Impala等, 处理不同的数据子集无需管理共享数据访问, 因为这里采用的不共享架构。
1. 可扩展性,越来越多的节点被添加无需长远规划,可按需要随意增加节点。
2. 容错性 每个节点都是独立的, 而且没有单点故障, 系统可以迅速修复单个故障节点。
3
Q:如何选择不同的文件格式用于存储和数据处理?
A:关键设计理念之一就是相关文件格式要基于
1)使用模式 例如, 访问50列式存储当中的5列式存储vs 访问大部分的列式存储。
2)并行处理分裂性。
3)块压缩节省存储空间VS 读/ 写/转换/ 功能.
4)架构演变过程中添加字段/修改字段/重命名字段。
4
Q:生态圈以及各组成部分的简介
A:重点组件:
HDFS:分布式文件系统
MAPREDUCE:分布式运算程序开发框架
HIVE:基于大数据技术(文件系统+运算框架)的SQL数据仓库工具
HBASE:基于HADOOP的分布式海量数据库
ZOOKEEPER:分布式协调服务基础组件
Mahout:基于mapreduce/spark/flink等分布式运算框架的机器学习算法库
Oozie:工作流调度框架
Sqoop:数据导入导出工具
Flume:日志数据采集框架
5 Q:HADOOP就业职位要求
A:大数据是个复合专业,包括应用开发、软件平台、算法、数据挖掘等,因此,大数据技术领域的就业选择是多样的,但就HADOOP而言,通常都需要具备以下技能或知识:
A. HADOOP分布式集群的平台搭建
B. HADOOP分布式文件系统HDFS的原理理解及使用
C. HADOOP分布式运算框架MAPREDUCE的原理理解及编程
D. Hive数据仓库工具的熟练应用
E. Flume、sqoop、oozie等辅助工具的熟练使用
F. Shell/python等脚本语言的开发能力
小伙伴们冲鸭,后台留言区等着你!
关于Hadoop,今天你学到了什么?还有哪些不懂的?除此还对哪些话题感兴趣?快来留言区打卡啦!留言方式:打开第XX天,答:……
同时欢迎大家搜集更多问题,投稿给我们!风里雨里留言区里等你~
福利
扫描添加小编微信,备注“姓名+公司职位”,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!
推荐阅读:
同样是消息队列,Kafka凭什么速度那么快?
苹果宣布加入CNCF;华为要求美国运营商支付专利费;微软删除最大的公开人脸识别数据集
如何给老婆解释什么是微服务?
任正非:华为 100% 没有后门
阿里巴巴杨群:高并发场景下Python的性能挑战
那些去德国的程序员后来怎么样了?
新技术“红”不过十年,半监督学习为什么是个例外?
独家对话V神! 质疑之下的以太坊路在何方?
真香,朕在看了!