目录
- 概述
- hadoop
- hadoop 模块
- hadoop 发行版
- apache社区版本
- CDP(CDH+HDP)
- 其它云产商
- 框架选择
- hadoop 安装
- 结束
概述
先了解几个常用的网站
- apache 官网
- hadoop 官网
- hadoop github
- https://github.com/apache/xxx [https://github.com/apache/spark (example)]
hadoop
hadoop 模块
hadoop 包含了四块内容,如下图
- Hadoop Common 通用工具(其实也不能算一个模块)
- HDFS 分布式文件系统
- Hadoop YARN 任务调试与集群资源管理
- Hadoop MapReduce 基于 YARN 的分布式大数据处理系统 (后面使用 hive、spark 、flink)
注意:hadoop官方文档就是基本上按这四个模块讲述的,在此点出,方便想阅读的同学,更能系统有脉络的阅读。具体参考下面的图
hadoop 狭义上就已代表了 大数据 的基础生态。
hadoop 发行版
apache社区版本
至 hadoop 官网进行下载
缺点:
- 1.组件之间 jar 包冲突问题,组件只保证了自己无问题,并没有测试组件之间是否有版本冲突,特别是组件选择各自版本的时候。这种情况是比较恶心的。
- 2.有问题,也不容易定位,网上相同的报错,不一定是同一种情况导致的,所以有时候,看别人这样是解决了,但自己同样配置,不能生效。
CDP(CDH+HDP)
最大的问题就是收费,一年下来,费用也是不少。
其它云产商
阿狸、华为等等。
框架选择
选择框架根据以下条件
- 社区活跃度
- 框架在业界的使用程度
对于 Hadoop MapReduce 的替代品有很多,Hive、Spark、Flink。根据功能侧重的点不同,都是需要的存在,可以通过 Kyuubi 这类 网关
统一整合起来。
hadoop 安装
文章名称 | 链接 |
---|---|
hadoop安装基础环境安装一 | 地址 |
hadoop一主三从安装 | 地址 |
后续,会有 HA
及 k8s
上部署的相关文章。
结束
至此,大数据概述至此就结束了,如有疑问,欢迎评论区留言。