文章目录
- 引言
- 工具介绍
- CDH
- Ambari
- DataSophon
- 对比分析
引言
大数据集群管理方式分为手工方式和工具方式,手工方式一般指的是手动维护平台各个组件,工具方式是靠大数据集群管理软件对集群进行管理维护。本文针对于常见的方法和工具进行比较,帮助找到合适的工具,提升效率。
工具介绍
CDH
CDH 是 Cloudera 公司提供的一种大数据平台解决方案。 CDH 的全称是 Cloudera’s Distribution including Apache Hadoop,它是一个开放源代码的大数据平台,基于 Apache Hadoop 和其他相关的开源技术构建,包括 HDFS、MapReduce、HBase、ZooKeeper、Hue、Oozie、Flume、Sqoop 等等。
CDH 提供了一个完整的大数据解决方案,包括数据管理、数据处理、数据分析和数据可视化等方面,可以帮助用户快速搭建和部署大数据平台,支持多种数据源的处理和集成,同时提供了强大的安全性和可扩展性。值得一提的是 CDH 从6.3版本之后开始收费 。
官网地址:https://www.cloudera.com/
Ambari
Apache Ambari 跟 Hadoop 等开源软件一样,也是 Apache Software Foundation 中的一个项目,并且是顶级项目。目前最新的发布版本是 2.7.8。就 Ambari 的作用来说,就是创建、管理、监视 Hadoop 的集群,但是这里的 Hadoop 是广义,指的是 Hadoop 整个生态圈(例如 Hive,Hbase,Sqoop,Zookeeper 等),而并不仅是特指 Hadoop。用一句话来说,Ambari 就是为了让 Hadoop 以及相关的大数据软件更容易使用的一个工具。Ambari 目前已支持大多数 Hadoop 组件,包括 HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop 和 Hcatalog 等,并且是完全开源的平台。
官网地址:https://ambari.apache.org/
DataSophon
DataSophon 是致力于自动化监控、运维、管理大数据基础组件和节点的,帮助您快速构建起稳定,高效的大数据集群服务,国产开源平台,支持完全离线部署,能支撑
官网地址:https://datasophon.github.io/datasophon-website/docs/current/%E6%A6%82%E8%A7%88
还支持 Kyuubi(统一多租户JDBC网关)、Iceberg(适用于庞大数据集分析的开放式数据表格式)、Kerberos(计算机网络认证协议)
对比分析
试想下面几个问题:
- 如果有100台服务器的集群,至少要花费多长时间搭建好 Hadoop集群?包括 Hive、Hbase、Spark、Zookeeper、Kafka、Flink 等?
- 对于以上集群进行 Hadoop 版本升级,怎么选择升级方案?至少要花费多长时间?
- 新版本的 Hadoop 与 Hvie、Hbase、Kafka、Flink 等是否兼容?
- 如何对上述集群中已经运行中的主机和组件健康状态进行监控?
手工部署:需配置太多参数,但是,好理解其原理,建议初学这样做,能学到很多。该方式啊,均得由用户执行,细节太多,切当设计多个组件时,用户须自己解决组件间版本兼容问题。
工具部署:使用工具可以说是一键操作,难点都在工具本身的部署上,但是工具也存在升级组件不受自己控制的弊端。
比较项 | 手工方式 | 工具方式 |
---|---|---|
难易度 | 难,几乎不可能成功 | 简单,易行 |
兼容性 | 自己解决组件兼容性问题 | 自动安装兼容组件 |
组件支持数 | 支持全部组件 | 支持常用组件 |
监控运维 | 无,需要自建 | 支持常见组件的监控 |
优点 | 对组件和集群管理深刻 | 简单、容易、可行 |
缺点 | 太复杂,几乎不可能成功 | 屏蔽太多细节,妨碍对组件理解 |
组件之间对比:
工具项 | 所属机构 | 开源性 | 社区支持性 | 易用性 | 监控指标 | 可扩展性 | 原生支持组件 | 服务版本 |
---|---|---|---|---|---|---|---|---|
CDH | Cloudera | 商用 | 不支持 | 易 | 多 | 无 | 中 | 较老 |
Ambari | Apache | 开源 | 支持 | 较易 | 较多 | 较强 | 较少 | 较新 |
DataSophon | 国产 | 开源 | 支持 | 易 | 多 | 强 | 多 | 非常新 |