Hadoop三大组件
HDFS -- Hadoop Distributed File System Hadoop的分布式文件系统
主要负责数据的存储和管理,可以将大数据集分成多个数据块,并将这些数据块分配到不同的计算节点上存储,提高数据的可靠性和处理效率
MapReduce 是Hadoop的分布式计算框架
提供了一种简单的编程模型,通过将大规模数据分解成多个小任务并行处理,可以大大提高数据处理的效率。MapReduce 模型包括 Map 和 Reduce 两个阶段,其中 Map 阶段将数据分解成多个小块进行处理,Reduce 阶段将处理结果合并
YARN -- Yet Another Resource Negotiator Hadoop的资源管理器,负责为多个应用程序分配和管理计算资源,可以有效地提高计算资源的利用率
Hive 是Hadoop的数据仓库项目
Spark 是一个通用且快速的集群计算系统