图解 Hadoop 架构 |Yarn、MapReduce

Hadoop

Hadoop 是什么

  1. Hadoop 是由 Apache 基金会所开发,维护的分布式系统基础架构
  2. 主要解决海量数据的存储和海量数据的分析计算问题
  3. 广义上来说,Hadoop 通常是指一个更广泛的概念——Hadoop 生态圈,包括 MapReduce,HDFS,HBase,Yarn 等等

Hadoop 优势

  1. 高可靠:Hadoop 底层维护多个数据副本,所以即使 Hadoop 某个计算元素或存储出现故障,也不会导致数据的丢失。
  2. 高扩展:在集群间分配任务数据,可方便的扩展数以千计的节点。
  3. 高效:在 MapReduce 的思想下,Hadoop 是并行工作的,以加快任务处理速度。
  4. 高容错:能够自动将失败的任务重新分配

image-20231006223320248

Hadoop 2.x 相比于 Hadoop 1.x 将 mapreduce 中的计算与调度分开了,降低了耦合度,而 Hadoop 3.x 和 Hadoop 2.x 架构没有什么区别就不画图了,下面我们来介绍一下 Hadoop 中的 HDFS,MapReduce,Yarn 等模块

YARN

YARN(Yet Another Resource Negotiator)是 Hadoop 生态系统的一个关键组件,用于集群资源管理和作业调度,是 Hadoop 的第二代资源管理器,取代了早期版本中的 MapReduce 作业调度器,为大规模数据处理提供了更灵活和高效的资源管理框架。

  • ResourceManager(RM):整个集群资源(内存、CPU 等)的管理者
  • NodeManager(NM):单个节点服务器资源的管理者。
  • ApplicationMaster(AM):单个任务运行的管理者。
  • Container:容器,相当于一台独立的服务器,里面封装了任务运行所需要的资源,如内存、CPU、磁盘、网络等。

image-20231006230926742

YARN 的主要特点包括:

  • 多样化的工作负载支持:YARN 支持多种类型的应用程序,包括传统的 MapReduce 作业、流式处理、图计算、交互式查询等。它提供了一个通用的资源管理框架,可以灵活地为不同类型的应用程序分配资源。
  • 高可伸缩性:YARN 可以在大规模集群上管理成千上万个节点和数以千计的应用程序。它能够有效地管理和调度集群中的资源,以满足不同应用程序的需求。
  • 资源隔离:YARN 通过使用容器(Container)来实现资源隔离。每个应用程序都在自己的容器中运行,这样可以确保应用程序之间的资源不会相互干扰。
  • 高可靠性:YARN 具有高可靠性和容错性。当节点或 ApplicationMaster 发生故障时,YARN 会自动重新分配资源和重新启动受影响的任务。

YARN 广泛应用于大数据处理和分析场景,成为 Hadoop 生态系统中的核心组件。它为用户提供了一个强大的资源管理和作业调度平台,使得各种类型的应用程序能够高效地在 Hadoop 集群上运行。

后续会出一篇关于 YARN 详细笔记,这里不过多赘述~

MapReduce

MapReduce 是一种用于处理大规模数据集的编程模型和计算框架。它是由 Google 提出并在 Hadoop 项目中得到广泛应用的。MapReduce 的设计目标是将并行计算任务分解为可独立执行的子任务,并自动处理任务的并行执行、故障恢复和数据分发等细节,以实现可靠且高效的大规模数据处理。

MapReduce 模型由两个主要的阶段组成:Map 阶段和 Reduce 阶段。

  1. Map 阶段:在 Map 阶段中,输入数据被划分为多个独立的数据块,并由多个并行运行的 Map 任务进行处理。每个 Map 任务接收一组输入数据,并将其转换为一系列键值对,即中间结果。Map 任务是独立执行的,它们可以在不同的计算节点上并行运行,以提高处理速度。
  2. Reduce 阶段:在 Reduce 阶段中,中间结果的键值对根据键进行分组,并由多个并行运行的 Reduce 任务进行处理。每个 Reduce 任务接收一个键及其对应的一组值,并对这些值进行聚合、合并或其他操作,生成最终的输出结果。

image-20231006231103355

MapReduce 的主要特点包括:

  • 可扩展性:MapReduce 可以在具有大量计算节点的集群上处理大规模数据集,通过并行执行任务来实现高吞吐量和可伸缩性。
  • 容错性:MapReduce 具有容错性,当某个节点或任务失败时,它可以自动进行故障恢复,并重新分配任务以保证计算的正确性和完整性。
  • 简化编程模型:MapReduce 提供了一种简化的编程模型,使得开发人员可以专注于业务逻辑而不必关心并行计算和分布式系统的细节。
  • 适用于批处理:MapReduce 适用于批处理任务,它对于需要对整个数据集进行处理和分析的场景非常有效。

尽管 MapReduce 在大数据处理方面取得了巨大成功,但随着数据处理需求的多样化,其他更灵活和高级的计算模型和框架也得到了发展和应用,如 Spark、Flink 等。后续会出一篇关于 mapreduce 详细笔记,这里不过多赘述~

三者关系

HDFS 用于存储和管理数据,YARN 用于集群资源管理和作业调度,而 MapReduce 则是一种编程模型和计算框架,用于实现大规模数据处理。MapReduce 利用 YARN 来管理任务的执行和资源的分配,通过与 HDFS 进行交互来读取和写入数据。这三个组件相互协作,共同构建了 Hadoop 生态系统中的数据处理和存储基础设施。

image-20231006232943656

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/874116.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

淼淼瀛湖水,青青枇杷林

淼淼瀛湖水,青青枇杷林 ——西安工程大学赴陕西安康“筑梦乡村,携手同行”暑期社会实践团 俗语言“五月枇杷满树金”。枇杷营养丰富,食用,具有止渴、润燥、清肺、止咳等功效。为探索枇杷产业,实现乡村振兴&#xff0c…

代码随想录 day 18 二叉树

第六章 二叉树part06 详细布置 530.二叉搜索树的最小绝对差 需要领悟一下二叉树遍历上双指针操作,优先掌握递归 题目链接/文章讲解:https://programmercarl.com/0530.%E4%BA%8C%E5%8F%89%E6%90%9C%E7%B4%A2%E6%A0%91%E7%9A%84%E6%9C%80%E5%B0%8F%E7%B…

数据结构~~顺序表

目录 一、顺序表的概念 二、顺序表的接口实现 1.顺序表初始化 2.顺序表销毁 3.检查空间并扩容 4.顺序表尾插、顺序表头插 5.顺序表尾删、顺序表头删 6.顺序表查找 7.顺序表在pos位置插入x、删除pos位置的值 三、完整代码 四、总结 一、顺序表的概念 顺序表是用一段…

SpringCloud的认识和初步搭建

目录 一.认识SpringCloud 二.SpringCloud的部署 2.1开发环境 2.2数据库的建立 2.3SpringCloud的部署 第一步: 创建Maven项目 第二步:完善pom文件 第三步:创建两个子项目 第四步:声明项目依赖以及构建插件 第五步&#xf…

cocos2d-x安装和项目

首先多方查找资料发现教程很简洁,发现对自己的操作方面没多大帮助,后来干脆去官网,好像也很简洁。基于这样一个原因,加上我首次碰cocos2d-x,决定记录一下整个流程,解决实际操作上的疑惑。 涉及的方面&…

爬虫的深度爬取

爬虫的深度爬取和爬取视频的方式 深度爬取豆瓣读书 import time import fake_useragent import requests from lxml import etree head {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 …

Docker核心技术:Docker的基本使用

云原生学习路线导航页(持续更新中) 本文是 Docker核心技术 系列文章:Docker的基本使用,其他文章快捷链接如下: 应用架构演进容器技术要解决哪些问题Docker的基本使用(本文)Docker是如何实现的 3…

MongoDB自学笔记(四)

一、前文回顾 上一篇文章中我们学习了MongoDB中的更新方法&#xff0c;也学了一部分操作符。今天我们将学习最后一个操作“删除”。 二、删除 原始数据如下&#xff1a; 1、deleteOne 语法&#xff1a;db.collection.deleteOne(< query >,< options >) 具体参…

【SD】 Stable Diffusion(SD)原理详解与ComfyUI使用 2

Stable Diffusion&#xff08;SD&#xff09;原理详解与ComfyUI使用 Stable Diffusion&#xff08;SD&#xff09;原理详解与ComfyUI使用1. SD整体结构2. Clip&#xff08;文本编码器&#xff09;3. Unit&#xff08;生成模型&#xff09;4. VAE&#xff08;变分自编码器&#…

Electron 结合 Selenium + chromedriver 驱动服务实现浏览器多开

背景 在调研浏览器多开的过程中&#xff0c;electron 有自带的 browserview&#xff0c;webview&#xff0c;但是上面两个受制于 electron 内核版本限制&#xff0c;升级不够灵活&#xff0c;对新版的网页支持可能不及时&#xff0c;甚至不兼容&#xff0c;必须通过发布新的客…

redis的学习(一):下载安装启动连接

简介 redis的下载&#xff0c;安装&#xff0c;启动&#xff0c;连接使用 nosql nosql&#xff0c;即非关系型数据库&#xff0c;和传统的关系型数据库的对比&#xff1a; sqlnosql数据结构结构化非结构化数据关联关联的非关联的查询方式sql查询非sql查询事务特性acidbase存…

新版SpringSecurity5.x使用与配置

目录 一、了解SpringSecurity 1.1 什么是Spring Security&#xff1f; 1.2 Spring Security功能 1.3 Spring Security原理 1.4 RABC (Role-Based Access Control) 二、SpringSecurity简单案例 2.1 引入SpringSecurity依赖 2.2 创建一个简单的Controller 三、SpringSecu…

8.持久化

队列和消息都可以持久化。 持久化的目的就是让消息不丢失。 RabbitMQ本身退出&#xff0c;或者由于某种原因崩溃时造成的消息丢失。 RabbitMQ一旦宕机&#xff0c;就会造成队列和消息都丢失了。 RabbitMQ重启之后&#xff0c;非持久化的队列和消息都不存在了。 队列持久化…

数据结构 —— B树

数据结构 —— B树 B树B树的插入操作分裂孩子分裂父亲分裂 我们之前学过了各种各样的树&#xff0c;二叉树&#xff0c;搜索二叉树&#xff0c;平衡二叉树&#xff0c;红黑树等等等等&#xff0c;其中平衡二叉树和红黑树都是控制树的高度来控制查找次数。 但是&#xff0c;这都…

C语言:数组-学习笔记(万字笔记)——翻新版

目录 前言&#xff1a; 1、 数组的概念 1.1 什么是数组 1.2 为什么学习数组&#xff1f; 2. ⼀维数组的创建和初始化 2.1 数组创建 2.2 数组的初始化 2.3 数组的类型 2.3.1 什么是数组类型&#xff1f; 2.3.2 数组类型的作用 3、 一维数组的使用 3.1 数组下标 3.2 数…

LC-617-合并二叉树

文章目录 1 题目描述2 思路优化代码完整输入输出 参考 1 题目描述 https://leetcode.cn/problems/merge-two-binary-trees/description/ 给你两棵二叉树&#xff1a; root1 和 root2 。 将其中一棵覆盖到另一棵之上时&#xff0c;两棵树上的一些节点将会重叠&#xff08;而另…

用ComfyUI安装可图Kolors大模型做手机壁纸

一、Kolors简介 国内科技公司快手在人工智能领域取得了显著进展&#xff0c;特别推出了「可图 Kolors」这一开源模型&#xff0c;它在图像生成质量上超越了SD3&#xff0c;与Midjourney v6模型相媲美&#xff0c;并支持中文提示词识别与生成中文字符&#xff0c;成为国产AI绘画…

XMl基本操作

引言 使⽤Mybatis的注解⽅式&#xff0c;主要是来完成⼀些简单的增删改查功能. 如果需要实现复杂的SQL功能&#xff0c;建议使⽤XML来配置映射语句&#xff0c;也就是将SQL语句写在XML配置⽂件中. 之前&#xff0c;我们学习了&#xff0c;用注解的方式来实现MyBatis 接下来我们…

四、 简单工厂模式

文章目录 1 基本介绍2 案例2.1 Drink 抽象类2.2 Tea 类2.3 Coffee 类2.4 DrinkFactory 类2.5 Client 类2.6 Client 类运行结果2.7 总结 3 各角色之间的关系3.1 角色3.1.1 Product ( 抽象产品 )3.1.2 ConcreteProduct ( 具体产品 )3.1.3 Factory ( 工厂 )3.1.4 Client ( 客户端 …

[译] Rust项目的基础设施

本篇是对 RustConf 2023中的Infrastructure for Rust这一视频的翻译与整理, 过程中为符合中文惯用表达有适当删改, 版权归原作者所有. 我今天要和大家讨论支持Rust及Rust项目的基础设施。Rust是一门令人惊叹的语言,我非常喜欢它,看到它的普及度和社区的成长令人非常满意。但从项…