Hadoop2.0探讨

文章目录

      • 8. Hadoop 再探讨
        • 8.1 Hadoop的优化与发展
        • 8.2 HDFS 的FA和Federation(Hadoop2.0新特性)
          • 8.2.1 HDFS HA
          • 8.2.2 HDFS Federation
        • 8.3 YARN
          • 8.3.1 MapReduce1.0的缺陷
          • 8.3.2 Yarn设计思路
          • 8.3.3 Yarn体系结构
          • 8.3.4 Yarn工作流程
          • 8.3.5 Yarn框架和MapReduce1.0框架对比分析
          • 8.3.6 Yarn框架的发展目标
        • 8.4 Hadoop生态系统中具有代表性的组件
          • 8.4.1 Pig
          • 8.4.2 Tez
          • 8.4.3 Spark和Kafka

8. Hadoop 再探讨

8.1 Hadoop的优化与发展
  • Hadoop1.0的局限和不足

    • 抽象层次低,需人工编码:编写一个非常简单的代码都需要人工编写MapReduce代码,进行编译打包运行
    • 表达能力有限:现实中的一些问题不是使用Map和Reduce就能完成的
    • 开发者需要自己管理作业(Job)之间的依赖关系:多个MapReduce任务之间的前后关系需要人工管理
    • 难以看到程序整体逻辑
    • 执行迭代操作效率低:每次迭代都需要将结果先写入到HDFS中,下一个MapReduce任务再从HDFS中读取数据
    • 资源浪费:整个任务执行过程中Map任务结束之后才能进行Reduce任务,导致Reduce一直处于空闲状态
  • Hadoop2.0的优化与发展

    • Hadoop自身两大核心组件,MapReduce和HDFS的架构设计改进
    • Hadoop生态系统其他组件的不断丰富,包括Pig、Tez、Spark和Kafka等
  • Hadoop1.0到Hadoop2.0对比

    image-20231010171751385

  • 不断完善的Hadoop生态系统

    image-20231010171906733

8.2 HDFS 的FA和Federation(Hadoop2.0新特性)
8.2.1 HDFS HA
  • 整体结构

    • 名称节点发生故障,则立即切换到待命节点
    • 共享存储系统保证(活跃)名称节点和(待命)名称节点的中保存信息的同步
    • 共享存储系统将活跃节点的Editlog不断的同步到待命节点

    image-20231010172530715

8.2.2 HDFS Federation
  • HDFS1.0中存在的问题

    • 单点故障问题:通过HA解决
    • 不可以水平扩展 :纵向扩展如加内存可能导致启动时间过长
    • 系统整体性能受限于单个名称节点的吞吐量:一秒钟可以接入多少外部节点还是由外部节点决定的
    • 单个名称节点难以提供不同程序之间的隔离性:一个程序消耗的资源非常大,可能导致另外的程序无法运行
    • HDFS HA是热备份,提供高可用性、但是无法解决可扩展性、系统性能和隔离性
  • HDFS Federation架构

    • 提供多个名称节点,由用户设置,名称节点之间彼此独立

    • Federation提供了向后的兼容性:单名称节点的应用程序可以无缝迁移到多名称节点

    • 所有的名称节点共享底层的数据节点

      image-20231010173845797

    • 通过用户挂载不同的命名空间,使用不同的名称节点,用户可以看到一个全局命名空间挂载表,用户可以看到每个子命名空间

      image-20231010174336426

  • HDFS Federation设计可解决单名称节点存在的问题

    • 集群扩展性问题:多个名称节点,每个名称节点可以独立的管理一个目录,让一个集群可以扩展到更多空间去
    • 性能更高效:多个名称节点各自管理数据,而且可以同时提供对外服务
    • 良好的隔离性:不同数据分给不同的名称节点去管理,有效的对应用程序进行隔离
8.3 YARN
8.3.1 MapReduce1.0的缺陷
  • 缺陷

    • 存在单点故障:只有一个JobTracker负责整个作业的管理调度

      image-20231010175118821

    • JobTracker"大包大揽"导致任务过重:资源管理调度分析、任务管理分配、任务监控以及失败的恢复

    • 容易出现内存溢出:只考虑MapReduce的任务数量,不考虑单个MapReduce任务消耗的资源,多个耗内存的任务一起执行,可能会导致内存溢出

    • 资源划分不合理:将资源等分为slot,Map的slot和Reduce的slot隔离,Map在运行时,Reduce的slot资源浪费

8.3.2 Yarn设计思路
  • 将JobTracker三大功能拆分

    image-20231010175713803

  • MapReduce1.0和Hadoop2.0

    • MapReduce1.0既是一个计算框架,也是一个资源调度框架
    • Hadoop2.0将MapReduce1.0中的资源管理调度功能单独分离出来,形成了YARN,使得Yarn成为了纯粹的资源管理调度框架
    • 而被剥离了资源管理调度功能的MapReduce框架就变成了MapReduce2.0,它是运行在Yarn上的纯粹计算框架,不再负责资源调度管理任务,而是由Yarn提供资源管理调度服务
8.3.3 Yarn体系结构
  • Yarn体系结构

    image-20231010192632194

  • Yarn各个组成部分作用

    • ResourceManager
      • 处理客户端请求
      • 启动/监控 ApplicaionMaster
      • 监控NodeManager
      • 资源分配与调度
    • ApplicationMaster
      • 为应用程序申请资源,并分配给内部任务
      • 任务调度、监控与容错(失败恢复)
      • 运行MapReduce所需要的资源(cpu)等由applicationMaster向ResourceManager申请
    • NodeManager
      • 是单个节点上的资源管理
      • 处理来自ResourceManager的命令
      • 处理来自ApplicationMaster的命令
  • ResourceManager作用、

    • ResourceManager包括了Scheduler(调度器)和Applications Manager(应用程序管理器)

      image-20231010193608662

    • 将内存资源以容器的形式分配,而不是以slot的形式分配

      image-20231010193904297

  • ApplicationMaster

    image-20231010194140334

    • ApplicationMaster的主要功能

      • 当用户作业提交时,ApplicationMater与ResourceManager协商获取资源,ResourceManager会以容器的形式给ApplicationMaster分配资源
      • 把获得的资源进一步分配给内部的各个任务(Map任务和Reduce任务),实现资源的“二次分配”
      • 与NodeManager保持交互通信进行应用程序的启动、运行、监控和停止,监控申请到的资源的使用情况,对所有任务的执行进度和状态进行监控,并在任务发生失败时执行失败恢复(即重新申请资源重启任务)
      • 定时向ResourceManager发送“心跳”信息,报告资源的使用情况和应用的进度信息
      • 当作业完成时,ApplicationMaster向ResourceMnager注销容器,执行周期完成
    • NodeManager:驻留在一个Yarn集群中的每一个节点的代理

      • 容器生命周期管理:容器具体运行Map任务或者Reduce任务,还可以支持其他的计算框架
      • 监控每个容器资源(CPU、内存等)使用情况
      • 跟踪节点健康状态
      • 以“心跳”的方式与ResourceManager保持通信
      • 向ResourceManager汇报作业的资源使用情况和每个容器的运行状态
      • 接受ApplicationMaster的启动/停止容器的各种请求
    • NodeManager的主要说明

      image-20231010195605400

  • YARN和Hadoop平台其他组件的统一部署

    image-20231010195755992

8.3.4 Yarn工作流程
  • Yarn提交作业之后的全流程执行过程

    • 用户编写客户端应用程序,向Yarn提交应用程序,提交内容包括:Applications Master程序、启动Applications Master命令、以及用户程序

      image-20231010200030626

    • ResourceManager负责接受和处理来自客户端请求

       image-20231010200221109

    • ApplicationMaster被创建会首先向ResourceManager注册:为了ResourceManager能够实时监控ApplicationMaster

      image-20231010200411906

    • ApplicationMaster向ResourceManager申请资源

      image-20231010200535296

    • ResourceManager以“容器”的形式向ApplicaionMaster分配资源

      image-20231010200655616

    • 资源二次分配,在容器中将资源分配给Map任务和Reduce任务

      image-20231010200830634

    • 各个任务向ApplicationMaster汇报自己的状态和进度

      image-20231010201042955

  • 应用承租运行完成,注销关闭ApplicationMaster

    image-20231010201141438

8.3.5 Yarn框架和MapReduce1.0框架对比分析
  • 大部分API以及接口是兼容的

    image-20231010201238686

  • Yarn相对于MapReduce1.0的优势

    • 大大减少了承担中心服务功能ResourceManager的资源消耗
    • ApplicationMaster来完成需要大量资源消耗的任务调度和监控
    • 多个作业对应多个ApplicationMaster,实现了监控分布化
    • MapReduce1.0既是一个计算框架,又是一个资源管理调度框架,但是,只能支持MapReduce编程模型
    • Yarn是一个纯粹的资源调度管理框架,在它上面可以运行包括MapReduce在内的不同类型的计算框架,只要编程实现相应的ApplicationMaster.
    • Yarn中的资源管理比MapReduce1.0更高效,以容器为单位,而不是以slot为单位
8.3.6 Yarn框架的发展目标
  • 目标:在一个Yarn上运行多个计算框架

    image-20231010202132949

  • 为什么要实现“一个集群多个框架”?

    image-20231010202251106

    • 为了避免不同类型的应用之间互相干扰,企业需要把内部的服务器拆分成多个集群,分别安装运行不同的计算框架,“即一个框架一个集群”

      • 但是这样导致集群资源利用率低
      • 数据无法共享
      • 维护代价高
    • Yarn的实现优势

      image-20231010202736590

    • Yarn上部署各种计算框架

      image-20231010202840148

8.4 Hadoop生态系统中具有代表性的组件
8.4.1 Pig
  • Pig简要介绍

    image-20231010203117223

    image-20231010203149723

  • Pig提供的相关操作

    • 过滤,分组,连接,排序等
  • Pig的优势

    image-20231010203307471

  • Pig能做什么?

    • 加载数据,表达转换数据,存储最终结果

      image-20231010203419592

    • 企业将数据收集通过Pig进行数据加工:对收集过来的数据进行抽取、转换、加载,之后再放入数据仓库(Hive)

      image-20231010203607711

    • Pig Latin的应用程序实例

    image-20231010203830006

    • 将执行代码转换为流程图,使用MapReduce解决

      image-20231010203913989

  • Pig的应用场景

    image-20231010204557530

  • Pig的主要用户

    image-20231010204629960

8.4.2 Tez
  • Tez框架简要介绍

    image-20231010204721729

  • Tez将Map和Reduce拆分成更细粒度的字任务

    image-20231010204854402

    • 分解后的元操作可以任意灵活组合,产生新的操作
    • 经过一些控制程序组装后,可以形成一个大的DAG作业
    • 通过DAG作业的方式运行MapReduce作业,提供程序运行的整体处理逻辑
    • Hortonworks把Tez应用到数据仓库Hive的优化中,使得性能提升了约100倍
  • HiveQL在MapReduce和Tez中的执行情况对比

    • 在MapReduce中三次写入HDFS的行为降低性能

    image-20231010205334881

    • Tez的优化主要体现在
      • 去除连续两个作业之间的“写入HDFS”
      • 去除每个工作流中多余的Map阶段
  • Tez可应用于多个框架

    image-20231010205739565

  • Tez在Hadoop生态系统中的作用

    image-20231010205809967

  • Tez+Hive与Impala、Dremel、Drill区别

    image-20231010205959262

8.4.3 Spark和Kafka
  • Hadoop缺陷

    image-20231010210054034

  • Spark的优势

    image-20231010210147242

  • Kafka

    • 一种高吞吐量的分布式发布订阅消息系统,用户通过Kafka系统可以发布大量的消息,同时也能实时订阅消费消息
    • 可以同时男足在线实时处理和批量离线处理
  • Kafka作用

    image-20231010210349285

image-20231010210529435

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/100458.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Java 进阶篇】CSS 选择器详解

CSS(层叠样式表)是一种用于描述网页上元素样式的语言。要想有效地使用CSS,了解CSS选择器是至关重要的,因为它们允许你选择要应用样式的HTML元素。在本文中,我们将详细介绍CSS选择器的各种类型和用法,以便你…

Vue中使用Echarts封装为公用组件(简单复制粘贴)

Vue中封装Echarts组件 前提直奔主题 本文以Vue3代码演示 Vue2同理 前提 中文官网: https://echarts.apache.org/zh/index.html npm安装Echarts npm install echarts or pnpm install echarts or yarn add echarts直奔主题 创建Echarts.vue文件,代码如…

Solidity 合约漏洞,价值 38BNB 漏洞分析

Solidity 合约漏洞,价值 38BNB 漏洞分析 1. 漏洞简介 https://twitter.com/NumenAlert/status/1626447469361102850 https://twitter.com/bbbb/status/1626392605264351235 2. 相关地址或交易 攻击交易: https://bscscan.com/tx/0x146586f05a451313…

Unity官方文档中关于内存管理的翻译(2021.3)

原文:Memory in Unity - Unity 手册 Unity内存管理 为了确保您的应用程序运行时没有性能问题,了解Unity如何使用和分配内存非常重要。本文档的这一部分解释了Unity中内存是如何工作的,适用于希望了解如何提高应用程序内存性能的读者。 Unity使用三个内…

视频答题猜歌闯关娱乐微信小程序源码支持看视频答题闯关听歌猜歌答题流量主模式(团队奖励等)

功能强大UI美观的视频答题猜歌闯关娱乐微信小程序源码下载 后台管理资源本地化带数据和视频教程,这是一款拥有后端的闯关娱乐小程序。 支持个人小程序和企业小程序上线运营 功能强大齐全,带数据本地化 (数据在自己服务器自己管理无需担心第三方失效的问题) 支持看视…

【重拾C语言】七、指针(二)指针与数组(用指针标识数组、多维数组与指针、数组指针与指针数组)

目录 前言 七、指针 7.1~3 指针与变量、指针操作、指向指针的指针 7.4 指针与数组 7.4.1 用指针标识数组 7.4.2 应注意的问题 a. 数组名是指针常量 b. 指针变量的当前值 c. 数组超界 7.4.3 多维数组与指针 7.4.4 指针数组 a. 指针数组 b. 数组指针 c. 对比总结 前…

Reactor网络模式

文章目录 1. 关于Reactor模式的了解2. 基于Reactor模式实现epoll ET服务器2.1 EventItem类的实现2.2 Reactor类的实现Dispatcher函数AddEvent函数DelEvent函数EnableReadWrite函数 2.3 四个回调函数的实现acceptor回调函数recver回调函数sender回调函数errorer回调函数 3. epol…

突破封锁|华为芯片10年进化史:从K3V1到麒麟9000S

华为海思麒麟芯片过去10年研发历程回顾如下: 2009年:华为推出第一款手机芯片K3V1,采用65nm工艺制程,基于ARM11架构,主频600MHz,支持WCDMA/GSM双模网络。这款芯片搭载在华为U8800手机上,标志着华…

在SOLIDWORKS搭建一个简易的履带式机器人

文章目录 前言一、构建模型基本单元二、搭建车体模块三.插入轮子4.构建履带 前言 趁着十一假期,在solidworks中搭建了一个履带式机器人小车,计划将其应用在gazebo中完成多机器人编队的仿真。 一、构建模型基本单元 构建底板(a面&#xff09…

面试总结-Redis篇章(十二)——Redis是单线程的,为什么还那么快

Redis是单线程的,为什么还那么快 Redis是单线程的,为什么还那么快什么是IO多路复用 阻塞IO非阻塞IOIO多路复用 Redis是单线程的,为什么还那么快 Redis是纯内存操作,执行速度非常快采用单线程,避免不必要的上下文切换可…

Python中套接字实现服务端和客户端3-3

3 创建客户端的步骤 创建客户端的步骤如图5所示。 图5 创建客户端的步骤 从图5可以看出,对于客户端来说,首先创建套接字,之后通过创建的套接字去连接服务端,如果连接成功,则继续通过该套接字向服务端发送数据&#x…

【Mybatis源码】IDEA中Mybatis源码环境搭建

一、Mybatis源码源 在github中找到Mybatis源码地址:https://github.com/mybatis/mybatis-3 找到Mybatis git地址 二、IDEA导入Mybatis源码 点击Clone下载Mybatis源码 三、选择Mybatis分支 选择Mybatis分支,这里我选择的是3.4.x分支

【ChatGPT】无需代理使用ChatGPT

推荐一个无需代理、可以直接使用的、免费的、无需客户端的、稳定的ChatGPT终端 支持GPT-3.5和CPT-4 无需境外手机号 该工具比较稳定,断流情况很少 GPTDOS 注册地址:GPTDOS (使用我的邀请链接进行注册,双方都可以得到50000个toke…

Vue3 编译原理

文章目录 一、编译流程1. 解读入口文件 packgages/vue/index.ts2. compile函数的运行流程 二、AST 解析器1. ast 的生成2. 创建ast的根节点3. 解析子节点 parseChildren(关键)4. 解析模版元素 Element模版元素解析-举例分析 一、编译流程 1. 解读入口文…

嵌入式养成计划-33--数据库-sqlite3

七十一、 数据库 71.1 数据库基本概念 数据(Data) 能够输入计算机并能被计算机程序识别和处理的信息集合数据库 (Database)数据库是在数据库管理系统管理和控制之下,存放在存储介质上的数据集合 常用的数据库 大型数…

第二证券:5.5G时代将至 算力基建迎政策助力

昨日,A股全线低开,三大股指盘中均跌超1%,盘中冲高回落,午后逐渐止跌。到收盘,沪指跌0.44%报3096.92点,深成指微跌0.03%报10106.96点,创业板指跌0.26%报1998.61点,两市算计成交7700元…

【unity】制作一个角色的初始状态(左右跳二段跳)【2D横板动作游戏】

前言 hi~ 大家好!欢迎大家来到我的全新unity学习记录系列。现在我想在2d横板游戏中,实现一个角色的初始状态-闲置状态、移动状态、空中状态。并且是利用状态机进行实现的。 本系列是跟着视频教程走的,所写也是作者个人的学习记录笔记。如有错…

linux centos出现No space left on device解决方案

问题是因为系统磁盘空间不足 解决方法: 找到那个磁盘不足问题 df -lh 发现/dev/mapper/cl-root磁盘已用50G,有如下 解决方案: 1、如果是虚拟机可以通过分配空间使其空间增加 2、将其他不常用磁盘空间分配给cl-root如( /dev/mapper/cl-home &#…

unity 使用模拟器进行Profiler性能调试

这篇文章主要记录如何实现通过模拟器对打包的app游戏进行Profiler调试。主要记录一些比较重要的点。 准备工作 首先你要能够打包unity的安卓包,如果没有安装安卓组件,请先安装组件。 安装完成以后,会在unity的安装目录找到相应的SDK 这个…

嵌入式Linux裸机开发(五)中断管理

系列文章目录 文章目录 系列文章目录前言STM32 中断系统IMX6U中断控制8个中断GIC中断控制器GIC介绍中断IDGIC逻辑分块GIC协处理器 中断使能中断优先级 重点代码分析官方SDK函数start.S文件自行编写中断驱动文件 前言 最近在学习中发现,学Linux嵌入式不仅是对Linux的…