Hadoop相关技术

一.Hadoop 的优化与发展

1.1 局限与不足

  • 抽象层次低,需要人工编码;
  • 表达能力有限;
  • 开发者自己管理作业之间的依赖关系;
  • 难于看到程序的整体的逻辑;
  • 执行迭代操作效率低;
  • 实时性差;
  • 资源浪费;

1.2 改进与提升

  • 对MapReduce 和HDFS两大核心组件进行改进;
    在这里插入图片描述
  • 不断丰富Hadoop组件,包括Pig,Tez,Spark和Kafka等。
    在这里插入图片描述

二.HDFS2.0的新特性

在这里插入图片描述

2.1 HDFS HA:解决单点故障问题。
在这里插入图片描述
2.2 HDFS Federation

  • 存在的问题
    在这里插入图片描述

  • 解决方式:HDFS Federation
    在这里插入图片描述

    • 解决单名称节点存在的问题,解决了HDFS 的集群扩展性问题,性能更高效,具有良好的隔离性。
    • 各自管理字节的命名空间;

三.新一代资源管理调度管家YARN

3.1 MapReduce 1.0 的缺陷

  • 存在单点故障;
    在这里插入图片描述
  • JobTracker 任务过重;
  • 容易出现内存溢出;
  • 资源划分不合理, Map Slot和Reduce Slot;

3.2 YARN 设计思路

分离出资源管理功能,单独形成YARN,MapReduce 2.0变成了运行在YARN 上的纯粹的计算框架。
在这里插入图片描述

  • ResourceManager:负责资源管理;
  • ApplicationMaster:负责任务调度和任务监控;

YARN 是一个资源管理调度框架。

3.3 YARN 体系结构
在这里插入图片描述

  • ResourceManager:全局资源管理器,负责整个系统的资源管理与分配,两大核心组件如下;

    • 调度器Scheduler;
      • 接收来自ApplicationMaster的应用程序资源请求,把集群中的资源以“容器”的形式分配给提出申请的应用程序,容器的选择通常会考虑应用程序所要处理的数据的位置,进行就近选择从而实现“计算向数据靠拢”;
      • 容器(Container)作为动态资源分配单位,每个容器都封装了一定数量的CPU、内存、磁盘等资源,从而限定每个应用程序可以使用的资源数量。
      • 调度器被设计成一个可插拔的组件,YARN不仅自身是提供了许多种直接可用的调度器,也允许用户根据自己的需求重新设计调度器。
    • 应用程序管理器Applications Manager
      在这里插入图片描述
    • 负责系统中所有应用程序的管理工作,主要包括应用程序提交、与调度器协商资源以启动ApplicationMaster、监控ApplicationMaster 运行状态并在失败是重新启动等;
  • ApplicationMaster
    在这里插入图片描述

    • ResourceManager接收用户提交的作业,按照作业的上下文信息以及NodeManager收集来的容器状态信息,启动调度过程,为用户作业启动一个ApplicationMaster;
    • 功能:
      • 当用户提交作业时,ApplicationMaster与ResourceManager协商获取资源;
      • ResourceManager会以容器的形式为ApplicationMaster分配资源;
      • 把获取的资源进一步分配给内部的各个任务(Map任务和Reduce 任务)实现资源的“二次分配”;
      • 与NodeManager保持交互通信,进行应用程序的启动、运行、监控和停止,监控申请到的资源的使用情况;
      • 对所用任务的执行进度的和状态进行监控,并在任务发生失败时执行失败恢复(即重新申请资源重启任务);
      • 定时向ResourceManager发送“心跳”信息,报告资源的使用情况和应用的进程信息;
      • 当作业完成时,ApplicationMaster向 ResourceManager注销容器,执行周期完成;
  • NodeManager
    在这里插入图片描述

    • NodeManager 是驻留在YARN集群中的每个节点上的代理,主要负责如下工作:
      • 容器生命周期管理;
      • 监控每个容器的资源使用情况;
      • 以“心跳"的方式与ResourceManager保持通信;
      • 向ResourceManager汇报作业的资源使用情况和每个容器的而运行状态;
      • 跟踪节点健康状况;
      • 接收来自ApplicationMaster的启动\停止容器的各种请求;
        在这里插入图片描述
  • 部署情况:
    在这里插入图片描述

3.4 YARN 工作流程
在这里插入图片描述

  • 用户编写客户端应用程序,向YARN 提交应用程序;
  • YARN 中的REsourceManager负责接收和处理来自客户端的请求,为用程序分配一个容器,在该容器中启动一个ApplicationMaster;
  • ApplicationMaster 被创建后会首先向ResourceManager注册;
  • ApplicationMaster 采用轮询的方式向ResourceManager申请资源;
  • ResourceManager以容器的形式向提出申请的ApplicationMaster分配资源;
  • 在容器中启动任务;
  • 各个任务向 ApplicationMaster 汇报自己的状态和进度;
  • 应用程序运行完成后ApplicationMaster向ResourceManager的应用程序管理器注销并关闭自己;

3.5 YARN框架与MapReduce1.0框架的对比分析

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.6 YARN 发展目标
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

四.Hadoop 中代表性的组件

4.1 Pig 组件
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

4.2 Tez 组件

**在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.3 Spark 和 Kafka组件

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/484157.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网络的性能指标与分组交换网络

同个人网站:http://tsundere-x.top/ 计算机网络概述(三) 计算机网络概述(一) 网络协议 网络协议规定了通信双方具体的通信规则,包括消息的传递细节。协议的三要素:语法、语义、同步 语义&#…

Hadoop分布式集群安装配置

1.1 安装环境 操作系统deepin 15.11, VMware Workstation,hadoop 3.1.3 版本。在deepin 操作系统中安装 VMware Workstation,在 VMware Workstation中安装两个deepin系统,采用两个节点作为集群环境,一个作为Master节点&#xff0…

复杂性理论研究的核心问题是什么

文章来源:学习时报作者:陈一壮我曾提出复杂性理论的核心不是一般的涌现而是自组织,以突出其相对于传统系统论的特点。普利高津也讲到过:“复杂性诞生”于“物理―化学系统的自组织”。但是我又想到必须对这个自组织的概念作进一步…

【译】索引进阶(四):页和区

【译注:此文为翻译,由于本人水平所限,疏漏在所难免,欢迎探讨指正】 原文链接:传送门。 在之前的章节中,我们在有索引和没有索引的情况下执行同一个查询,比较了各自需要的工作。我们的最主要的评…

网络体系结构

计算机网络的体系结构 网络体系结构是从功能上描述计算机网络结构计算机网络体系结构简称网络体系结构,是分层结构每层遵循某个/些网络协议完成本层功能计算机网络体系结构是计算机网络各层及其协议的集合体系结构是一个计算机网络的功能层次及其关系的定义体系结构…

计算机网络安全-RSA加密原理

一. 安全的攻击类型 危及信息安全的举动. 中断:对可用性的攻击,包括对硬件,通信线路的破坏等; 截获:对机密性的攻击,如窃听等; 篡改:对完整性的攻击,如改变数据或文件; 伪造&…

为什么神经网络不适合理解自然语言 ?

来源:AI前线作者:Ben Dickson译者:王强策划:刘燕过去十年中,人工智能行业的一大趋势就是通过创建更大的深度学习模型来解决问题。这种趋势在自然语言处理领域最为明显,这也是人工智能最具挑战性的领域之一。…

Spark详解

一.Spark 简介 Spark 和Scala 1.1 Spark 是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序; 1.2 Spark 的特点: 1.3 Scala是一门现代的多范式编程语言,可扩展式语言; 1.4 Scala 特性&…

应用层协议与网络应用

网络应用的体系结构 1、客户机/服务器(Client-Server, C/S) 服务器: 7*24小时提供服务永久访问地址/域名利用大量服务器实现可拓展性 客户机: 与服务器通信,使用服务器提供的服务间歇性接入网络可能使…

oc之脚本

进入Build Phases页面,点击加号选择“New Run Script Phases”创建Run Script 在这里添加Run Script, 1.每次编译运行版本号(bundleVersion)自增1 buildNumber$(/usr/libexec/PlistBuddy -c "Print CFBundleVersion" &q…

案例分享|突破卡脖子技术,研制协作机器人核心零部件的方向与思考

来源: 机器人大讲堂协作机器人,作为一种新型的智能机器人,扫除了人机协作的障碍,让机器人彻底摆脱护栏或围笼的束缚,让机器人与人可以在生产、制造与服务上协同作战,充分发挥机器人的效率及人类的智能&…

Spark安装及其sbt和maven 打包工具安装

一.安装准备 需要先安装hadoop,Java JDK,采用 Hadoop(伪分布式)+Spark(Local模式) 的组合.spark和sbt,maven的版本:spark-2.4.5-bin-without-hadoop.tgz 和sbt-1.3.8.tgz,maven-3.6.3; https://pan.baidu.…

SpringBoot集成Spring Security(一)登录注销

同个人网站 https://www.serendipper-x.cn/,欢迎访问 ! SpringBoot集成Spring Security(二)注册 、密码加密、修改密码 写在前面 Spring Security是一种基于 Spring AOP 和 Servlet 过滤器的安全框架。它提供全面的安全性解决方案…

什么是1+N模式的新一代城市大脑建设方案

来源:城市大脑全球标准研究组前言:2021年上半年,我们在城市大脑的最新探索和研究中,提出了1N模式的新一代城市大脑建设方案。其中“1”是世界统一标准的城市神经元网络,“N”是N条城市云反射弧,这是基于互联…

图计算-Pregel-Hama

一.图计算简介 1.1 图计算是专门针对图结构数据的处理. 许多大数据都是以大规模图或网络的形式呈现;许多非图结构的大数据,也常常被转换为图模型后进行分析;图结构很好地表达了数据之间的关联性;关联性计算是大数据计…

英伟达推出全球首个元宇宙平台,豪砸数亿是为什么?

来源:AI科技大本营(ID:rgznai100)编译:禾木木翻译:AI科技大本营NVIDIA 在 SIGGRAPH 推出首个全球元宇宙平台,并赢得了最佳展示奖。目前处于公测阶段,它对 NVIDIA RTX 和 GeForce RTX GPU 用户免费开放。用户在安装完 N…

长链剖分题表

长链剖分,类似于重链剖分(dsu on tree)的一种替代算法。最广泛的用法是优化与深度有关的树上DP,以及处理一些与点分治类似的问题。有一部分长链剖分题也可以用dsu on tree做,单复杂度往往会多一个log。 每个点找到高度最大的儿子作为自己的重…

流计算

一.概述 实时获取来自不同数据源的海量数据经过实时分析处理,或的有价值的信息. 1.数据的处理流程 静态数据:数据不会发生变化,如数据仓库中的数据;流数据:数据以大量,快速.时变的流形式持续到达&#xf…

SpringBoot集成Spring Security(二)注册 、密码加密、修改密码

SpringBoot集成Spring Security(一)登录注销 写在前面 上一节创建了项目并且利用Spring Security完成了登录注销功能,这里继续说一下注册、密码加密和找回密码,代码注释较清晰。 一、web层 控制 StudentController.java package …

自动驾驶需要做哪些测试?

来源:广电计量,文:李梓熙、王闻彦参考资料来源:《有问必答 | 自动驾驶汽车之道路“测试”与“考试”》by公安部交通管理科研所微发布自动驾驶已然成为汽车行业热词。在大家殷切的期盼下,近几年上市的车型,多…