大数据学习(09)--Hadoop2.0介绍

文章目录

  • 目录
    • 1.Hadoop的发展与优化
      • 1.1 Hadoop1.0 的不足与局限
      • 1.2 Hadoop2.0 的改进与提升
    • 2.HDFS2.0 的新特性
      • 2.1 HDFS HA
      • 2.2 HDFS Federation
    • 3. 新一代的资源管理器YARN
      • 3.1 MapReduce1.0 缺陷
      • 3.2 YARN的设计思路
      • 3.3 YARN 体系结构
      • 3.4 YARN工作流程
      • 3.5 YARN框架与MapReduce1.0框架进行对比
      • 3.6 YARN的发展目标
    • 4.Hadoop2.0 生态中具有代表性的功能组件
      • 4.1 Pig
      • 4.2 Tez
      • 4.3 Spark
      • 4.4 Kafka

目录

1.Hadoop的发展与优化

1.1 Hadoop1.0 的不足与局限

主要针对于Hadoop1.0中两大核心组件:MapReduce和HDFS有以下几点不足:

  • 抽象层次低,需要人工编码(MapReduce需要人为的写map和reduce函数)
  • 表达能力有限(MapReduce)
  • 开发者自己管理作业之间的依赖关系(MapReduce)
  • 难以看清程序的整体逻辑(MapReduce)
  • 执行迭代操作效率低(MapReduce每次迭代写磁盘)
  • 资源浪费(map-slot与reduce-slot不能共用)
  • 实时性差(适用于批处理,不支持实时交互)

1.2 Hadoop2.0 的改进与提升

在这里插入图片描述
在这里插入图片描述

hdfs fedration只是提供管理多个命名空间,每个节点还是存在单点故障的问题,所以需要集合HDFS HA一起使用,即对HDFS Fedration中的每个节点创建一个附属的名称节点,作为单个节点的热备份。
Hadoop1.0 中的第二名称节点不是一个热备份的功能,湿冷备份,具体请查看之前的博客。

在这里插入图片描述

2.HDFS2.0 的新特性

2.1 HDFS HA

在这里插入图片描述
在这里插入图片描述
HDFS HA
在这里插入图片描述

2.2 HDFS Federation

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3. 新一代的资源管理器YARN

3.1 MapReduce1.0 缺陷

在这里插入图片描述

3.2 YARN的设计思路

在这里插入图片描述

在Hadoop1.0 中,MapReduce既是一个大数据计算框架,又是一个资源和任务调度管理框架。

3.3 YARN 体系结构

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.4 YARN工作流程

在这里插入图片描述

3.5 YARN框架与MapReduce1.0框架进行对比

在这里插入图片描述

3.6 YARN的发展目标

在这里插入图片描述
在这里插入图片描述

4.Hadoop2.0 生态中具有代表性的功能组件

4.1 Pig

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.2 Tez

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Tez是对MapReduce中的map和reduce过程进行优化,所以只要最终只要转换为map和reduce操作的都可以使用Tez进行优化。

在这里插入图片描述

4.3 Spark

在这里插入图片描述

4.4 Kafka

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/445220.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java多线程常用方法

start()与run() start() 启动线程并执行相应的run()方法 run() 子线程要执行的代码放入run()方法 getName()和setName() getName() 获取此线程的名字 setName() 设置此线程的名字 isAlive() 是判断当前线程是否处于活动状态。活动状态就是已经启动尚未终止。 curren…

MachineLearning(2)-图像分类常用数据集

图像分类常用数据集1 CIFAR-102.MNIST3.STL_104.Imagenet5.L-Sun6.caltech-101在训练神经网络进行图像识别分类时,常会用到一些通用的数据集合。利用这些数据集合可以对比不同模型的性能差异。下文整理常用的图片数据集合(持续更新中)。基本信息对比表格…

Linux网络编程实例详解

本文介绍了在Linux环境下的socket编程常用函数用法及socket编程的一般规则和客户/服务器模型的编程应注意的事项和常遇问题的解决方法,并举了具体代 码实例。要理解本文所谈的技术问题需要读者具有一定C语言的编程经验和TCP/IP方面的基本知识。要实习本文的示例&…

python的命令解析getopt.getopt()函数分析

【转自http://hi.baidu.com/javalang/blog/category/Python】 可以参考http://docs.python.org/lib/module-getopt.html # -*- coding: cp936 -*-import getoptimport sysdef usage():print Help Information:-h: Show help information-xValue:...if __name____main__:#set d…

博弈论基础

博弈论总结 什么是博弈论: 多人进行博弈,假设每个人都采取最优策略,一定有一个人胜出,在知道初态及规则的情况下,求解出 何人胜出的一类问题的理论及方法。 博弈论的一些性质 P点:必败点,N…

矩阵论-范数理论及其应用

范数理论及其应用2.1向量范数及其性质2.2矩阵范数本系列博文主要总结学习矩阵论的心得笔记,参考数目《矩阵论》–张凯院;整个文章的整理体系参照行书过程。范数–非负实数,用于衡量线性空间元素(如:向量,矩…

大数据学习(09)--spark学习

文章目录目录1.spark介绍1.1 spark介绍1.2 scale介绍1.3 spark和Hadoop比较2.spark生态系统3.spark运行框架3.1 基本概念3.2 架构的设计3.3 spark运行基本流程3.4 spark运行原理3.5 RDD运行原理3.5.1 设计背景3.5.2 RDD概念和特性3.5.3 RDD之间的依赖关系3.5.4 stage的划分3.5.…

探索 Pexpect

概述 通过本系列第一部分 《探索 Pexpect,第 1 部分:剖析 Pexpect 》(请参阅参考资料)的介绍,相信大家已经对 Pexpect 的用法已经有了比较全面的了解,知道 Pexpect 是个纯 Python 语言实现的模块&#xff…

Python的Pexpect详解 [图片]

Pexpect 是一个用来启动子程序并对其进行自动控制的纯 Python 模块。 Pexpect 可以用来和像 ssh、ftp、passwd、telnet 等命令行程序进行自动交互。继第一部分《探索 Pexpect,第 1 部分:剖析 Pexpect 》介绍了 Pexpect 的基础和如何使用后,本…

关系数据库——sql增删改

数据的插入 插入元祖 --1. 表名后没有指定属性列:表示要插入的是一条完整的元组,且属性列属性与表定义中的顺序一致 insert into student values (201215128, 陈东, 18, 男, IS);--2. 在表明后指定要插入数据的表名及属性列,属性列的顺序可…

机器学习中的聚类方法总结

聚类定义 定义 聚类就是对大量未知标注 的数据集,按数据 的内在相似性将数据集划分为多个类别,使 类别内的数据相似度较大而类别间的数据相 似度较小。是无监督的分类方式。 聚类思想 给定一个有N个对象的数据集,构造数据的k 个簇&#x…

学点数学(1)-随机变量函数变换

随机变量函数变换本文介绍一维随机变量函数变换,参考文献:https://wenku.baidu.com/view/619f74ac3186bceb19e8bbd0.html变换TTT作用于随机变量XXX,产生随机变量YYY. T:X−>Y或者写为yT(x)T:X->Y 或者写为 yT(x)T:X−>Y或者写为yT(x…

关系数据库——关系数据语言

关系 域:一组具有相同数据类型的值的集合(即取值范围) 笛卡尔积:域上的一种集合运算。结果为一个集合,集合的每一个元素是一个元组,元组的每一个分量来自不同的域。 基数:一个域允许的不同取值…

Python模块(2)-Numpy 简易使用教程

Numpy模块 简易使用教程1.数组创建2.数组基本属性-维度、尺寸、数据类型3.数组访问-索引、切片、迭代4.数组的算术运算-加减乘除、转置求逆、极大极小5.通用函数-sin,cos,exp,sqrtnp.dot与np.matmul的区别6.数组的合并和分割6.1 np.vstack(),np.hstack()6.2 np.stack()7.list与…

机器学习问题总结(01)

文章目录1.请描述推荐系统中协同过滤算法CF的原理2.请描述决策树的原理、过程、终止条件,以及如何防止过拟合2.1决策树生成算法2.2 剪枝处理(防止过拟合)2.3 停止条件2.4 棵决策树的生成过程2.5 决策树的损失函数3.请描述K-means的原理&#…

pthread_attr_init线程属性

1.线程属性 线程具有属性,用pthread_attr_t表示,在对该结构进行处理之前必须进行初始化,在使用后需要对其去除初始化。我们用pthread_attr_init函数对其初始化,用pthread_attr_destroy对其去除初始化。 1. …

Python实例讲解 -- 解析xml

Xml代码 <?xml version"1.0" encoding"utf-8"?> <info> <intro>信息</intro> <list id001> <head>auto_userone</head> <name>Jordy</name> <number&g…

springboot3——Email

maven导入包&#xff1a; <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-mail</artifactId><version>2.1.6.RELEASE</version></dependency> 参数配置&#xff1a; # MailPrope…

python(22)--面向对象1-封装

python面向对象1面向过程/面向对象2面向对象核心概念-类3类的设计3.1类三要素-类名、属性、方法3.2面向对象基础语法3.2.1查看对象的常用方法3.2.2类定义3.2.3创建类对象3.2.4__init__()方法3.2.5 self参数3.2.6类内置方法和属性_del_()方法--销毁对象_str_()方法--定制化输出对…

机器学习问题总结(02)

文章目录1.stacking模型以及做模型融合的知识1.1 从提交结果中融合1.2 stacking1.3 blending2. 怎样去优化SVM算法模型的&#xff1f;2.1 SMO优化算法2.2 libsvm 和 Liblinear3.现有底层是tensorflow的keras框架&#xff0c;如果现在有一个tensorflow训练好的模型&#xff0c;k…