Hadoop学习笔记

1.Hadoop安装

Apache的国内镜像地址:

地址1:http://mirror.bit.edu.cn/apache/

地址2:https://mirrors.tuna.tsinghua.edu.cn/apache

Fuck CSDN,谁给你的权利把开源的东西作为商品(下载积分)售卖?

Hadoop安装教程

2.HDFS(Hadoop Distributed File System)

2.1 HDFS基本概念

HDFS的文件被分成块(Block)进行存储,HDFS块默认大小是64MB,块是整个文件存储处理的逻辑单元

HDFS中有两类节点NameNode和DataNode

namenode:

是管理节点,存放文件元数据

元数据包含两个部分:

  1. 文件与数据块的映射表

  2. 数据块与数据节点的映射表

datanode:

是hdfs的工作节点,存放数据块

2.2 数据管理策略

1.每个数据保留三份,两份存储在一台机器上,另外一份存储在另一台机器上。确保数据安全可靠

2.心跳检测

DataNode定期向NameNode发送心跳检测,是否宕机,挂掉,作为安全检测;

3.二级NameNode

当NameNode挂掉SecondaryNameNode会替代其位置

2.3 HDFS读取文件流程

客户端发送文件读请求——>namenode返回元数据(从哪些datanode找到)——>客户端读取block,下载下来之后组装;

 

客户端文件拆分成block——>通知namenode返回可用的、有足够磁盘空间的datanode——>客户端对block进行写入——>流水线复制——>更新元数据 ;

 

3.MapReduce

3.1 MapReduce的原理

 mapReduce:分而治之的原理,既将大的任务分解成各个小的任务,既所谓的map,然后将各个小任务的处理结果进行合并,合并汇总称之为reduce.

1、mapreduce是一个并行计算的框架;

2、map将任务分解成多个子任务,reduce将子任务并行执行后合并结果;

3、mapreduce的过程:input split->shuffle->output。

 

 

4、shuffle机制

  1. map task是由并发数决定的,有多少个切片就启动多少个map task
  2. 切片是逻辑概念,指文件中数据偏移量的范围
  3. 切片的具体大小应该根据文件的大小来调整

 

 

3.2 MapReduce的运行流程

MapReduce作业执行过程

MapReduce 容错机制

  1. 重复执行,一次任务失败,会进行重试,4次
  2. 推测执行,单个任务执行慢时,推测其可能出现故障,再另起一个同样的任务,并行执行,哪个先执行完使用哪个

JobTracker 功能职责

  1. 作业调度
  2. 分配任务,监控任务执行进度
  3. 监控TaskTracker的状态

4.YARN

(Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

 

5.Hadpoop生态

 

转载于:https://www.cnblogs.com/Java-Starter/p/9842631.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/426571.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

玩转oracle 11g(1):Oracle 11g的安装

由于工作需要,本人现在要对oracle 11g做一段攻坚战,先从安装开始 基本是傻瓜程序,网上也有大量教程 1 安装数据库软件 安装前准备工作 a.必须使用超级用户安装(adminstrator) b.服务器的名称不要有汉字 c.服务器的名称…

WEB基本架构

转载于:https://www.cnblogs.com/JerryZao/p/9843804.html

玩转oracle 11g(2):创建数据库

纯属个人操作,不懂私聊我 在程序列表中 oracle 的文件下,找到 database configuration assistant 下一步 继续下一步 定制数据库 命名测试歌谣 取消勾选,下一步 为所有用户设置密码 geyao 下一步 点击编辑归档参数 档案资料库取消勾…

玩转oracle 11g(3):配置监听

1打开oracle net configuration 2下一步 3服务名歌谣 4下一步 5主机名电脑的 6测试 输入账号密码总会把,不多说

Verilog语言实现并行(循环冗余码)CRC校验

1 前言 (1) 什么是CRC校验? CRC即循环冗余校验码:是数据通信领域中最常用的一种查错校验码,其特征是信息字段和校验字段的长度可以任意选定。循环冗余检查(CRC)是一种数据传输检错功能&#…

玩转oracle 11g(4):连接,文件操作,交互命令

1连接plsql开始学习 2 Oracle安装会自动的生成sys用户和system用户: (1) sys用户是超级用户,具有最高权限,具有sysdba角色,有create database的权限,该用户默认的密码是change_on_install (2&a…

苹果4s有java系统版本_iphone4s用ios8卡吗?iPhone4s升级iOS8正式版手机体验

9月10日凌晨1点正式推出了iPhone6与iPhone6 Plus,与这两款新机一同来临的还有iOS 8正式版,在北京时间9月18日凌晨,苹果正式向用户推送了iOS 8正式版操作系统。iOS8系统在手机方面仅支持iPhone 4S及以上的设备,不少用户都担心iPhon…

软件——机器学习与Python,Python3的输出与输入

输出 用print()在括号中加上字符串,就可以向屏幕上输出指定的文字。比如输出hello, world,用代码实现如下: >>> print(hello, world)print()函数也可以接受多个字符串,用逗号“,”隔开,就可以连成一串输出&am…

玩转oracle 11g(7):导出导入数据库

oracle11g数据库导入导出: ①:传统方式——exp(导出)和(imp)导入: ②:数据泵方式——expdp导出和(impdp)导入; ③:第三方工具——PL/sql Develpoer; 一、什么是数据库导入导出? oracle11g数据库的导入/导出&#xff0c…

java学习(43):值参数传递

//值参数传递 class student02{ private int age; private int strong; public void addition(int age,int strong){ System.out.println(“年龄为”age); System.out.println(“体重为”strong); age12; strong13; } } public class test10 { public static void main(String…

java学习(44):引用参数传递

//引用参数传递 class test13 { public void seeBook(Book book){ System.out.println("我正在看书,信息如下 "); System.out.println(book.getTitle()); System.out.println(book.getPageSize()); book.setTitle(“三国演义”); book.setPageSize(5000); } } class…

Vector的使用详解

Java中 Vector的使用详解 Vector 可实现自动增长的对象数组。 java.util.vector提供了向量类(Vector)以实现类似动态数组的功能。 创建了一个向量类的对象后,可以往其中随意插入不同类的对象,即不需顾及类型也不需预先选定向量的容量,并可以方…

java学习(45):无参无返回

/*如何定义 Java 中的方法 所谓方法,就是用来解决一类问题的代码的有序组合,是一个功能模块。 一般情况下,定义一个方法的语法是:访问修饰符 返回值类型 方法名(参数列表){方法体} 其中: 1、 访问修饰符:…

java 内部thread_Java代码质量改进之:使用ThreadLocal维护线程内部变量

在上文中,《Java代码质量改进之:同步对象的选择》,我们提出了一个场景:火车站有3个售票窗口,同时在售一趟列车的100个座位。我们通过锁定一个靠谱的同步对象,完成了上面的功能。现在,让我们反过…

java学习(46):无参带返回

/*1、 如果方法的返回类型为 void ,则方法中不能使用 return 返回值! *2、 方法的返回值最多只能有一个,不能返回多个值 *3、 方法返回值的类型必须兼容,例如,如果返回值类型为 int ,则不能返回 String 型值…

Luogu 4284 [SHOI2014]概率充电器

BZOJ 3566 树形$dp$ 概率期望。 每一个点的贡献都是$1$,在本题中期望就等于概率。 发现每一个点要通电会在下面三件事中至少发生一件: 1、它自己通电了。 2、它的父亲给它通电了。 3、它的儿子给它通电了。 那么我们设$f_i$表示它的父亲给它通电的概率&…

java 域的隐藏_Windows Server 2008R2\2012\2016使用域策略自定义隐藏指定驱动器

Windows Server 2008R2\2012\2016使用域策略自定义隐藏指定驱动器最近在做项目的时候需要对Win7客户端的部分驱动器进行隐藏,但域策略默认的隐藏选项不能满足需求,根据微软官方文档https://support.microsoft.com/zh-cn/help/231289/using-group-policy-…

java学习(47):带参无返回

//带参无返回值 /*注意: 1、 调用带参方法时,必须保证实参的数量、类型、顺序与形参一一对应 2、 调用方法时,实参不需要指定数据类型 3、 方法的参数可以是基本数据类型,如 int、double 等,也可以是引用数据类型&am…

java学习(48):带参带返回

public class test14 { public String show(String name) { return “欢迎您,” name "!"; } public static void main(String[] args) {test14 hello new test14();hello.show("歌谣");System.out.println(hello.show("歌谣")); }}

java学习(49):方法重载

定义一个computer类 public class computer { public void runSoftWor(vidio vedio){ System.out.println("视频长度是 "vedio.getLength()); } public void runSoftWor(Voice voice){System.out.println("歌曲的名字是 "voice.getTitle()); }public bool…