Hadoop学习笔记

1.Hadoop安装

Apache的国内镜像地址:

地址1:http://mirror.bit.edu.cn/apache/

地址2:https://mirrors.tuna.tsinghua.edu.cn/apache

Fuck CSDN,谁给你的权利把开源的东西作为商品(下载积分)售卖?

Hadoop安装教程

2.HDFS(Hadoop Distributed File System)

2.1 HDFS基本概念

HDFS的文件被分成块(Block)进行存储,HDFS块默认大小是64MB,块是整个文件存储处理的逻辑单元

HDFS中有两类节点NameNode和DataNode

namenode:

是管理节点,存放文件元数据

元数据包含两个部分:

  1. 文件与数据块的映射表

  2. 数据块与数据节点的映射表

datanode:

是hdfs的工作节点,存放数据块

2.2 数据管理策略

1.每个数据保留三份,两份存储在一台机器上,另外一份存储在另一台机器上。确保数据安全可靠

2.心跳检测

DataNode定期向NameNode发送心跳检测,是否宕机,挂掉,作为安全检测;

3.二级NameNode

当NameNode挂掉SecondaryNameNode会替代其位置

2.3 HDFS读取文件流程

客户端发送文件读请求——>namenode返回元数据(从哪些datanode找到)——>客户端读取block,下载下来之后组装;

 

客户端文件拆分成block——>通知namenode返回可用的、有足够磁盘空间的datanode——>客户端对block进行写入——>流水线复制——>更新元数据 ;

 

3.MapReduce

3.1 MapReduce的原理

 mapReduce:分而治之的原理,既将大的任务分解成各个小的任务,既所谓的map,然后将各个小任务的处理结果进行合并,合并汇总称之为reduce.

1、mapreduce是一个并行计算的框架;

2、map将任务分解成多个子任务,reduce将子任务并行执行后合并结果;

3、mapreduce的过程:input split->shuffle->output。

 

 

4、shuffle机制

  1. map task是由并发数决定的,有多少个切片就启动多少个map task
  2. 切片是逻辑概念,指文件中数据偏移量的范围
  3. 切片的具体大小应该根据文件的大小来调整

 

 

3.2 MapReduce的运行流程

MapReduce作业执行过程

MapReduce 容错机制

  1. 重复执行,一次任务失败,会进行重试,4次
  2. 推测执行,单个任务执行慢时,推测其可能出现故障,再另起一个同样的任务,并行执行,哪个先执行完使用哪个

JobTracker 功能职责

  1. 作业调度
  2. 分配任务,监控任务执行进度
  3. 监控TaskTracker的状态

4.YARN

(Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

 

5.Hadpoop生态

 

转载于:https://www.cnblogs.com/Java-Starter/p/9842631.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/426571.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

玩转oracle 11g(1):Oracle 11g的安装

由于工作需要,本人现在要对oracle 11g做一段攻坚战,先从安装开始 基本是傻瓜程序,网上也有大量教程 1 安装数据库软件 安装前准备工作 a.必须使用超级用户安装(adminstrator) b.服务器的名称不要有汉字 c.服务器的名称…

WEB基本架构

转载于:https://www.cnblogs.com/JerryZao/p/9843804.html

怎样创建两个菜单JAVA_java – 如何创建一个菜单的JButton?

这在Swing比在需要是更困难的方式。因此,我不是指向你的教程,我创建了一个完全工作的例子。import javax.swing.*;import java.awt.*;import java.awt.event.ActionEvent;import java.awt.event.MouseAdapter;import java.awt.event.MouseEvent;public c…

玩转oracle 11g(2):创建数据库

纯属个人操作,不懂私聊我 在程序列表中 oracle 的文件下,找到 database configuration assistant 下一步 继续下一步 定制数据库 命名测试歌谣 取消勾选,下一步 为所有用户设置密码 geyao 下一步 点击编辑归档参数 档案资料库取消勾…

Selenium 自动化测试基础知识

1. 适合做自动化测试的项目 需求变更更有计划性,并且频率不高;项目周期长,资源丰富评估重复使用自动化测试脚本的过程、时间;项目测试过程中,回归测试轮次比较多,功能点多,时间比较短&#xff1…

玩转oracle 11g(3):配置监听

1打开oracle net configuration 2下一步 3服务名歌谣 4下一步 5主机名电脑的 6测试 输入账号密码总会把,不多说

Verilog语言实现并行(循环冗余码)CRC校验

1 前言 (1) 什么是CRC校验? CRC即循环冗余校验码:是数据通信领域中最常用的一种查错校验码,其特征是信息字段和校验字段的长度可以任意选定。循环冗余检查(CRC)是一种数据传输检错功能&#…

java aac rtp封装_分享一段H264视频和AAC音频的RTP封包代码

1. H264视频的RTP封包static int h264_parse(Track *tr, uint8_t *data, size_t len){h264_priv *priv tr->private_data;// double nal_time; // see page 9 and 7.4.1.2size_t nalsize 0, index 0;uint8_t *p, *q;if (priv->is_avc) {while (1) {unsigned int i;…

玩转oracle 11g(4):连接,文件操作,交互命令

1连接plsql开始学习 2 Oracle安装会自动的生成sys用户和system用户: (1) sys用户是超级用户,具有最高权限,具有sysdba角色,有create database的权限,该用户默认的密码是change_on_install (2&a…

AT1984 Wide Swap

AT1984 Wide Swap 题意翻译 给出一个元素集合为\(\{1,2,\dots,N\}(1\leq N\leq 500,000)\)的排列\(P\)&#xff0c;当有\(i,j(1\leq i<j\leq N)\)满足\(j-i\geq K\)\((1\leq K\leq N-1)\)且\(|P_{i}-P{j}|1\)时&#xff0c;可以交换\(P_{i}\)和\(P_{j}\) 求&#xff1a;可能…

玩转oracle 11g(5):表空间的作用

表空间是oracle内部定义的一个概念,是为了统一oracle物理和逻辑 上的结构而专门建立的,从物理上来说,一个表空间是由具体的一个或多个磁盘上数 据文件构成的(至少1对1,可以1对多),从逻辑上来说一个表空间是由具体的一个或 多个用户模式下的表,索引等等里面的数据所构成的. 因此…

苹果4s有java系统版本_iphone4s用ios8卡吗?iPhone4s升级iOS8正式版手机体验

9月10日凌晨1点正式推出了iPhone6与iPhone6 Plus&#xff0c;与这两款新机一同来临的还有iOS 8正式版&#xff0c;在北京时间9月18日凌晨&#xff0c;苹果正式向用户推送了iOS 8正式版操作系统。iOS8系统在手机方面仅支持iPhone 4S及以上的设备&#xff0c;不少用户都担心iPhon…

软件——机器学习与Python,Python3的输出与输入

输出 用print()在括号中加上字符串&#xff0c;就可以向屏幕上输出指定的文字。比如输出hello, world&#xff0c;用代码实现如下&#xff1a; >>> print(hello, world)print()函数也可以接受多个字符串&#xff0c;用逗号“,”隔开&#xff0c;就可以连成一串输出&am…

玩转oracle 11g(6): oracle用户管理

oracle用户的管理 创建用户 概述&#xff1a;在oracle中要创建一个新的用户使用create user语句&#xff0c;一般是具有dba(数据库管理员)的权限才能使用。 create user 用户名 identified by 密码; (oracle有个毛病&#xff0c;密码必须以字母开头&#xff0c;如果以字母开头&…

玩转oracle 11g(7):导出导入数据库

oracle11g数据库导入导出&#xff1a; ①:传统方式——exp(导出)和(imp)导入&#xff1a; ②:数据泵方式——expdp导出和&#xff08;impdp&#xff09;导入; ③:第三方工具——PL/sql Develpoer; 一、什么是数据库导入导出&#xff1f; oracle11g数据库的导入/导出&#xff0c…

会php学java入门要多久_php8(java入门要多久)

PHP编程运算&#xff0c;如何得到3 4 7 8 11 12 15 16 19 20这个规律的数字 其实就是.arr []; for (i 3; i < 20;) { if (i % 2 ! 0) { arr.push(i)&#xff1b; // 相邻百两个度数字&#xff0c;比知如 3 4 arr.push(i 1); i 4&#xff1b; // 跳跃道至下专一个分属段 …

java学习(43):值参数传递

//值参数传递 class student02{ private int age; private int strong; public void addition(int age,int strong){ System.out.println(“年龄为”age); System.out.println(“体重为”strong); age12; strong13; } } public class test10 { public static void main(String…

CentOS 7 主机名bogon解决办法

转https://blog.csdn.net/qq_24221531/article/details/80334942一、修改linux主机的配置文件/etc/hostname 和 /etc/hosts&#xff0c;这种方式修改后系统重启依旧有效。1.修改/etc/hostname里面的主机名字。# vim /etc/hostname#localhost.localdomain//屏蔽这一行localhost/…

python get post请求_使用python封装get+post请求

VS2010编写WebService与在IIS的发布&lt&semi;之简单讲解&gt&semi;工具VS2010,window环境win7 一:Webservice的创建与方法查看调用 1.新建空web应用程序项目 2.新建web服务 3.自动生成 4.直接跑起来,可以看到有2个方法 5.点击H ...subversionyum install apr-ut…

java学习(44):引用参数传递

//引用参数传递 class test13 { public void seeBook(Book book){ System.out.println("我正在看书,信息如下 "); System.out.println(book.getTitle()); System.out.println(book.getPageSize()); book.setTitle(“三国演义”); book.setPageSize(5000); } } class…