简单理解Hadoop(Hadoop是什么、如何工作)

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到教程。

一、Hadoop主要的任务部署分为3个部分,分别是:Client机器,主节点和从节点。主节点主要负责Hadoop两个关键功能模块HDFS、Map Reduce的监督。当Job Tracker使用Map Reduce进行监控和调度数据的并行处理时,名称节点则负责HDFS监视和调度。从节点负责了机器运行的绝大部分,担当所有数据储存和指令计算的苦差。每个从节点既扮演者数据节点的角色又冲当与他们主节点通信的守护进程。守护进程隶属于Job Tracker,数据节点在归属于名称节点。

 

二、Hadoop核心和特点

 

Hadoop的核心就是HDFS和MapReduce,而两者只是理论基础,不是具体可使用的高级应用。

HDFS的设计特点是:

1、大数据文件,非常适合上T级别的大文件或者一堆大数据文件的存储,如果文件只有几个G甚至更小就没啥意思了。

2、文件分块存储,HDFS会将一个完整的大文件平均分块存储到不同计算器上,它的意义在于读取文件时可以同时从多个主机取不同区块的文件,多主机读取比单主机读取效率要高得多得都。

3、流式数据访问,一次写入多次读写,这种模式跟传统文件不同,它不支持动态改变文件内容,而是要求让文件一次写入就不做变化,要变化也只能在文件末添加内容。

4、廉价硬件,HDFS可以应用在普通PC机上,这种机制能够让给一些公司用几十台廉价的计算机就可以撑起一个大数据集群。

5、硬件故障,HDFS认为所有计算机都可能会出问题,为了防止某个主机失效读取不到该主机的块文件,它将同一个文件块副本分配到其它某几个主机上,如果其中一台主机失效,可以迅速找另一块副本取文件。

 

HDFS的关键元素:

1)Block:将一个文件进行分块,通常是64M。

2)NameNode:保存整个文件系统的目录信息、文件信息及分块信息,这是由唯一 一台主机专门保存,当然这台主机如果出错,NameNode就失效了。在 Hadoop2.* 开始支持 activity-standy 模式----如果主 NameNode 失效,启动备用主机运行 NameNode。

3)DataNode:分布在廉价的计算机上,用于存储Block块文件。

 

MapReduce:

我们要数图书馆中的所有书。你数1号书架,我数2号书架。这就是“Map”。我们人越多,数书就更快。

现在我们到一起,把所有人的统计数加在一起。这就是“Reduce”。

通俗说MapReduce是一套从海量源数据提取分析元素最后返回结果集的编程模型,将文件分布式存储到硬盘是第一步,而从海量数据中提取分析我们需要的内容就是MapReduce做的事了。

        MapReduce的基本原理就是:将大的数据分析分成小块逐个分析,最后再将提取出来的数据汇总分析,最终获得我们想要的内容。当然怎么分块分析,怎么做Reduce操作非常复杂,Hadoop已经提供了数据分析的实现,我们只需要编写简单的需求命令即可达成我们想要的数据。

Hadoop典型应用有:搜索、日志处理、推荐系统、数据分析、视频图像分析、数据保存等。

 

三、Hadoop的集群主要由 NameNode,DataNode,Secondary NameNode,JobTracker,TaskTracker组成。

如下图所示:

1)NameNode:记录了文件是如何被拆分成block以及这些block都存储到了那些DateNode节点 .

2)NameNode:保存了文件系统运行的状态信息 .

3)DataNode:存储被拆分的blocks .

4)Secondary NameNode:帮助 NameNode 收集文件系统运行的状态信息 .

5)JobTracker:当有任务提交到 Hadoop 集群的时候负责 Job 的运行,负责调度多个 TaskTracker .

6)TaskTracker:负责某一个 map 或者 reduce 任务 .

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/451445.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JPA @Id 和 @GeneratedValue 注解详解

Id: Id 标注用于声明一个实体类的属性映射为数据库的主键列。该属性通常置于属性声明语句之前,可与声明语句同行,也可写在单独行上。 Id标注也可置于属性的getter方法之前。 GeneratedValue: GeneratedValue 用于标注主键的生…

Factorials 阶乘

Description N的阶乘写作N!表示小于等于N的所有正整数的乘积。阶乘会很快的变大,如13!就必须用32位整数类型来存储,70!即使用浮点数也存不下了。你的任务是找到阶乘最后面的非零位。举个例子,5!1*2*3*4*5120所以5!的最后面的非零位是2&#x…

硬件模块设计思想

硬件模块设计">模块设计,顾名思义就是将各个不同的功能做成独立的模块。然后将各个模块组合成不同的产品。 对于一个公司硬件模块化设计,从设计之初,调试,到样机及产品生产的过程应该是这样: 1.     了解产品需求 2.     根据需求,选择合适的处理…

java中的lastIndexOf( )函数是什么意思

int x a.lastIndexOf(b),表示b字符串在a字符串中最后出现的位置。如 a "abcdabcd";b"d";那么x的值为7.

2 分钟读懂大数据框架 Hadoop 和 Spark 的异同

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到教程。 谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有…

操作系统文件编程知识

文件的创建和读写 当我们需要打开一个文件进行读写操作的时候&#xff0c;我们可以使用系统调用函数open。使用完成以后我们调用另外一个close函数进行关闭操作。 该函数使用的头文件如下&#xff1a; #include <fcntl.h> #include <unistd.h> #include <sys/ty…

论述HTML5平台的若干重要特性

开发者已凭借网页技术制作出创收丰厚的游戏作品许多年&#xff1a;《部落战争》凭借静态网页页面大获成功&#xff0c;《Farmville》凭借Flash开拓出新的疆域。但如今越来越多人觉得&#xff0c;未来HTML5将变成游戏的主要平台。为什么HTML5如此颇具趣味&#xff0c;它是否真的…

多GPU使用详解

目录&#xff1a; 介绍 记录设备状态 手动分配状态 允许GPU内存增长 在多GPU系统是使用单个GPU 使用多个 GPU 一、介绍 在一个典型的系统中&#xff0c;有多个计算设备。在 TensorFlow 中支持的设备类型包括 CPU 和 GPU。他们用字符串来表达&#xff0c;例如&#xff1a; “/cp…

图片上传的两种方式

总的说图片上传有两种方式&#xff0c;一种是把图片文件写到数据库中&#xff0c;另一种是存到服务器文件目录中。写到数据库中的图片文件需要转换成二进制流的格式&#xff0c;占用数据库空间比较多&#xff0c;适合少量图片的存储&#xff0c;比如说&#xff0c;系统中某些小…

最好理解的: spring ioc原理讲解,强烈推荐!

前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到教程。 IOC&#xff08;DI&#xff09;&#xff1a;java程序中的每个业务逻辑至少需要两个或以上的对象来协作完成。通常&#xff0c;每个对象在…

微信小程序 - 回到自己位置(map)

演示效果&#xff1a; 图片资源 index.js 1 /** 2 * 回到自己位置&#xff0c;在cover-image上绑定点击事件即可. 3 */ 4 clickcontrol(e) { 5 let mpCtx wx.createMapContext("map"); 6 mpCtx.moveToLocation(); 7 }, 转载于:https://www.cnbl…

uwsgi搭配nginx

uwsgi搭配nginx可以做域名解析和负载均衡uWSGI&#xff0c;既不用wsgi协议也不用fcgi协议&#xff0c;而是自创了一个uwsgi的协议&#xff0c;据说该协议大约是fcgi协议的10倍那么快。uWSGI的主要特点如下&#xff1a;◆超快的性能。◆低内存占用&#xff08;实测为apache2的mo…

如何让tomcat服务器运行在80端口,并且无需输入项目名即可访问项目()

这个问题最开始遇到的时候是半年前,自己买了个服务器玩,但是域名解析的时候出了问题,我查了查资料才知道腾讯云是默认解析到80端口,而且还改不了. 首先是修改tomcat运行端口号,默认是8080,但是我们可以通过修改配置文件更改, 打开conf/server.xml文件找到这个地方,: 将8080改为…

tailf、tail -f、tail -F三者区别

tail -f 等同于--followdescriptor&#xff0c;根据文件描述符进行追踪&#xff0c;当文件改名或被删除&#xff0c;追踪停止 tail -F 等同于--followname --retry&#xff0c;根据文件名进行追踪&#xff0c;并保持重试&#xff0c;即该文件被删除或改名后&#xff…

使用图形芯片加速电子自动化设计应用程序

以往EDA应用性能瓶颈主要受两方面因素制约&#xff0c;首先大多数应用都是单线程的&#xff0c;而CPU和GPU架构拥有几十到数千的并行内核&#xff0c;其次是应用程序内存延迟问题。目前EDA应用已经部署到传统的常规处理器上。最重要的是这些应用促使人们设计出并行或向量处理器…

自我介绍的四个套路

四套路内容&#xff1a; 1、我是谁&#xff0c;叫什么名字&#xff0c;我从哪里来。 2、我因为什么机缘出现这个场合。 3、我能给大家带来什么价值。 4、我希望能够得到大家的什么帮助。 示例&#xff1a; 大家好&#xff0c;我叫XXX&#xff0c; 听说今天会有几个高人在场&…

加载样式js

var MaskUtil (function(){ var $mask,$maskMsg; var defMsg 数据导出中&#xff0c;请稍待。。。; function init(){ if(!$mask){ $mask $("<div class\"datagrid-mask mymask\"></div>").appendTo("body"); } if(!$mask…

flush privileges

flush privileges 命令本质上的作用是将当前user和privilige表中的用户信息/权限设置从mysql库(MySQL数据库的内置库)中提取到内存里。MySQL用户数据和权限有修改后&#xff0c;希望在"不重启MySQL服务"的情况下直接生效&#xff0c;那么就需要执行这个命令。通常是在…

【Linux】Linux中常用操作命令

前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到教程。 常用指令 ls   显示文件或目录 -l 列出文件详细信息l(list) -a 列出当前目录下所有文件及目录&#xff0…

Mybatis的缓存机制Cache

Mybatis提供对缓存的支持&#xff0c;分为一级缓存和二级缓存&#xff0c;在没有配置的情况下&#xff0c;系统默认会使用一级缓存。 一级缓存&#xff08;SqlSession级别&#xff09; 我们都知道每个SqlSession对象之间的缓存是互不影响的&#xff0c;当同一个SqlSession执行多…