简单理解Hadoop(Hadoop是什么、如何工作)

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到教程。

一、Hadoop主要的任务部署分为3个部分,分别是:Client机器,主节点和从节点。主节点主要负责Hadoop两个关键功能模块HDFS、Map Reduce的监督。当Job Tracker使用Map Reduce进行监控和调度数据的并行处理时,名称节点则负责HDFS监视和调度。从节点负责了机器运行的绝大部分,担当所有数据储存和指令计算的苦差。每个从节点既扮演者数据节点的角色又冲当与他们主节点通信的守护进程。守护进程隶属于Job Tracker,数据节点在归属于名称节点。

 

二、Hadoop核心和特点

 

Hadoop的核心就是HDFS和MapReduce,而两者只是理论基础,不是具体可使用的高级应用。

HDFS的设计特点是:

1、大数据文件,非常适合上T级别的大文件或者一堆大数据文件的存储,如果文件只有几个G甚至更小就没啥意思了。

2、文件分块存储,HDFS会将一个完整的大文件平均分块存储到不同计算器上,它的意义在于读取文件时可以同时从多个主机取不同区块的文件,多主机读取比单主机读取效率要高得多得都。

3、流式数据访问,一次写入多次读写,这种模式跟传统文件不同,它不支持动态改变文件内容,而是要求让文件一次写入就不做变化,要变化也只能在文件末添加内容。

4、廉价硬件,HDFS可以应用在普通PC机上,这种机制能够让给一些公司用几十台廉价的计算机就可以撑起一个大数据集群。

5、硬件故障,HDFS认为所有计算机都可能会出问题,为了防止某个主机失效读取不到该主机的块文件,它将同一个文件块副本分配到其它某几个主机上,如果其中一台主机失效,可以迅速找另一块副本取文件。

 

HDFS的关键元素:

1)Block:将一个文件进行分块,通常是64M。

2)NameNode:保存整个文件系统的目录信息、文件信息及分块信息,这是由唯一 一台主机专门保存,当然这台主机如果出错,NameNode就失效了。在 Hadoop2.* 开始支持 activity-standy 模式----如果主 NameNode 失效,启动备用主机运行 NameNode。

3)DataNode:分布在廉价的计算机上,用于存储Block块文件。

 

MapReduce:

我们要数图书馆中的所有书。你数1号书架,我数2号书架。这就是“Map”。我们人越多,数书就更快。

现在我们到一起,把所有人的统计数加在一起。这就是“Reduce”。

通俗说MapReduce是一套从海量源数据提取分析元素最后返回结果集的编程模型,将文件分布式存储到硬盘是第一步,而从海量数据中提取分析我们需要的内容就是MapReduce做的事了。

        MapReduce的基本原理就是:将大的数据分析分成小块逐个分析,最后再将提取出来的数据汇总分析,最终获得我们想要的内容。当然怎么分块分析,怎么做Reduce操作非常复杂,Hadoop已经提供了数据分析的实现,我们只需要编写简单的需求命令即可达成我们想要的数据。

Hadoop典型应用有:搜索、日志处理、推荐系统、数据分析、视频图像分析、数据保存等。

 

三、Hadoop的集群主要由 NameNode,DataNode,Secondary NameNode,JobTracker,TaskTracker组成。

如下图所示:

1)NameNode:记录了文件是如何被拆分成block以及这些block都存储到了那些DateNode节点 .

2)NameNode:保存了文件系统运行的状态信息 .

3)DataNode:存储被拆分的blocks .

4)Secondary NameNode:帮助 NameNode 收集文件系统运行的状态信息 .

5)JobTracker:当有任务提交到 Hadoop 集群的时候负责 Job 的运行,负责调度多个 TaskTracker .

6)TaskTracker:负责某一个 map 或者 reduce 任务 .

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/451445.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Factorials 阶乘

Description N的阶乘写作N!表示小于等于N的所有正整数的乘积。阶乘会很快的变大,如13!就必须用32位整数类型来存储,70!即使用浮点数也存不下了。你的任务是找到阶乘最后面的非零位。举个例子,5!1*2*3*4*5120所以5!的最后面的非零位是2&#x…

2 分钟读懂大数据框架 Hadoop 和 Spark 的异同

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到教程。 谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有…

论述HTML5平台的若干重要特性

开发者已凭借网页技术制作出创收丰厚的游戏作品许多年:《部落战争》凭借静态网页页面大获成功,《Farmville》凭借Flash开拓出新的疆域。但如今越来越多人觉得,未来HTML5将变成游戏的主要平台。为什么HTML5如此颇具趣味,它是否真的…

微信小程序 - 回到自己位置(map)

演示效果: 图片资源 index.js 1 /** 2 * 回到自己位置,在cover-image上绑定点击事件即可. 3 */ 4 clickcontrol(e) { 5 let mpCtx wx.createMapContext("map"); 6 mpCtx.moveToLocation(); 7 }, 转载于:https://www.cnbl…

如何让tomcat服务器运行在80端口,并且无需输入项目名即可访问项目()

这个问题最开始遇到的时候是半年前,自己买了个服务器玩,但是域名解析的时候出了问题,我查了查资料才知道腾讯云是默认解析到80端口,而且还改不了. 首先是修改tomcat运行端口号,默认是8080,但是我们可以通过修改配置文件更改, 打开conf/server.xml文件找到这个地方,: 将8080改为…

使用图形芯片加速电子自动化设计应用程序

以往EDA应用性能瓶颈主要受两方面因素制约,首先大多数应用都是单线程的,而CPU和GPU架构拥有几十到数千的并行内核,其次是应用程序内存延迟问题。目前EDA应用已经部署到传统的常规处理器上。最重要的是这些应用促使人们设计出并行或向量处理器…

【Linux】Linux中常用操作命令

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到教程。 常用指令 ls   显示文件或目录 -l 列出文件详细信息l(list) -a 列出当前目录下所有文件及目录&#xff0…

大数据应用时代来袭 SaaS走向没落?

随着大量的信息涌入互联网——90%的互联网是过去两年建立起来的——互联网公司正在想方设法去熟悉并利用大数据来推动他们的业务。正如SaaS和云技术一样完全变革了企业的运作方式一样,大数据应用(BDA)也同样可以。 BDA是基于网络的应用&#…

Java程序员必知的10个调试技巧

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到教程。 在本文中,作者将使用大家常用的的开发工具Eclipse来调试Java应用程序。但这里介绍的调试方法基本都是通用的,也适…

【GPS】GPS的C_GNSS_RF_ELNA_GPIO_NUM_DEFAULT配置,Linux系统中GPIO的设置

GPS的GPIO配置文件 客户需要更改此变量C_GNSS_RF_ELNA_GPIO_NUM_DEFAULT才能覆盖NAVRF驱动程序ELNA设置。   modem_proc/gps/gnss/mgp/me/gen8/src/cgps_ext.c /* Customer needs to change this variable in order to override NAVRF driver ELNA setting */ gnss_ExternalG…

性能测试的重要意义(一)

♦我是一下下面几个方面来理解的: 1.秒的性能对于顾客的意义? 2.性能测试的重要意义 3.什么是软件的性能? 4.软件的性能测试是什么? 5.功能测试和性能测试对比? 6.项目组不同角色眼中的软件性能? 7.性能测试…

ContextLoaderListener介绍

在给新同事培训Spring MVC时&#xff0c;有人问&#xff1a;可以不配置ContextLoaderListener吗 所谓ContextLoaderListener&#xff0c;就是在web部署描述符即web.xml里面经常配置的一个监听器&#xff0c;如下 [html] view plaincopy <listener> <listener-cl…

移动开发(C#、VB.NET)Smobiler开发平台——GifView控件的使用方式

2019独角兽企业重金招聘Python工程师标准>>> 一、 样式一 我们要实现上图中的效果&#xff0c;需要如下的操作&#xff1a; 从工具栏上的“Smobiler Components”拖动一个GifView控件到窗体界面上修改GifView的属性 AutoPlay属性获得和设置是否自动播放Gif…

常用数据结构--线性结构

数据结构是计算机存储、组织数据的方式。常见的数据结构分类方式如下图&#xff1a; 常用的线性结构有&#xff1a;线性表&#xff0c;栈&#xff0c;队列&#xff0c;循环队列&#xff0c;数组。线性表中包括顺序表、链表等&#xff0c;其中&#xff0c;栈和队列只是属于逻辑上…

依赖注入简介(一)

依赖注入(Injecting dependencies)经常听起来会让人感觉到很难以理解&#xff0c;会让大家感觉这是很复杂的编程技术&#xff0c;但是事实上并不是这样&#xff0c;依赖注入非常方便使用&#xff0c;它会让你的程序非常便于理解&#xff0c;同时也更容易进行测试。 依赖注入的…

Jmeter笔记(Ⅱ)使用Jmeter实现轻量级的接口自动化测试

接口测试虽然作为版本的一环&#xff0c;但是也是有一套完整的体系&#xff0c;有接口的功能测试、性能测试、安全测试&#xff1b;同时&#xff0c;由于接口的特性&#xff0c;接口的自动化低成本高收益的&#xff0c;使用一些开源工具或一些轻量级的方法&#xff0c;在测试用…

依赖注入简介(二)

在上一篇中&#xff0c;我们已经介绍过了最基本的依赖注入&#xff0c;接下来我们来看如何对需要使用的类进行装配。通常应用程序的组件之间的关联是通过wiring&#xff0c;在Spring中同样有很多方式来装配。但是一个最通常我们使用的方法是利用XML。接下来我们来展示一个简单的…

eclipse启动tomcat 访问http://localhost:8080 报404错误

前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到教程。 eclipse正常启动tomcat&#xff0c;但是 访问http://localhost:8080 却报404错误 修改下配置 就好操作如下图 打开eclipse的server视图&a…

手把手JDK环境变量配置

分为下载&#xff0c;配置&#xff0c;验证三个步骤解释如何进行JDK环境变量配置。 步骤一&#xff1a; 首先查看配置成功后的效果&#xff1a; tip:点击win——>运行&#xff08;或者使用winr,或者shift鼠标右键打开powershell&#xff09;——>输入cmd回车——>控制…

myeclipse进入Myeclipse configuration center 如何关闭

前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到教程。 找到这个图标&#xff0c;放上去显示return即可关闭&#xff0c;隐藏很深有木有