一文搞懂什么是Hadoop

Hadoop概念

什么是Hadoop

Hadoop是一个由Apache基金会所开发的用于解决海量数据的存储及分析计算问题分布式系统基础架构

广义上来说,Hadoop通常指一个跟广泛的概念——Hadoop生态圈。

以下是hadoop生态圈中的技术:

Hadoop优势

hadoop组成

HDFS架构概述

HDFS(Hadoop Distributed File System)是一个分布式文件系统,用于存储文件,通过目录树来定位文件。

  • NameNode(nn):存储文件元数据,比如文件名、目录结构、文件属性(生成时间、副本数、文件权限),以及每个文件的数据块(Block)列表和数据库映射信息(比如块所在哪几个DataNote)等。
  • DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和;执行数据块的读写操作。
  • Secondary NameNode(2nn):定期备份NameNode元数据;在紧急情况下,可辅助恢复NameNode。

HDFS 优缺点

HDFS 的使用场景:适合一次写入,多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变

YARN架构概述

YARN(Yet Another Resource Negotiator)是一个资源调度平台,负责为运算程序提供服务器运算资源。

  • ResourceManager(RM):核心管理服务,负责资源的管理和分配。
  • NodeManager(NM):管理单个节点上的资源。
  • ApplicationMaster(AM):负责内部任务的资源申请和分配;任务的监控和容错。
  • Container:容器,里面封装了任务运行所需要的资源。

MapReduce架构概述

MapReduce 是一个分布式运算程序的编程框架,是用户开发“基于 Hadoop 的数据分析应用”的核心框架。
MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个 Hadoop 集群上。

MapReduce将计算过程分为两个阶段:Map和Reduce。

  • Map 阶段并行处理输入数据;
  • Reduce 阶段对 Map 结果进行汇总。

HDFS、YARN、MapReduce三者关系

Hadoop运行环境集群部署采用了三台服务器,以下是集群部署规划:

注意:

  • NameNode 和 SecondaryNameNode 不要安装在同一台服务器
  • ResourceManager 也很消耗内存,不要和 NameNode、SecondaryNameNode 配置在同一台机器上。

本文由mdnice多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/207745.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一个不错的文章伪原创系统程序源码

一款文章伪原创系统程序源码免费分享,程序是站长原创的。 一共花了站长几天时间写的这个文章伪原创平台,程序无需数据库。 程序前端采用BootStrap框架搭建,后端采用PHP原生书写。 前端伪原创采用Ajax无刷新提交,Ajax转换到词库…

TCPUDP使用场景讨论

将链路从TCP改为UDP会对通信链路产生以下影响和注意事项: 可靠性:UDP是无连接的协议,与TCP相比,它不提供可靠性保证和重传机制。因此,当将链路从TCP改为UDP时,通信的可靠性会降低。如果在通信过程中丢失了U…

【爬取二手车并将数据保存在数据库中】

爬取二手车并将数据保存在数据库中 查看网页结构分析爬取步骤解密加密信息将密文解密代码: 进行爬取:爬取函数写入解密文件函数和获取城市函数解密文件,返回正确字符串函数保存到数据库 运行结果 查看网页结构分析爬取步骤 可以看出网页使用…

C 语言 变量

变量初始值 全局变量:初始值是 0 局部变量:初始值是 随机的 类型限定符 通常不需要显式使用 register 关键字来优化变量的存储和访问。 关键字 _Complex和_Imaginary分别用于表示复数和虚数(二者皆是数学概念) 变量的声明和定义 c…

苹果 macOS 14.1.2 正式发布 更新了哪些内容?

苹果今日向 Mac 电脑用户推送了 macOS 14.1.2 更新(内部版本号:23B92 | 23B2091),本次更新距离上次发布隔了 28 天。 需要注意的是,因苹果各区域节点服务器配置缓存问题,可能有些地方探测到升级更新的时间略…

webWorker解决单线程中的一些小问题和性能优化

背景 js是单线程这是大家都知道,为了防止多个线程同时操作DOM,这个导致一个复杂的同步问题。比如,假定JavaScript同时有两个线程,一个线程在某个DOM节点上添加内容,另一个线程删除了这个节点,这时浏览器应…

全局平均池化的示例

1.对一个3通道,5*5的矩阵,进行全局平均池化 每个矩阵的大小都是 5x5,假设这些矩阵代表一幅图像的三个不同通道。为简单起见,我们将这三个矩阵分别称为 A、B 和 C。合成图像将是一个三通道图像,每个通道由其中一个矩阵…

计算机方向的一些重要缩写和简介

参考: 深度学习四大类网络模型 干货|机器学习超全综述! 机器学习ML、卷积神经网络CNN、循环神经网络RNN、马尔可夫蒙特卡罗MCMC、生成对抗网络GAN、图神经网络GNN——人工智能经典算法 MLP(Multi Layer Perseption)用在神经网络中…

这是最后的战役了

不变因子 初等因子 行列式因子 smith标准型 酉矩阵 H-阵等等 A H A A^H A AHA 就是 H-阵 正定H阵的性质 若 A A A 为正定的H-阵. 存在可逆矩阵 Q Q Q, 使得 A Q H Q AQ^H Q AQHQ.存在 P P P, 使得 P H A P I P^HAPI PHAPI.A的特征值大于0. Q − 1 A Q Q^{…

驾驭苹果的人工智慧模式:克服反击与应对挑战

苹果一年一度的秋季「春晚」时间越来越近,但在大模型浪潮下,苹果何时推出自己的「苹果GPT」成了另一个关注的话题。 毕竟,前有华为,后有小米,在中国手机厂商争相将大模型装进移动终端的同时,苹果却依旧对A…

微服务学习:Ribbon实现客户端负载均衡,将请求分发到多个服务提供者

Ribbon是Netflix开源的一个基于HTTP和TCP客户端负载均衡器。它主要用于在微服务架构中实现客户端负载均衡,将请求分发到多个服务提供者上,从而实现高可用性和扩展性。 Ribbon的主要特点包括: 客户端负载均衡:Ribbon是一个客户端负…

【算法题】找出符合要求的字符串子串(js)

题解: function solution(str1, str2) {const set1 new Set([...str1]);const set2 new Set([...str2]);return [...set1].filter((item) > set2.has(item)).sort();}console.log(solution("fach", "bbaaccedfg"));//输入:fach// bbaacced…

手机上写工作总结用什么软件好?借助工作笔记轻松写出优秀年终总结

随着年底的临近,撰写个人年终工作总结成为了许多职场人士的重要任务。因为手机是每个上班族都要随身携带的电子设备,所以想要抽时间来写年终工作总结,使用手机是比较便捷的。那么,在手机上写工作总结应该使用什么软件呢&#xff1…

Linux 环境下的性能测试——top与stress

对于Linux 环境,top命令是使用频繁且信息较全的命令, 它对于所有正在运行的进行和系统负荷提供实时更新的概览信息。stress是个简单且全面的性能测试工具。通过它可以模拟各种高负载情况。 通过top与stress这两个命令的结合使用,基本可以达到…

软件测试——单元测试

单元测试是软件开发中的一种测试方法,用于验证软件中的各个独立单元(通常是函数、方法或类)是否按照设计规范正常工作。以下是进行单元测试的一般步骤和最佳实践: 1. 选择测试框架 选择适合项目的测试框架,例如&…

SHAP:Python的可解释机器学习库

SHAP:Python的可解释机器学习库 一、概念二、步骤三、代码-以波士顿房价为例summary_plotFeature Importanceshap_interaction_valuesdependence_plot完整代码一、概念 SHAP(Shapley Additive Explanations)模型是一种用于解释机器学习模型预测结果的方法。它基于合作博弈论…

【C++】类和对象——explicit关键字,友元和内部类

这篇博客已经到了类和对象的最后一部分了&#xff0c;下面我们先看一下explicit关键字 我们还是先来引入一个例子&#xff0c;我们的代码是可以这么写的 class A { public:A(int aa 0) {_a aa;cout << "A(int aa 0)" << endl;} private:int _a; }; i…

红队攻防实战之Redis-RCE集锦

心若有所向往&#xff0c;何惧道阻且长 Redis写入SSH公钥实现RCE 之前进行端口扫描时发现该机器开着6379&#xff0c;尝试Redis弱口令或未授权访问 尝试进行连接Redis&#xff0c;连接成功&#xff0c;存在未授权访问 尝试写入SSH公钥 设置redis的备份路径 设置保存文件名 …

[GXYCTF2019]禁止套娃1

提示 git泄露无参数rce &#xff01;&#xff01;注意需要python3环境 github里dirsearch工具下载位置 ###可能需要开节点才能打开 百度网盘dirsearch下载地址 ###如果github里下载不了可以在网盘下载 提取码sx5d 只给了flag在哪里呢&#xff0c;那么应该就是要让…

Java参数校验详解:使用@Valid注解和自定义注解进行参数验证

很多时候我们需要使用不少if、else等等逻辑判断及验证&#xff0c;这样在进行一些重复的参数校验会很麻烦&#xff0c;且以后要维护也会吃力。 而这样就可以使用javax.validation。验证&#xff08;Validation&#xff09;常见的验证操作包括验证数据的类型、格式、长度、范围、…