大数据存储技术笔记

目录

大数据的特性

HDFS 读流程的基本步骤

HDFS 写流程的基本步骤

Mapreduce的执行过程

MapReduce 中 combiner 作用

hadoop 调度器及其工作方法

Hive 中内部表与外部表区别(创建删除角度)

Hadoop 的 2 个主要组件及其功能

Hadoop MapReduce 的工作流程

正常工作的 hadoop 集群中 Hadoop 分别启动哪些进程及其作用

Hadoop 中的 NameNode 和 DataNode 分别承担的角色

Hadoop 集群中的 NameNode 如何保证单点故障问题

Hadoop 中的 Block 是什么及其作用

Hadoop 在大数据处理中的优势

FsImage 镜像文件和 EditLog 日志文件 HDFS 中提供的 Secondary NameNode 节点的职责

Hadoop 中的分区器(Partitioner)的作用

YARN 提交作业的流程


大数据的特性

全样而非抽样、效率而非精确 、相关而非因果

HDFS(Hadoop Distributed File System)的读流程主要涉及客户端(Client)、NameNode 和 DataNode 之间的交互。

HDFS 读流程的基本步骤

文件切分(对于上传操作): 当文件上传到 HDFS 时,客户端(Client)首先将文件切分成一个个的数据块(Block),然后进行上传。

与 NameNode 交互: 客户端向 NameNode 发送请求,获取要读取文件的位置信息。这个位置信息包括了组成该文件的所有数据块(Block)以及它们所在的 DataNode 的地址。

与 DataNode 交互: 一旦客户端获得了文件的数据块及其所在的 DataNode 的位置信息,它就会与这些 DataNode 进行交互,以读取数据。 客户端可能会并行地从多个 DataNode 读取数据块,以提高读取效率。

数据读取: 客户端从 DataNode 读取数据块,并在本地重新组装这些数据块,以还原原始文件。

关闭连接: 当文件读取完成后,客户端关闭与 DataNode 和 NameNode 的连接。

HDFS(Hadoop Distributed File System)的写流程涉及客户端(Client)、NameNode 和 DataNode 之间的交互。

HDFS 写流程的基本步骤

客户端发起请求: 客户端(Client)首先向 HDFS 的 NameNode 发送写入文件的请求。NameNode 是 HDFS 的 主节点,负责管理文件系统的命名空间和元数据信息。

NameNode 响应请求: NameNode 接收到客户端的请求后,会检查自身是否正常运行,判断要创建的文件是否存在, 以及客户端是否具有创建文件的权限。如果以上检查都通过,NameNode 会在 HDFS 文件系 统中创建一个空文件,并将这一操作记录在 edits.log 文件中。如果检查中有任何一项未通过, NameNode 会向客户端抛出异常,文件创建失败。

文件切分: 客户端将待写入的文件切分成固定大小的数据块(通常为 128MB)。每个数据块都会被分配一个唯一的块标识符。

数据块副本选择: 在写入数据块之前,客户端需要选择数据块的副本位置。这通常是基于 HDFS 的副本放置策略,旨在减少数据传输的开销和延迟。

数据块写入: 客户端将数据块分别发送给副本位置所在的 DataNode。DataNode 接收到数据块后,会将数据块暂存到本地磁盘上的临时文件中。

数据块复制: 一旦数据块被写入到一个 DataNode 的临时文件中,该 DataNode 会将其复制到其他副本位置所在的 DataNode 上。

副本确认: 当所有副本都完成数据写入后,DataNode 会向客户端发送副本确认信息。客户端收到所有副本的确认信息后,将告知 NameNode 数据块的写入完成。

Mapreduce的执行过程

MapReduce 中 combiner 作用

Hadoop 中的 Combiner 是 MapReduce 作业中的一个可选组件,用于在 Map 阶段对输出数据进行部分聚合。

Combiner 可以减少 Map 和 Reduce 之间传输的数据量,从而降低网络带宽的消耗。

同时,Combiner 还可以减少 Reduce 阶段的计算量,提高作业的执行效率。

hadoop 调度器及其工作方法

Fifo schedular:默认,先进先出的原则。

Capacity schedular:计算能力调度器,选择占用最小,优先级高的先执行,以此类推。

Fair schedule:公平调度,所有的 job 具有相同的资源。

Hive 中内部表与外部表区别(创建删除角度)

创建表阶段: 外部表创建表的时候,不会移动数到数据仓库目录中(/user/hive/warehouse),只会记录表数 据存放的路径,内部表会把数据复制或剪切到表的目录下。

删除表阶段: 外部表在删除表的时候只会删除表的元数据信息不会删除表数据,内部表删除时会将元数据 信息和表数据同时删除

Hadoop 的 2 个主要组件及其功能

Hadoop 主要由两个核心组件组成:Hadoop Distributed File System (HDFS) 和 MapReduce。

HDFS:Hadoop 的分布式文件系统,用于存储和管理大数据集。它采用主/从架构,包括一个 NameNode(主节点)和多个 DataNode(从节点)。NameNode 管理文件系统的元数据, 而 DataNode 存储实际的数据块。

MapReduce:Hadoop 的编程框架,用于处理存储在 HDFS 中的大数据。它将复杂的数据处 理任务分解为两个主要阶段:Map 阶段和 Reduce 阶段。Map 阶段将数据划分为多个键值对,Reduce 阶段则对这些键值对进行聚合和输出。

Hadoop MapReduce 的工作流程

输入阶段:MapReduce 作业从 HDFS 或其他输入源读取数据。

Map 阶段:Map 任务将输入数据划分为多个键值对,并对其进行处理。处理结果作为中间 键值对输出到本地磁盘。

Shuffle 阶段:MapReduce 框架将 Map 任务输出的中间键值对按照键进行排序和分组,并将 相同键的值传递给 Reduce 任务。

Reduce 阶段:Reduce 任务接收 Shuffle 阶段传递过来的键值对,对它们进行聚合处理,并将 结果输出到 HDFS 或其他输出源。

输出阶段:MapReduce 作业将 Reduce 任务输出的结果存储到 HDFS 或其他输出目标。

正常工作的 hadoop 集群中 Hadoop 分别启动哪些进程及其作用

Namenode:管理集群,并记录 datanode 文件信息。

Secondnamenode:可以做冷备,对一定范围内数据做快照性备份。

Datanode:存储数据 。

ResourceManager:负责集群中所有资源的统一管理和分配,它接收来自各个节点 (nodemanager)的资源汇报信息,并把这些信息按照一定的策略分配给各个应用程序(实际上是 applicationmanager)

NodeManager:是 yarn 中每个节点上的代理,它管理 hadoop 集群中单个计算节点,包括与 resoucemanager 保持通信,监督 container 的生命周期管理,监控每个 container 的资源 使用(内存、cpu 等)情况,追踪节点健康状况,管理日志和不同应用程序用到的附属服务。

Hadoop 中的 NameNode 和 DataNode 分别承担的角色

NameNode:NameNode 是 HDFS 中的主节点,负责维护文件系统的元数据,如文件目录结 构、文件块与 DataNode 的映射关系等。它不接受客户端的读写请求,而是将请求转发给 DataNode,并协调数据的读写操作。

DataNode:DataNode 是 HDFS 中的从节点,负责存储实际的数据块。客户端通过与 NameNode 通信获取数据块的存储位置,然后直接与 DataNode 进行数据的读写操作。DataNode 还会定 期向 NameNode 发送心跳信息,以报告自身的状态和数据块的完整性。

Hadoop 集群中的 NameNode 如何保证单点故障问题

Hadoop 集群中的 NameNode 单点故障问题可以通过设置 NameNode 的高可用性(HA)来解 决。

HA 配置使用两个 NameNode 实例,一个处于活动状态(Active),另一个处于备用状态 (Standby)。

当活动 NameNode 出现故障时,备用 NameNode 会自动接管其工作,从而确保集群的连续 性和可用性。

此外,还可以使用 Zookeeper 等分布式协调服务来监控和管理 NameNode 的状态和切换过程。

Hadoop 中的 Block 是什么及其作用

Hadoop 中的 Block 是 HDFS 中数据存储的基本单位,通常大小为 128MB(可配置)。HDFS 将数据划分为多个 Block,并将它们分散存储在集群中的多个 DataNode 上。

这种设计提高了数据的可靠性和可扩展性,因为每个 Block 都有多个副本存储在不同的节点上,并且可以通过增加节点来扩展存储能力。

Hadoop 在大数据处理中的优势

可扩展性:Hadoop 能够处理 PB 级甚至更大的数据集,通过增加节点可以轻松地扩展集群的处理能力。

容错性:Hadoop 采用分布式存储和计算的方式,将数据分散存储在多个节点上,并通过数据冗余和故障恢复机制保证数据的高可用性。

灵活性:Hadoop 支持多种编程语言和工具进行数据处理,如 Java、Python 等,同时提供了丰富的 API 和生态系统供开发者使用。

成本效益:Hadoop 运行在普通硬件上,相比传统的高性能计算集群具有更低的成本。同时, Hadoop 的开源特性使得用户可以免费获取和使用它。

FsImage 镜像文件和 EditLog 日志文件 HDFS 中提供的 Secondary NameNode 节点的职责

FsImage 镜像文件用于存储整个文件系统命名空间的信息,EditLog 日志文件用于持久化记录文件系统元数据发生的变化。

Secondary NameNode 节点主要是周期性的把 NameNode 中的 EditLog 日志文件合并到 FsImage 镜像文件中,从而减小 EditLog 日志文件的大小,缩短集群重启时间,并且也保证 了 HDFS 系统的完整性。

Hadoop 中的分区器(Partitioner)的作用

在 Hadoop 的 MapReduce 作业中,分区器用于确定 Map 阶段输出的键值对应该发送到哪个 Reducer 进行处理。

分区器根据键的哈希值或其他逻辑将数据划分为不同的分区,并将每个分区的数据发送到对应的 Reducer。

这种设计可以确保具有相同键的数据被发送到同一个 Reducer 进行处理,从而便于在 Reduce 阶段进行聚合操作。

YARN(Yet Another Resource Negotiator)是 Hadoop 的一个资源管理系统,它负责集群中的 资源管理和作业调度。

YARN 提交作业的流程

作业提交: Client(客户端)调用 job.waitForCompletion 方法,向整个集群提交 MapReduce 作业。 Client 向 ResourceManager(RM)申请一个作业 ID。 RM 给 Client 返回该 job 的资源提交路径和作业 ID。 Client 提交 jar 包、切片信息和配置文件到指定的资源提交路径。 Client 提交完资源后,向 RM 申请运行 MRAppMaster(MapReduce 应用程序主)。

作业初始化: 当 RM 收到 Client 的请求后,将该 job 添加到容量调度器中。 某一个空闲的 NodeManager(NM)领取到该 Job。 该 NM 创建 Container,并产生 MRAppMaster。 下载 Client 提交的资源到本地。

资源分配: MRAppMaster 与 RM 的应用程序管理器(Application Manager)进行交互,协商以获取运行 作业所需的资源。 RM 的调度器根据集群的资源情况和配置的调度策略(如容量调度、公平调度等),将资源 分配给 MRAppMaster。

任务执行: MRAppMaster 将获取到的资源分配给各个 NM。 NM 上的 Executor(执行器)根据分配到的资源和作业的具体任务,开始执行 Map Task 或 Reduce Task。

作业监控和完成: RM 的应用程序管理器负责监控 MRAppMaster 的运行状态,并在必要时进行重启。 当所有任务执行完毕后,MRAppMaster 通知 RM 作业已完成。 Client 通过 RM 获取作业完成状态,并获取结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/31469.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AWS Lambda + Flask 应用示例

前言 AWS Lambda 本身是一个以事件驱动的 Serverless 服务, 最简单的应用就是在入口函数中对接收到的事件/请求进行处理并返回响应. 对于像 Flask 这样的 Web 框架, 并不能直接在 Lambda 上提供服务, 不过我们可以借助 AWS Lambda Web Adapter 实现一个基于 Flask 框架的 Web …

IDEA、PyCharm等基于IntelliJ平台的IDE汉化方式

PyCharm 或者 IDEA 等编辑器是比较常用的,默认是英文界面,有些同学用着不方便,想要汉化版本的,但官方没有这个设置项,不过可以通过插件的方式进行设置。 方式1:插件安装 1、打开设置 File->Settings&a…

iptables(4)规则匹配条件

简介 前面我们已经介绍了iptables的基本原理,表、链,数据包处理流程。如何查询各种表的信息。还有基本的增、删、改、保存的基础操作。 经过前文介绍,我们已经能够熟练的管理规则了,但是我们只使用过一种匹配条件,就是将”源地址”作为匹配条件。那么这篇文章中,我们就来…

【Java】已解决java.net.MalformedURLException异常

文章目录 一、分析问题背景二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项 已解决java.net.MalformedURLException异常 在Java的网络编程中,java.net.MalformedURLException是一个常见的异常,它通常表明URL(统一资源定位符…

「五度易链」企业大数据API接口开放平台上线啦!

“五度易链”企业大数据API接口开放平台现已正式上线,旨在为广大企业、开发者及个人提供标准、安全、高效、便捷的企业数据API接口服务,帮您更轻松地构建应用、扩展功能,并基于用户应用场景提供专属接口定制服务,助力企业提升研发…

数据分析必备:一步步教你如何用matplotlib做数据可视化(8)

1、Matplotlib 条形图 条形图或条状图是一种图表或图形,它显示带有矩形条的分类数据,其高度或长度与它们所代表的值成比例。可以垂直或水平绘制条形。 条形图显示了离散类别之间的比较。图表的一个轴显示要比较的特定类别,另一个轴表示测量值…

Stable Diffusion WebUI 使用ControlNet:IP-Adapter保持生图的角色一致性

IP-Adapter-FaceID可以在保持人脸一致的条件下生成各种风格的图像。 下载 IP Adapter 需要的 Face ID 模型和 Lora 下载地址:https://huggingface.co/h94/IP-Adapter-FaceID/ 下载 ip-adapter-faceid-plusv2_sd15.bin 和 ip-adapter-faceid-plusv2_sd15_lora.saf…

【MySQL进阶之路 | 高级篇】常见索引(聚簇索引, 二级索引)

1. 常见索引概念 索引按照物理实现方式,可以分为两种,聚簇索引和非聚簇索引.我们也把非聚簇索引称为二级索引或辅助索引. (1). 聚簇索引 聚簇索引并不是一种单独的索引类型,而是一种数据存储方式(所有的数据记录都存储在了叶子节点)&#…

js如何使得四舍五入的百分比之和为100%

在JavaScript中,如果你想要确保一组四舍五入后的百分比之和严格等于100%,那么你不能直接对每个百分比进行四舍五入,因为四舍五入会引入误差。但是,你可以采用一种策略,即先对所有的百分比进行常规的四舍五入&#xff0…

C# WPF入门学习主线篇(二十九)—— 绑定到对象和集合

C# WPF入门学习主线篇(二十九)—— 绑定到对象和集合 在WPF中,数据绑定是开发动态和交互性用户界面的核心技术。通过数据绑定,我们可以轻松地将UI控件与后台的数据源连接起来,实现数据的自动更新和显示。在本篇文章中&…

wordpress 导航主题 有批量从源码导入功能

下载地址:wordpress导航主题 可以批量导入

ardupilot开发 --- Jetson Orin Nano 后篇

我拼命加速,但贫穷始终快我一步 0~1920. visp-d455:基于IBVS的Pixhawk无人机视觉伺服20.1 基础关于连接、通讯、UDP forward服务:一些相关的、有用的例程Linux C程序的gdb断点调试搭建仿真解决【testPixhawkDroneTakeoff.cpp例程能解锁但起飞…

WIFI6E中的MESH组网功能

什么是WIFI6E和MESH组网? WIFI 6E 是扩展到6GHz 频段的WIFI 6无线通信技术,而“WIFI 6E”中的“6”是指WIFI技术的“第6代”,“E”则是指使用新频段的标准的最新扩展。WIFI 6E通过增加6GHz频段,提供更高的带宽、更低的延迟和更大…

VMware虚拟机下载安装Windows Server 2016

「作者简介」:2022年北京冬奥会网络安全中国代表队,CSDN Top100,就职奇安信多年,以实战工作为基础对安全知识体系进行总结与归纳,著作适用于快速入门的 《网络安全自学教程》,内容涵盖系统安全、信息收集等…

从新手小白到红酒大咖:解锁红酒品鉴的终极秘籍,升级之路全攻略

在五彩斑斓的饮品世界中,红酒以其深邃的色泽、丰富的口感和悠久的历史,吸引了无数人的目光。对于红酒的初学者来说,从小白到品鉴师的道路或许充满了未知与挑战,但只要掌握了正确的知识和方法,就能够轻松踏入这个美妙的…

用群辉NAS打造影视墙(Jellyfin篇)

目录 1、安装Jellyfin媒体服务器 2、配置 (1)语言 (2)管理员账户 (3)添加媒体库 (4)指定元数据语言 (5)远程访问设置 (6)修改文件夹权限 (7)刷新电影 (8)启用硬件加速 3、PC浏览器访问 4、手机客户端 5、智能TV客户端 6、解决演员不能显示中文的问…

Jenkins+gitee流水线部署springboot项目

目录 前言 一、软件版本/仓库 二、准备工作 2.1 安装jdk 11 2.2 安装maven3.9.7 2.3 安装docker 2.4 docker部署jenkins容器 三、jenkins入门使用 3.1 新手入门 3.2 jenkins设置环境变量JDK、MAVEN、全局变量 3.2.1 jenkins页面 3.2.2 jenkins容器内部终端 3.2.3 全…

python-赏月

[题目描述] 在某个星球上看到的月亮大小有一个规律,月亮为每30天一个周期,在这30天的周期里,月亮的大小分别为 0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,14,13,12,11,10,9,8,7,6,5,4,3,2,1。 虽然天气很冷,但这个星球上的某个居民今…

MyBatis 源码分析--SqlSessionFactory

前言: 前文我们简单的回顾了 MyBatis 的基本概念,有聊到核心组件,工作流程等,本篇我们开始深入剖析 MyBatis 的核心源码,欢迎大家持续关注。 Mybatis 知识传送门 初识 MyBatis 【MyBatis 核心概念】 MyBatis 源码解…

钒能新材料综合回收利用,钒溶液净化富集工艺之离子交换法

钒电池储能产业作为典型的绿色低碳优势产业,是新型储能领域重要发展方向。钒电池储能具备大规模、长周期等优势,是储能领域的重要组成部分,将成为拓展电能利用、应对可再生能源随机波动、支撑可再生能源高占比电力系统的最佳技术途径之一。 …