Hive进阶(1)----HDFS写入数据流程(赋图助君理解)

HDFS写入数据流程

1.理论流程描述

HDFS(Hadoop分布式文件系统)的数据写入流程是一个复杂但高效的过程,可以分为以下8个步骤:

1、client(客户端)发起文件上传请求;

2、通过发送RPC请求与NameNode建立通讯。NameNode进行检查其中包括:目标文件是否已存在、父目录是否存在、返回是否可以上传;

2、client请求第一个 block该传输到哪些DataNode服务器上;

3、NameNode根据配置文件中指定的备份数量及副本放置策略进行文件分配,返回可用的DataNode的地址,如:Node1,Node2,Node3;

4、 client调用read方法来进行对文档数据的读取。

5、每次从文件中读取一个packet(64k)大小的数据,临时存储在内存之中。

6、将每次读取的packet数据写入到datanode的块中(从block0开始依次往里面存储),直至写满此块。client请求3台DataNode中的一台(假如ND1),上传数据。

7、执行三副本机制,将block中数据分别向另外两台服务器进行存储备份。

8、当第一个块数据写入完成,进入第课块数据写入请求,也就是重新进行第二步操作

2.图形化流程展示

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/365.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【MySQL篇】mysqlpump和mysqldump参数区别总汇(第三篇,总共四篇)

☘️博主介绍☘️: ✨又是一天没白过,我是奈斯,DBA一名✨ ✌✌️擅长Oracle、MySQL、SQLserver、阿里云AnalyticDB for MySQL(分布式数据仓库)、Linux,也在扩展大数据方向的知识面✌✌️ ❣️❣️❣️大佬们都喜欢静静的看文章&am…

递归 python

↵一、简单理解 解决问题的一种方法,它将问题不断的分成更小的子问题,直到子问题可以用普通的方法解决。通常情况下,递归会使用一个不停调用自己的函数。 【注】:每一次递归调用都是在解决一个更小的问题,如此进行下…

内核编译-02

1配置【u-boot】 查看版本信息 对arm文件进行编译的专用工具 打开脚本文件 配置脚本文件 编译【.c】文件 创建目录,解压文件夹: 编译【smdk2440_config】,并产生【u-boot.bin】: 2配置开发板对应的配置文件 这里采用菜单…

基于深度学习的光场超分辨率算法综述

摘要:光场图像分辨率低的原因之一是光场空间分辨率和角度分辨率之间存在相互制约。光场超分辨率技术旨在从低分辨率光场图像中重建出高分辨率光场图像。基于深度学习的光场超分辨率方法通过学习高、低分辨率光场图像之间的映射关系来提升图像的质量,突破…

亚马逊Bedrock凭借Anthropic的开创性Claude 3系列扩展了AI产品组合

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

云服务器部署Springboot项目

前端项目打包 修改ip地址 在控制台输入npm run build:prod 会产生dist文件 将dist文件中的内容移动至/usr/local/nginx/html目录下 后端项目打包 修改ip地址 执行clean操作 执行install操作 将生成的target文件中的jar包移动至/usr/local/src目录下 启动 注意⚠️&#xff…

动态规划-不同路径

LCR 098. 不同路径 - 力扣(LeetCode) 对于动态规划类型的题目,可以从以下角度去思考问题 1. 状态表示 机器人在每一个网格节点的状态 dp[i][j] ,可以理解从 起始点 为走到 [i,j] ,一共有多少种方式; 2. …

vscode按ctrl+鼠标左键没反应

vscode按ctrl鼠标左键没反应 问题问题解决 问题 新买的阿里云服务器,在连接vscode后,按ctrl鼠标左键没反应,怎么办? 问题解决 你没有在vscode上安装c的相关插件,安装之后才可以实现按ctrl鼠标左键跳转到函数的定义

硬件设备杂记——12G SDI及 AES67/EBU

常见的 SDI线缆规格,HD-SDI又被称为1.5G-SDI,具体参数以秋叶原的参数为例 AES67/EBU 目前音频网络标准主要集中在OSI网络体系的第二层和第三层。 第二层音频标准的弊端在于构建音频网络时需要专用的交换机,无法利用现有的以太网络&#xff0c…

Matlab|【免费】【sci】考虑不同充电需求的电动汽车有序充电调度方法

目录 1 主要内容 2 部分代码 3 程序结果 4 下载链接 1 主要内容 该程序复现sci文献《A coordinated charging scheduling method for electric vehicles considering different charging demands》,主要实现电动汽车协调充电调度方法,该方法主要有以…

Flask + Bootstrap vs Flask + React/Vue:初学者指南

在这篇博客文章中,我们将比较 Flask Bootstrap 和 Flask React/Vue 这两种技术栈,以帮助初学者了解哪种组合更适合他们的项目需求。我们将从学习曲线、易用性、依赖管理、构建部署和路由定义等方面进行比较。 学习曲线 Flask 是一个基于 Python 的轻…

【Unity】申请D-U-N-S邓氏编码流程

标题 在使用苹果开发者账号的时候,我们需要用到D-U-N-S邓氏编码,那如何申请呢?最近正好帮朋友申请了一个,接下来我来演示一下申请流程。 1.登录苹果开发者账号 登录连接:Apple Developer 没有账号的自己注册一个 2…

Python-VBA函数之旅-format函数

目录 一、format函数的常见应用场景: 二、format函数的语法结构: 1、format函数: 1-1、Python: 1-2、VBA: 2、推荐阅读: 个人主页:https://blog.csdn.net/ygb_1024?spm1010.2135.…

vivo怎么录屏?玩转手机新体验!(2024最新)

“最近新入手了一款vivo手机,感觉用起来真的很顺手,各种功能都很强大。昨天和朋友一起打游戏,突然想到要记录下精彩瞬间,但是找遍了手机,都没有找到录屏功能。我想请教一下各位vivo手机用户,你们通常在哪里…

深入剖析Tomcat(三) 实现一个简易连接器

Tomcat中的servlet容器叫做Catalina,Catalina有两个主要模块:连接器与容器。在本章,将会建立一个连接器来增强第二章中应用程序的功能,用一种更好的方式来创建request与response对象。 截止文章编写日期,servlet规范已…

网络流的C++代码实现与过程讲解

网络流是一种非常重要的图论算法,它在许多实际问题中得到广泛应用。本文将介绍网络流算法的C++代码实现与过程讲解。 算法概述 网络流算法是通过将图中的边看作流量通道,将图的点看作流量的起点或终点,来求解图中的最大或最小流量的问题。它是一种非常重要的最优化算法,广…

Python教学入门:列表与元组

列表(Lists): 定义: 列表是 Python 中最常用的数据类型之一,用于存储一组有序的元素。列表使用方括号 [] 定义,元素之间用逗号 , 分隔。 特点: 列表是可变的(Mutable)…

Java梳理

梳理 1.ResponseBody return “hello world!” 当需要返回一个值的时候,需要使用到ResponseBody RestControllerControllerResponseBody 1.1没有Controller就不能写 GetMapping("/hello") public String sayHello() { return "Hello, wor…

HQL,SQL刷题,尚硅谷(中级)

目录 相关表结构: 1、order_info表 2、order_detail表 题目及思路解析: 第一题,查询各品类销售商品的种类数及销量最高的商品 第二题 查询用户的累计消费金额及VIP等级 第三题 查询首次下单后第二天连续下单的用户比率 总结归纳&#xff1a…

【双指针】

目录 1. LeetCode 283. 移动零 1.1 题目描述 1.2 题目思路 1.3 实现代码 2. LeetCode 1089. 复写零 2.1 题目描述 2.2 题目思路 2.3 实现代码 3. LeetCode 202. 快乐数 3.1 题目描述 3.2 题目思路 3.3 实现代码 4. LeetCode 11. 盛水最多的容器 4.1 题目描述 …