Hadoop中的副本、校验和(数字指纹)、block

1.副本:为了系统容错,文件系统会对所有的数据块进行副本复制

        1.副本生成和数量

        在数据块被写入HDFS的过程中,NameNode会根据副本策略决定每个数据块的副本数量和存储位置,Hadoop默认副本数量是3,每个数据块的副本会被存放在不同的DataNode节点上,以确保数据的高可用和容错性。

        第一个副本,如果客户端是集群外的一台机器,就会随机存放在一个DataNode节点上(系统会避免存放在太忙碌的节点)

        第二个副本,存放在不同机架上的随机DataNode节点

        第三个副本,存放在与第二个副本相同的机架但是不同的DataNode节点上

2.校验和(Checksum)

        在数据块被写入HDFS的过程中,客户端会将输入的文件按照block块的大小切分为多个数据块,对于每个数据块,客户端会计算其校验和,并将这些校验和一起存储在一个单独的校验和文件中,这些校验和文件和实际的数据块被一起存放在DataNode中,用于后续的数据完整性的校验。

        当客户端从HDFS中下载数据时,NameNode会提供数据块的位置(包括副本的位置),客户端会根据这些位置从DataNode中下载数据块和校验和文件

        客户端逐个读取数据块,并计算每个数据块的校验和,将计算得到的校验和与从校验和文件中读取的校验和进行比较,如果校验和匹配,说明这个数据快是完整且未被篡改的

        如果校验和不匹配,客户端会从其他的DataNode中下载该数据块的副本,并重新进行校验。

3.block块

        数据块,磁盘读写的基本单位,hadoop2.0默认大小是128M

        块增大可以减少寻址时间,但是也不宜过大,块过大会导致整体任务数量过小,降低作业处理速度

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/43432.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

01-引论-操作系统的目标和作用

操作系统的目标 1.方便性 2.有效性 3.可扩充性 4.开放性 操作系统的目标与应用环境有关 在不同的应用环境下,操作系统的重点和功能可能会有所不同。例如,对于桌面操作系统,用户界面的友好性和多媒体功能可能是重点;对于服务…

TCP/IP模型和OSI模型的区别

OSI模型, 是国际标准化组织(ISO)制定的一个用于计算机或通信系统间互联的标准体系,将计算机网络通信划分为七个不同的层级,每个层级都负责特定的功能。每个层级都构建在其下方的层级之上,并为上方的层级提供…

老杜Mysql 基础教程 笔记

Mysql 表 : ​ 行:数据记录 ​ 列:字段名,数据类型,约束条件 DQLselect查询语句DMLinsert update delete表中增删改语句DDLcreate drop alter表结构增删改TCLcommit rollback事务控制语句DCLgrant revoke数据库权限控制 导入…

电商为何需要深耕私域运营?

在电商行业这片红海中,竞争日益激烈,获取新用户、提升用户粘性和复购率成为每个电商企业面临的重大挑战。而私域运营,作为近年来兴起的一种新型营销策略,正逐渐成为电商企业突破瓶颈、实现持续增长的关键。本文将从多个维度探讨电…

职升网:考取中专文凭的途径主要有三种!

考取中专文凭的途径主要有三种:成人高考、网络教育和自学考试。以下是针对每种途径的详细解释和说明: 成人高考 适合人群:适合已经工作的成年人,特别是希望在工作之余提升学历的人群。 报考层次:可以选择高起专或高…

使用bypy丝滑传递百度网盘-服务器文件

前言 还在为百度网盘的数据集难以给服务器做同步而痛苦吗,bypy来拯救你了!bypy是一个强大而灵活的百度网盘命令行客户端工具。它是基于Python开发的开源项目,为用户提供了一种通过命令行界面与百度网盘进行交互的方式。使用bypy,…

博美犬插画:成都亚恒丰创教育科技有限公司

​博美犬插画:萌动心灵的细腻笔触 在浩瀚的艺术海洋中,有一种艺术形式总能以它独有的温柔与细腻,触动人心最柔软的部分——那便是插画。而当插画遇上博美犬这一萌宠界的明星,便诞生了一幅幅令人爱不释手的作品,成都亚…

ProFormList --复杂数据联动ProFormDependency

需求&#xff1a; &#xff08;1&#xff09;数据联动&#xff1a;测试数据1、2互相依赖&#xff0c;测试数据1<测试数据2,测试数据2>测试数据1。 &#xff08;2&#xff09;点击添加按钮&#xff0c;添加一行。 &#xff08;3&#xff09;自定义操作按钮。 &#xff0…

To美术-渲染管线及优化方向(CPU方向)

一、CPU与GPU 1、CPU与GPU的区别 橙黄色&#xff1a;控制单元   橙红色&#xff1a;存储单元  绿色&#xff1a;计算单元 CPU:结构组成复杂、控制逻辑丰富&#xff0c;计算量小&#xff0c;适合复杂运算 GPU&#xff1a;结构组成简单&#xff0c;核心数量多&#xff0c;计…

音频demo:将PCM数据封装成wav格式文件(不依赖第三方库)

1、README a. 编译 编译时需要编译成32位的可执行程序&#xff08;int需要指定为4字节&#xff09;&#xff0c;所以如果需要在64位主机上运行该程序&#xff0c;编译时就需要在Makefile上添加-m32选项&#xff08;默认已加&#xff09;&#xff0c;如果运行的主机是32位的则…

吴恩达机器学习笔记2.1 - 什么是机器学习

吴恩达机器学习笔记2.1 - 什么是机器学习 最早的机器学习 1959年&#xff0c;亚瑟塞缪尔(Arthur Samuel)将机器学习定义为“Field of study that gives computers the ability to learn without being explicitly programmed”&#xff08;无需编程即可学习的研究领域&#xf…

ROS中不同文件之间的引用小结

在比较大的一些程序中&#xff0c;往往会涉及到一些不同模块的调用&#xff0c;如果这些东西放在一个.cpp文件内&#xff0c;这个文件会变的特别长&#xff0c;因此会使用多个文件互相引用。那么如何在ROS下进行这种不同文件下的引用呢&#xff0c;根据最近所学&#xff0c;简单…

tomcat 安装和优化

tomcatat tomcat和http一样&#xff0c;都是用来处理动态页面的 tomcat也可以作为web服务器&#xff0c;开源的 php.php tomcat.jsp nginx.html tomcat使用java代码写的程序&#xff0c;运行的是java的web服务程序 tomcat的特点和功能&#xff1a; 1、servlet容器&…

MySQL——第一次作业

部署MySQL 8.0环境 1&#xff0c;删除之前存在的MySQL程序 控制面板删除 2&#xff0c;删除完成后下载MySQL 官网&#xff1a; https://www.mysql.com 在window下下载MSI版本 3&#xff0c;自定义安装 4&#xff0c;配置环境变量 1&#xff0c;系统高级系统设置 2&#xff…

Android面试题汇总-RecyclerView、Fragment、WebView、性能优化等

一、RecyclerView 1、RecyclerView的多级缓存机制,每一级缓存具体作用是什么,分别在什么场景下会用到哪些缓存 RecyclerView的多级缓存机制是为了提高滚动和数据更新的效率而设计的。每一级缓存都有其特定的作用和使用场景。以下是各级缓存的作用和它们的使用场景&#xff1a…

子序列问题

目录 最长递增子序列 摆动序列 最长递增子序列的个数 最长数对链 最长定差子序列 最长的斐波那契子序列的长度 最长等差数列 等差数列划分II-子序列 声明&#xff1a;接下来主要使用动态规划来解决问题&#xff01;&#xff01;&#xff01; 最长递增子序列 题目 思路…

Python 中,NumPy 的数组操作

应用场景&#xff1a; 数据分析和预处理&#xff1a;对大量的数据进行清洗、筛选、转换等操作&#xff0c;例如去除异常值、标准化数据等。 图像和信号处理&#xff1a;处理图像的像素值、音频或视频的信号数据。 机器学习和深度学习&#xff1a;对特征数据进行操作&#xff0c…

如何通过文件分发系统,实现能源电力企业文件的安全分发流转?

随着企业业务的快速发展&#xff0c;能源电力企业会在全国乃至全球&#xff0c;设立总部-分部-办事处/网点等多层级的结构&#xff0c;因此会涉及自动化的文件分发的业务场景。文件分发系统是一种将文件从一个地方自动传输到多个接收者的过程&#xff0c;可以提高工作效率&…

香港优才计划多少分获批成功率高?一文看懂各分数段获批情况!

有留意香港优才计划的朋友&#xff0c;应该都了解过&#xff0c;申请优才计划采用打分制&#xff0c;得分多少与最终获批有密不可分的关系。但有一点要提前清楚&#xff0c;申请优才不是得分越高就一定能获批&#xff0c;也不是得分低就一定没希望。 香港优才计划能否获批成功…

正确理解驱动电流与驱动速度

本文主要阐述了在驱动芯片中表征驱动能力的关键参数&#xff1a;驱动电流和驱动时间的关系&#xff0c;并且通过实验解释了如何正确理解这些参数在实际应用中的表现。 驱动芯片概述 功率器件如MOSFET、IGBT需要驱动电路的配合从而得以正常地工作。图1显示了一个驱动芯片驱动一…