2024-01-30(Hadoop_HDFS)

1.什么是大数据

狭义(技术思维):使用分布式技术完成海量数据的处理,得到数据背后蕴含的价值。

广义:大数据是数字化时代,信息化时代的基础(技术)支撑,以数据为生活赋能。

大数据的核心工作:从海量的高增长、多类别、低信息密度的数据中挖掘出高质量的结果。(海量数据存储、海量数据传输、海量数据计算)

2.大数据的核心工作

存储:妥善保存海量待处理数据

计算:完成海量数据的价值挖掘

传输:协助各个环节的数据传输

3.大数据的生态

存储:Apache Hadoop HDFS、Apache HBase、Apache Kudu、云平台

计算:Apache Hadoop MapReduce、Apache Spark、Apache Flink

传输:Apache Kafka、Apache Pulsar、Apache Flume、Apache Sqoop

4.海量数据的分布式存储

数据量太大,单机存储能力有上限,需要靠服务器数量来解决问题

数量的提升带来的是网络传输、磁盘读写、CPU、内存等各方面的综合提升。分布式存储的组合可以达到1+1>2的效果。

5.Hadoop是由三大组件组成的:

HDFS组件(分布式存储),MapReduce组件(分布式计算),YARN组件(分布式调度)。

6.HDFS是Hadoop技术栈提供的f分布式数据存储解决方案,可以在多台服务器上构建存储集群,存储海量的数据。HDFS数据存储集群采用主从模式架构(中心化模式架构)

NameNode:主角色,负责管理HDFS集群和DataNode角色

DataNode角色:从角色,负责数据的存储

SecondaryNameNode:辅助角色,负责协助NameNode整理元数据

7.HDFS和Linux系统一样,均是以/作为根目录的组织形式。

8.HDFS和Linux系统中的命令也很类似。

9.HDFS文件系统中的文件只能删除和追加,不能修改。

10.什么是NFS:

NFS就是Network File System的缩写,它最大的功能就是可以通过网络,让不同的机器、不同的操作系统可以共享彼此的文件。(通俗的说NFS服务器可以让PC将网络中的NFS服务器共享的目录挂载到本地端的文件系统中,而在本地端的系统中来看,那个远程主机的目录就好像是自己的一个磁盘分区一样,在使用上相当便利。)

11.HDFS分布式文件存储原理:

每个服务器(节点)存储文件的一部分。

12.block块:设定的HDFS服务器统一的管理单位,每个256MB(支持修改:配置文件中修改)

13.解决block块丢失的问题:

在其他服务器上进行备份。这样某一台服务器的某个block丢失了,可以从其他服务器上复制备份过来。

14.fsck命令查看文件的信息,例如该文件的副本数量和副本路径。

15.NameNode是如何管理Block块的:

edits文件,是一个流水账文件,记录了hdfs中每一次操作,以及本次操作影响的文件其对应的block。

FSImage文件:就是全部的edits文件合并后的结果。(我只要edits文件的最终状态,中间的操作流水账我不关心)

so,NameNode元数据管理维护步骤

1.每次对HDFS的操作,均被edits记录

2.edits达到大小上限后,开启新的edits记录

3.定期进行edits的合并操作

        (1)如果当前没有fsimage文件,将全部edits合并为第一个fsimage

        (2)如果当前已经存在fsimage文件,将全部edits和已存在的fsimage进行合并,形成新的fsimage文件

4.重复1,2,3步骤

16.edits和fsimage文件中元数据的合并要么基于时间要么基于事务数,二者达到其一就触发合并操作。

17.SecondaryNameNode就是来做元数据的合并操作的,合并好了给NameNode操作。NameNode来写edits文件。

18.客户端在HDFS上写数据的流程:

1.客户端想NameNode发起请求

2.NameNode审核权限,剩余空间后,满足条件允许写入,并告知客户端写入的DataNode地址

3.客户端向指定的DataNode发送数据包

4.被写入数据的DataNode同时完成数据副本的复制工作

5.如下图,DataNode1复制给DataNode2,然后基于DataNode2复制给DataNode3和DataNode4

6.写入完成客户端通知NameNode,NameNode做元数据记录工作。

关键信息:

a.NameNode不负责数据的写入,只负责元数据记录和权限审批

b.客户端直接向一台DataNode写数据。这个DataNode一般是离客户端最近(网络距离)的那个

c.数据块副本的复制工作,由DataNode之间自行完成(构建一个pipeline,按照顺序复制分发)

19.客户端在HDFS上读数据的流程:

1.客户端向NameNode申请读取某文件

2.NameNode判断客户端权限等细节后,允许读取,并返回此文件的block列表

3.客户端拿到block列表后自行寻找DataNode读取即可。

注意点:

1.数据同样不通过NameNode提供

2.NameNode提供的blockl列表,会基于网络距离计算尽量提供离客户端最近的。

20.为什么需要分布式计算:

因为数据量太大了,硬件性能不够,用数量来弥补。

21.分布式计算常见的两种工作模式:

分散->汇总(MapReduce就是这种模式)

中心调度->步骤执行(大数据体系的Spark,Flink等是这种模式)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/656997.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

win wsl2 Ubuntu-22.04 设置时间为国内时间

使用 wsl2 安装 Ubuntu-22.04 后 时间不正确,主要有两个原因 时区设置不正确,国内为京八区。 时区正确后,没有同步时间。(大部分人容易忽略这一点) Linux 默认情况下使用 UTC 格式作为标准时间格式,如果在…

双创竞赛项目申报:Java + Spring Boot的实战指南

✍✍计算机编程指导师 ⭐⭐个人介绍:自己非常喜欢研究技术问题!专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目:有源码或者技术上的问题欢迎在评论区一起讨论交流! ⚡⚡ Java实战 |…

单片机学习笔记---静态数码管显示

目录 数码管是什么? 一位数码管的引脚定义 四位一体的数码管引脚定义 数码管的原理图解析 数码管怎么显示数据?(总结代码显示) 今天开始学习数码管,它比LED和独立按键复杂一点 数码管是什么? LED数码…

如何获取到小程序appId

一、申请测试号 直接访问这个链接微信扫一下 微信公众平台 然后再去微信公众平台登录,账号的选择中就会多一个微信小程序测试号 选择登录即可获取到appid 二、注册一个微信小程序 第二种方式,去微信公众平台注册一个小程序。 注册完成后,…

ARM汇编 4.GNU伪指令、内联汇编

汇编伪指令格式 标号symbol(label) 注释符号: 整行注释:# 语句分离:; 立即数前缀:# 或 $ 分段:.section伪操作,用于自定义新的段 .text:代码段.data&am…

MP4格式视频怎么提取gif?一招教你在线做

MP4是一种常见的数字多媒体容器格式,它是一种使用最广泛的视频文件格式之一。MP4文件可以包含音频、视频和字幕等多种媒体数据,并且可以通过各种播放器和设备进行播放和共享。它是一种压缩格式,可以在保持相对较小文件大小的同时提供较高的视…

Java 的 Map 與 List

通過重新new 一個ArrayList 轉化 resTask.setList(new ArrayList<Group>(custMap.values())); 无序的Map List 有序的数据放到Map&#xff0c;就变成无序。 List排序 按照code 的字母进行排序A-Z resTask.getListData().sort(Comparator.comparing(Gmer::getCode));…

spring框架(一)

1、Spring框架&#xff1a;IoC和AOP 服务端三层开发&#xff1a;表现层、业务层、持久层 ssm, springboot, springcloud(微服务&#xff0c;治理组件) Spring框架是一个流行的Java应用程序框架&#xff0c;它提供了许多功能来简化企业级应用程序的开发。其中&#xff0c;控制反…

云服务之PaaS:它有几种类型,有什么区别?

PaaS种类繁多&#xff0c;包括公共PaaS、私有PaaS和混合PaaS&#xff0c;可以根据IT人员要求的方式提供所需工具&#xff0c;以实现更快地应用交付。 新兴科技的发展、移动端的深入应用&#xff0c;让人们对应用设备的需求不断增长&#xff0c;但在需求增长的同时&#xff0c;…

大数据-Spark-关于Json数据格式的数据的处理与练习

上一篇&#xff1a; 大数据-MapReduce-关于Json数据格式的数据的处理与练习-CSDN博客 16.7 Json在Spark中的引用 依旧利用上篇的数据去获取每部电影的平均分 {"mid":1,"rate":6,"uid":"u001","ts":15632433243} {"m…

【DC-DC】AP5165B 高端电流采样 36V/1A 高调光比LED恒流驱动IC SOT89-5

产品应用原理图 5-36V耐压 3W射灯应用线路图 产品描述 AP5165B 是一款外围电路简单的连续电流模式的降压型 LED 恒流驱动芯片。在输入电压高于LED 电压时&#xff0c;可以有效地用于驱动一颗或者多颗串联 LED。输出电流可调&#xff0c;可达 1A。适用于3-36V 电压范围的非隔离…

初始化爱情的构造之旅

初始化爱情的构造之旅 The Constructive Journey of Initializing Love 在一个名为“编程之城”的奇幻世界里&#xff0c;住着两位年轻的程序员——林浩然和杨凌芸。林浩然是Java王国中的首席对象设计师&#xff0c;擅长用代码构建复杂而精巧的对象&#xff1b;而杨凌芸则是数据…

探索云性能测试的各项功能有哪些?

云性能测试作为现代软件开发和部署过程中不可或缺的一环&#xff0c;为确保系统在各种条件下的高效运行提供了关键支持。本文将介绍云性能测试的各项功能&#xff0c;帮助您更好地了解其在软件开发生命周期中的重要性。 1. 负载测试 云性能测试的首要功能之一是负载测试。通过模…

Windows Server 2003 FTP服务器搭建

系列文章目录 目录 系列文章目录 文章目录 前言 一、FTP服务器是什么&#xff1f; 二、配置服务器 1.实验环境搭建 6)再次测试网络连通性 2.服务器搭建 1)控制面板中找到增加或删除程序打开 2)点击增加程序 3)安装FTP服务器 6)找到刚自己设定的路径下的文件夹,上传…

C语言——文件操作(看这一篇就够了)

1、为什么使用文件&#xff1f; 我们前面学习结构体&#xff0c;在写通讯录的时候会发现一个问题&#xff0c;我们向通讯录里面录入数据&#xff0c;当程序退出的时候&#xff0c;记录的数据也随之没有了&#xff0c;等下次我们在再调用通讯录时&#xff0c;又得重新录入数据&…

Java基于SpringBoot的学科竞赛系统,附源码,文档

博主介绍&#xff1a;✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精彩专栏推荐订阅&#x1f447;…

ctfshow web71

开启环境&#xff1a; c?><?php $anew DirectoryIterator("glob:///*"); foreach($a as $f) {echo($f->__toString(). );} exit(0); ?> cinclude("/flagc.txt");exit();

网络和Linux网络_15(IO多路转接)reactor编程_服务器+相关笔试题

目录 1. reactor的服务器 1.1 Sock.hpp 1.2 加协议分割报文 1.3 序列化和反序列化 Protocol.hpp main.cc Epoll.hpp TcpServer.hpp 2. 相关笔试题 答案及解析 本篇完。 1. reactor的服务器 Log.hpp和以前一样&#xff0c;因为下面要写ET模式所以Sock.hpp加了一个把…

solr的原理是什么

1 Java程序里如果有无限for循环的代码导致CPU负载超高&#xff0c;如何排查&#xff1f; 排查Java程序中由于无限循环导致的CPU负载过高的问题&#xff0c;可以按照以下步骤进行&#xff1a; 资源监控&#xff1a; 使用系统命令行工具&#xff08;如Linux上的top或htop&#xf…

二、防御保护---防火墙基础知识篇

二、防御保护---防火墙基础知识篇 一、什么是防火墙二、防火墙的发展史1.包过滤防火墙(一个严格的规则表)2.应用代理防火墙(每个应用添加代理)3.状态检测防火墙(首次检查建立会话表)3.入侵检测系统(IDS)-----网络摄像头4.入侵防御系统(IPS)-----抵御2-7层已知威胁5.防病毒网关(…