HDFS分布式文件系统01-HDFS架构与SHELL操作

HDFS分布式文件系统

    • 学习目标
    • 第一课时
      • 知识点1-文件系统的分类
        • 单机文件系统
        • 网络文件系统
        • 分布式文件系统
      • 知识点2-HDFS架构
      • 知识点3-HDFS的特点
      • 知识点4-HDFS的文件读写流程
      • 知识点5-HDFS的健壮性
    • 第二课时
      • 知识点1-HDFS的Shell介绍
        • HDFS Shell的语法格式如下。
        • HDFS Shell客户端命令中dfs子命令的子命令选项:
          • -ls命令
          • -du
          • -mv
          • -cp
          • -rm
          • -put
          • -cat
          • -help
          • -mkdir
          • -get
        • 知识点2-案例-通过Shell脚本定时采集数据到HDFS

学习目标

使学生了解文件系统的分类,能够描述不同文件系统的特点
使学生熟悉HDFS架构,能够描述HDFS架构的主要组件及其作用
使学生了解HDFS的特点,能够简述HDFS的特点
使学生掌握HDFS的文件读写原理,能够叙述HDFS读写文件的流程
使学生熟悉HDFS的健壮性,能够叙述HDFS心跳机制、副本机制和负载均衡等策略
使学生掌握HDFS的Shell操作,能够灵活运用HDFS Shell命令操作HDFS
使学生掌握HDFS的Java API操作,能够灵活使用Java API编写应用程序操作HDFS
使学生熟悉Federation机制,能够描述Federation机制的结构、特点并实现Federation机制。
使学生了解Erasure Coding,能够简述Erasure Coding节省存储空间的原理

第一课时

知识点1-文件系统的分类

单机文件系统

单机文件系统是所有文件系统的基础,也是我们常用的一种文件系统,它通过单台计算机的本地磁盘存储文件,依靠操作系统提供的文件系统实现文件的存储和管理。随着互联网的兴起,数据对存储容量要求越来越高,单机文件系统的缺点逐渐显现出来。

网络文件系统

网络文件系统可以看作单机文件系统的一个网络抽象,其本质与单机文件系统相似,网络文件系统可以通过网络共享文件,用户可以像访问本地磁盘的文件一样便捷的访问远端计算机的文件。网络文件系统的出现一定程度上解决了单机文件系统存储容量的瓶颈,用户可以将文件存储在网络文件系统和本地文件系统两个位置。网络文件系统没有解决单机文件系统性能低、可靠性低的瓶颈。

分布式文件系统

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

知识点2-HDFS架构

HDFS架构图如下:
在这里插入图片描述

(1)Block

Block是HDFS文件系统中最小的存储单位,通常称之为数据块。
在HDFS文件系统中存储的文件会被拆分成多个Block,每个Block作为独立的单元进行存储,同一文件的多个Block通常存放在不同的DataNode。
在Hadoop 3.x版本中,默认Block大小是128M。
注意:如果文件大小或者文件被拆分后的Block没有达到128MB,则Block的大小也会根据实际情况进行调整。

(2)MetaData

MeataData用于记录HDFS文件系统的相关信息,这些信息称之为元数据。
在HDFS文件系统中,为了确保元数据的快速访问,元数据会保存在内存中。为了防止元数据的丢失,会在本地磁盘中生成Fsimage文件备份元数据。
Hadoop集群运行的过程中,用户频繁操作HDFS文件系统,内存中的元数据变化会非常快。如果内存中的元数据一旦更新,本地磁盘的Fsimage文件会同步更新,这些操作非常消耗NameNode资源。
HDFS文件系统引入了Edits文件,该文件以追加方式记录内存中元数据的每一次变化,如果NameNode宕机,可以通过合并Fsimage文件和Edits文件的方式恢复内存中存储的元数据。

(3)NameNode

NameNode是HDFS集群的名称节点,通常称为主节点。如果NameNode由于故障原因宕机无法使用,那么用户就无法访问HDFS。NameNode作为HDFS的主节点,起着至关重要的作用,主要功能如下:
管理文件系统的命名空间。
处理客户端对文件的读写请求。
维护HDFS的元数据。
维护和管理DataNode,并协调DataNode为客户端发起的读写请求提供服务。

(4)DataNode

DataNode是HDFS集群中的数据节点,通常称为从节点,主要功能如下。
存储Block。
根据NameNode的指令,对Block进行创建、复制、删除等操作。
定期向NameNode汇报自身存储的Block列表以及健康状态。
负责为客户端发起的读写请求提供服务。

(5)SecondaryNameNode

SecondaryNameNode是HDFS集群中的辅助节点;
定期从NameNode拷贝Fsimage文件并合并Edits文件,将合并结果发送给NameNode;
SecondaryNameNode和NameNode保存的Fsimage和Edits文件相同,可以作为NameNode的冷备份,当NameNode宕机无法使用时,可以通过手动操作将SecondaryNameNode切换为NameNode。

知识点3-HDFS的特点

(1)存储大文件
(2)高容错性
(3)简单的一致性模型
(4)移动计算比移动数据更经济
(5)可移植性
在这里插入图片描述

知识点4-HDFS的文件读写流程

客户端向HDFS写文件的具体流程。

在这里插入图片描述在这里插入图片描述在这里插入图片描述

客户端从HDFS读文件的具体流程。

在这里插入图片描述在这里插入图片描述

知识点5-HDFS的健壮性

(1)心跳机制

在这里插入图片描述

(2)副本机制

在这里插入图片描述

(3)数据完整性校验

在这里插入图片描述

(4)安全模式

在这里插入图片描述

(5)快照

在这里插入图片描述

高校教辅平台(http://tch.ityxb.com)发放测试题以巩固本节课的学习内容。

第二课时

知识点1-HDFS的Shell介绍

HDFS Shell类似于Linux操作系统中的Shell,都是一种命令语言,可以完成对HDFS上文件和目录的一系列操作。

HDFS Shell的语法格式如下。
hdfs [OPTIONS] SUBCOMMAND [SUBCOMMAND OPTIONS]

OPTIONS:可选,用来调试Hadoop。
SUBCOMMAND:表示HDFS Shell的子命令,用于操作HDFS。
SUBCOMMAND OPTIONS:表示HDFS Shell子命令的选项。

具体参考:
https://hadoop.apache.ac.cn/docs/stable/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html

HDFS Shell客户端命令中dfs子命令的子命令选项:

ls:List files 列文件
du: Disk usage 磁盘使用率
mv: Move file 移动文件
cp: Copy file 复制文件
rm = ReMove
cat: concatenate 连锁 把多个文本连接起来
mkdir:Make Directory(创建目录)
在这里插入图片描述

-ls命令
hdfs dfs –ls [-S][-C][-r][-h][-R] <path>

参数-S:可选,用于根据文件的大小,按照由大到小的顺序显示指定目录的内容。
参数-C:可选,用于显示指定目录下文件和子目录的路径,不显示关于文件和子目录的其他信息。
参数-r:可选,用于根据文件的大小,按照由小到大的顺序显示指定目录的内容。
参数-h:可选,用于将默认的文件大小(字节数)格式化为便于查看的格式进行显示。
参数-R:可选,用于递归显示指定目录及其子目录的信息。
参数path:用于指定查看的目录。

hdfs dfs –ls -S /data

参数-S:可选,用于根据文件的大小,按照由大到小的顺序显示指定目录的内容。

hdfs dfs –ls -r -h /data

参数-r:可选,用于根据文件的大小,按照由小到大的顺序显示指定目录的内容。
参数-h:可选,用于将默认的文件大小(字节数)格式化为便于查看的格式进行显示。

hdfs dfs –ls -R -C /data

递归显示目录/data及其子目录的信息,并且信息中仅显示文件和子目录的路径。
参数-C:可选,用于显示指定目录下文件和子目录的路径,不显示关于文件和子目录的其他信息。
参数-R:可选,用于递归显示指定目录及其子目录的信息。

-du

用于查看HDFS指定目录下每个文件和子目录大小,语法格式如下。

hdfs dfs -du [-s] [-h] <path>

参数-s:可选,用于查看指定目录下所有文件和子目录的总大小。
参数-h:可选,用于将默认的文件和子目录大小(字节数)格式化为便于查看的格式进行显示。

hdfs dfs –du –h /data

查看HDFS的目录/data中,每个文件和子目录的大小,并且将默认的文件和子目录大小格式化为便于查看的格式进行显示。

-mv

-mv用于移动HDFS指定目录或文件,语法格式如下。

hdfs dfs -mv <src> <dst>

参数src:用于指定要移动的目录或文件。
参数dst:用于将目录或文件移动到指定的目录,如果指定的目录不存在,并且与移动的目录或文件处于同一路径下,那么会对文件或者目录进行重命名操作。
注意:移动的目录或文件,在指定的目录中不能存在。

将目录/data中的子目录/dataChild1移动到目录/data/dataChild中。

hdfs dfs –mv /data/dataChild1 /data/dataChild

将目录/data中的文件dataA重命名为dataA_New。

hdfs dfs –mv /data/dataA /data/dataA_New
-cp

-cp用于复制HDFS指定目录或文件,语法格式如下

hdfs dfs -cp <src> <dst>

参数src:用于指定要复制的目录或文件,可以同时复制多个文件或目录,每个文件或目录用空格进行分隔。
参数dst:用于将目录或文件复制到指定的目录,该目录必须已经存在,并且要复制的文件或目录在指定的目录中不能存在。如果复制的是单文件或目录,则可以重新命名复制后的文件或目录名称。

将目录/data下的文件dataA_New和dataB复制到目录/data/dataChild。

hdfs dfs -ls -R /data
hdfs dfs -cp /data/dataA_New /data/dataB /data/dataChild

将目录/data下的文件dataA_New复制到子目录/dataChild,并且重命名为dataA。

hdfs dfs -cp /data/dataA_New /data/dataChild/dataA
-rm

-rm用于删除HDFS指定目录或文件,语法格式如下。

hdfs dfs -rm [-f] [-r] [-skipTrash] [-safely] <src>

参数-f:可选,用于判断删除的目录或文件是否存在。
参数-r:可选,用于递归删除指定目录中的所有子目录和文件。
参数-skipTrash:可选,表示删除的文件或目录不会放入回收站。
参数-safely:可选,用于启动安全确认,当删除目录时会提示是否删除,避免误删。

使用子命令选项-rm删除目录/data的子目录/dataChild。

hdfs dfs –rm –r /data/dataChild
-put

-put用于将本地文件系统中指定文件上传到HDFS指定目录,语法格式如下。

hdfs dfs -put [-f] <localsrc> <dst>

参数-f:可选,用于判断上传的文件在HDFS指定目录是否存在。如果存在则上传的文件会替换HDFS指定目录中已经存在的文件。
参数localsrc:用于指定本地文件系统中上传的文件,可以同时上传多个文件。
参数dst:用于指定上传到HDFS的目录,该目录必须存在。

使用子命令选项-put将本地文件系统中/export/data目录下的文件a.txt和b.txt,上传到HDFS的目录/data。

 hdfs dfs –put /export/data/a.txt /export/data/b.txt /data
-cat

-cat用于查看HDFS指定文件内容,语法格式如下。

hdfs dfs –cat <src>

参数src:用于指定查看的文件。

使用子命令选项-cat查看目录/data中文件a.txt的内容。

hdfs dfs –cat /data/a.txt
-help
-mkdir
hdfs dfs -mkdir [-p] <path>

参数-p:可选,它有两个作用:
第一是创建目录,如果要创建的目录存在,则不会返回错误信息,也不会重新创建。
第二是递归创建目录及其子目录。

在HDFS的目录/data中创建子目录/dataChild1,并在子目录/dataChild1中创建子目录/dataChild2。

hdfs dfs –mkdir –p /data/dataChild1/dataChild2

-get

-get用于将HDFS的指定文件下载到本地文件系统指定目录,语法格式如下。

hdfs dfs -get [-f] <src> <localdst>

参数-f:可选,用于判断下载的文件在本地文件系统的指定目录是否存在。如果存在则下载的文件会替换指定目录中已存在的文件。
参数src:用于指定HDFS中的文件,可以同时下载多个文件。
参数localdst:用于指定下载到本地文件系统的路径,该路径必须存在。

知识点2-案例-通过Shell脚本定时采集数据到HDFS

通过一个案例演示如何通过Shell脚本周期性的将Hadoop的日志文件上传到HDFS,操作步骤如下。

(1)创建Shell脚本

vi uploadHDFS.sh

内容融入

#!/bin/bash
# 添加hadoop环境变量
export HADOOP_HOME=/opt/module/hadoop-3.3.4
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
# 指定hadoop日志存放位置
hadoop_log_dir=/opt/module/hadoop-3.3.4/logs/ 
# hadoop日志的存放位置
log_toupload_dir=/opt/data/logs/toupload/
# 获取当前时间
date=`date +%Y_%m_%d_%H_%M` 
# 上传到hdfs上的目录名称
hdfs_dir=/hadoop_log/$date/
# 判断不同服务器的hadoop日志目录是否存在
# -d 判断是否为目录
if [ -d $log_toupload_dir ];
thenecho "$log_toupload_dir exits"
elsemkdir -p $log_toupload_dir
fi
# 将不同虚拟机的hadoop日志文件收集到目录/opt/data/logs/toupload/
ls $hadoop_log_dir | while read fileName
do
# 如果文件名是.log结尾
if [[ $fileName == *.log ]];
thenecho "moving hadoop log to $log_toupload_dir"cp $hadoop_log_dir/*.log $log_toupload_dir# 如果有多台,需要把多个日志都复制到当前节点的的/opt/data/logs/toupload/目录#scp root@node2:$hadoop_log_dir/*.log $log_toupload_dir#scp root@node3:$hadoop_log_dir/*.log $log_toupload_direcho "moving hadoop log willDoing"break
fi
done
echo "create $hdfs_dir"
# 创建hdfs目录
hdfs dfs -mkdir -p $hdfs_dir
ls $log_toupload_dir | while read fileName
doecho "upload hadoop log $fileName to $hdfs_dir"hdfs dfs -put $log_toupload_dir$fileName $hdfs_direcho "upload hadoop log $fileName willDoing"
done
echo "delete $log_toupload_dir log"
# 删除临时目录/opt/data/logs/toupload/ 
rm -fr $log_toupload_dir

(2)执行Shell脚本
启动hadoop集群

start-dfs.sh
sh uploadHDFS.sh

如下:
在这里插入图片描述

(3)验证Hadoop日志文件是否上传成功

http://192.168.100.3:9870/

(4)定时执行Shell脚本文件
检查是否安装crontab

rpm -qa | grep crontab

rpm -qa:rpm 是一个用于管理RPM包的工具,-qa 选项表示列出所有已安装的软件包(其中 -q 表示查询,-a 表示所有包)。这条命令会输出一个包含所有已安装包名称的列表。
|(管道符号):这是一个管道操作符,它将前一个命令的输出作为后一个命令的输入。在这个例子中,rpm -qa 输出的所有包名会被传递给 grep 命令。
grep crontab:grep 是一个强大的文本搜索工具,它可以搜索文件中的指定模式。在这里,crontab 是一个模式,grep 将在管道传入的数据中搜索包含“crontab”的行。这将帮助你找到与crontab相关的已安装包。

若没有安装,可以执行

yum -y install vixie-cronyum -y install crontabs

启动crontab

service crond status
service crond start

为脚本添加权限
查看uploadHDFS.sh的权限
在这里插入图片描述

chmod 777 uploadHDFS.sh

在虚拟机node1执行“crontab -e”命令编辑Crontab文件,配置定时任务,在Crontab文件添加如下内容。

*/2 * * * * /export/data/uploadHDFS.sh

10分钟后,刷新HDFS Web UI界面可以看到,需要上传的日志文件已经按照日期分类上传到HDFS中
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/54795.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

db2 存储过程 if的例子及call调用方法

if 需要 end if; CREATE PROCEDURE UPDATE_SAL (IN empNum CHAR(6), OUT rating SMALLINT)LANGUAGE SQLBEGINIF rating 1 THENUPDATE employee SET salary salary * 1.10, bonus 1000 WHERE empno empNum;ELSEIF rating 2 THENUPDATE employee SET salary salary * …

windows电脑C盘内存爆满怎么办?

目录 1. 下载SpaceSniffer2. 运行程序&#xff0c;扫描C盘3. 寻找可删除的文件 为了节省C盘的内存&#xff0c;将大部分的软件尽量都安装在C盘以外的磁盘中&#xff0c;但是在电脑的使用过程中还是会发现C盘越来越少&#xff0c;这是因为很多软件会默认将数据文件夹&#xff08…

【算法】DFS 系列之 穷举/暴搜/深搜/回溯/剪枝(上篇)

【ps】本篇有 9 道 leetcode OJ。 目录 一、算法简介 二、相关例题 1&#xff09;全排列 .1- 题目解析 .2- 代码编写 2&#xff09;子集 .1- 题目解析 .2- 代码编写 3&#xff09;找出所有子集的异或总和再求和 .1- 题目解析 .2- 代码编写 4&#xff09;全排列 II…

Spring Boot 实战:使用观察者模式实现实时库存管理

在现代软件开发中&#xff0c;实时数据处理和响应式编程变得越来越重要。库存管理系统是一个典型的需要实时更新的应用场景&#xff0c;当库存发生变化时&#xff0c;系统应该能够立即通知所有相关的组件或服务。在这个实战教程中&#xff0c;我们将展示如何使用Spring Boot结合…

​​三SSH

ssh密钥对登录原理 &#xff1a;首先&#xff0c;客户端事先生成一对密钥&#xff0c;并将公钥保存在服务器上的授权文件中。接下来&#xff0c;客户端不用密码&#xff0c;而是用密钥对来验证身份。客户端用服务器的公钥来加密自己的公钥&#xff0c;然后把加密后的信息发送给…

前端面试题(八)

39. 现代前端框架 当前流行的前端框架有哪些&#xff1f; React&#xff1a;由 Facebook 开发的一个用于构建用户界面的 JavaScript 库&#xff0c;采用组件化开发&#xff0c;支持虚拟 DOM 和单向数据流。 主要特性&#xff1a; 组件复用&#xff1a;将 UI 分割成独立的、可复…

html,js,react三种方法编写helloworld理解virtual dom

学习任何一个新语言&#xff0c;好像都从helloworld开始。&#xff1a;&#xff09;。 html helloworld 静态hello world <!DOCTYPE html> <html> <head><title>Hello World</title> </head> <body><p>Hello World</p&g…

数字化转型:开启未来发展新引擎

在当今飞速发展的时代&#xff0c;数字化转型已成为企业、组织乃至整个社会发展的关键趋势。 信息技术的迅猛发展&#xff0c;如互联网、大数据、人工智能等&#xff0c;为数字化转型提供了强大支撑。市场竞争的加剧&#xff0c;也促使企业不断寻求提升竞争力的方法&#xff0c…

OpenCV图像文件读写(6)将图像数据写入文件的函数imwrite()的使用

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 将图像保存到指定的文件中。 函数 imwrite 将图像保存到指定的文件中。图像格式是根据文件名扩展名选择的&#xff08;参见 cv::imread 获取扩展…

利用git将项目上传到github

采用git而不是在pycharm中共享的原因&#xff1a;可能会出现上图报错 目录 1、创建github仓库2、在 git bash 中初始化Git仓库&#xff0c;添加文件&#xff0c;上传代码 1、创建github仓库 2、在 git bash 中初始化Git仓库&#xff0c;添加文件&#xff0c;上传代码

[Redis] 渐进式遍历+使用jedis操作Redis+使用Spring操作Redis

&#x1f338;个人主页:https://blog.csdn.net/2301_80050796?spm1000.2115.3001.5343 &#x1f3f5;️热门专栏: &#x1f9ca; Java基本语法(97平均质量分)https://blog.csdn.net/2301_80050796/category_12615970.html?spm1001.2014.3001.5482 &#x1f355; Collection与…

LabVIEW提高开发效率技巧----利用第三方库和工具

LabVIEW开发不仅依赖于自身强大的图形化编程能力&#xff0c;还得益于其庞大的用户社区和丰富的第三方库。这些工具和库能够帮助开发者快速解决问题&#xff0c;提升开发效率&#xff0c;避免从头开始编写代码。 1. LabVIEW工具网络&#xff08;NI Tools Network&#xff09; …

从准备面试八股文,感悟到技术的本质

工作前几年听说过&#xff0c;大学最重要的几门课其实是数据结构和算法、操作系统、计算机组成原理、计算机网络。 初听时不以为然&#xff0c;感觉没什么用。 近期准备面试八股文得到了一些感悟。这句话随着工作年限和对程序的理解越来越深入&#xff0c;含金量越来越高。 最…

FFmpeg源码:avio_skip函数分析

AVIOContext结构体和其相关的函数分析&#xff1a; FFmpeg源码&#xff1a;avio_r8、avio_rl16、avio_rl24、avio_rl32、avio_rl64函数分析 FFmpeg源码&#xff1a;read_packet_wrapper、fill_buffer函数分析 FFmpeg源码&#xff1a;avio_read函数分析 FFmpeg源码&#xff…

c# Expression<Func<T, T>>转成实体

将 Expression<Func<T, T>>转成实体T public class MyEntity {public int Age { get; set; }public string Name { get; set; } } public static class ExpressionExtension{#region 表达式类型字典/// <summary>/// 表达式类型字典/// </summary>priv…

DVWA-File Inclusion(文件包含)渗透测试

概念&#xff1a; 漏洞产生原因&#xff1a; 主要是由于开发人员没有对用户输入的文件路径进行严格的过滤和验证。例如&#xff0c;如果一个 Web 应用程序接受用户输入的文件路径&#xff0c;然后使用这个路径进行文件包含&#xff0c;而没有对用户输入进行任何检查&#xff0c…

传输层协议 --- UDP

序言 在之前的文章 Socket 编程 中&#xff0c;我们只是简单的知道了怎么利用 UDP协议 或者是 TCP协议 来发送我们的数据&#xff0c;并且我们还知道 UDP 是不可靠的&#xff0c;TCP 是可靠的。但这是为什么呢&#xff1f;底层的构造和策略决定他们的属性&#xff01;这篇文章中…

数据结构编程实践20讲(Python版)—01数组

本文目录 01 数组 arrayS1 说明S2 举例S3 问题&#xff1a;二维网格中的最小路径求解思路Python3程序 S4 问题&#xff1a;图像左右变换求解思路Python3程序 S5 问题&#xff1a;青蛙过河求解思路Python3程序 写在前面 数据结构是计算机科学中的一个重要概念&#xff0c;用于组…

使用Plotly绘制交互式图表:从入门到精通

使用Plotly绘制交互式图表:从入门到精通 在数据科学和数据可视化领域,交互式图表能够提供更丰富的用户体验和更深入的数据洞察。Plotly 是一个强大的 Python 库,它不仅支持静态图表,还能创建高度交互的图表。本文将详细介绍如何使用 Plotly 实现一个函数来绘制交互式图表,…

【Gitee自动化测试2】Git,Github,Gitlab,Gitee

一. 服务器 与 客户端 是提供服务的计算机&#xff0c;存储项目代码和版本信息&#xff0c;处理客户端请求并返回响应。并通过网络向其他计算机&#xff08;即客户端&#xff09;提供这些服务。服务器可以是物理设备&#xff0c;也可以是虚拟机。 二. 版本控制 目的&#xf…