【hadoop】HDFS

HDFS

  • 操作HDFS
    • Web Console 网页工具
      • 操作NameNode
      • 操作SecondaryNameNode
    • 命令行
    • Java API
  • HDFS的原理解析
    • 数据上传的过程
    • 数据下载的过程
  • HDFS的高级特性
    • 回收站
    • 配额Quota
      • 名称配额
      • 空间配额
    • 快照Snapshot
    • 安全模式 SafeMode
    • 权限管理:类似Linux
    • HDFS的集群
  • HDFS的底层原理:Java程序(记得重新修改)

操作HDFS

操作HDFS有三种方式,分别是 使用Web Console网页工具命令行Java API

Web Console 网页工具

操作NameNode

NameNode:端口50070
访问地址:IP/dfshealth.html

在这里插入图片描述
在summary中,值得关注的是 safemode is off ,说明HDFS的安全模式是关闭的,如果是打开的,那么HDFS是处于只读的状态,不能进行操作HDFS。
在这里插入图片描述
下面是HDFS启动过程,比较重要
在这里插入图片描述

操作SecondaryNameNode

端口:50090
访问地址:Ip:50090/status.html

在这里插入图片描述

命令行

1、普通的操作命令:hdfs dfs ****

在这里插入图片描述
-mkdir 在HDFS中创建目录

hdfs dfs -mkdir /aaa
hdfs dfs -mkdir -p /bbb/ccc 如果父目录不存在,使用-p参数先创建父目录

-ls 查询HDFS的某个目录
-ls -R 查询HDFS的某个目录,包含子目录,简写:-lsr
-put 上传数据
-copyFromLocal 上传数据
-moveFromLocal 上传数据,本质ctrl+x 剪切
-copyToLocal 下载数据
-get 下载数据
在这里插入图片描述
-rm 删除目录
-rmr 删除目录,包含子目录
-getmerge:先把某个目录下的文件合并,再下载
demo:

[root@bigdata111 ~]# vi student01.txt

在这里插入图片描述

[root@bigdata111 ~]# vi student02.txt

在这里插入图片描述

[root@bigdata111 ~]# hdfs dfs -mkdir /students
[root@bigdata111 ~]# hdfs dfs -put student0* /students
[root@bigdata111 ~]# hdfs dfs -ls /students
Found 2 items
-rw-r--r--   1 root supergroup         19 2020-02-24 10:19 /students/student01.txt
-rw-r--r--   1 root supergroup         10 2020-02-24 10:19 /students/student02.txt
[root@bigdata111 ~]# hdfs dfs -getmerge /students ./allstudents.txt

在这里插入图片描述

-cp:拷贝 hdfs dfs -cp /input/data.txt /input/data2.txt
-mv:剪切
-count:举例 hdfs dfs -count /students 查看文件的个数
-du:类似-count,更详细

hdfs dfs -du /students
结果:
19  /students/student01.txt
10  /students/student02.txt

-text、-cat 查看文本文件的内容

hdfs dfs -cat /students/student01.txt

balancer:平衡操作
在这里插入图片描述

2、管理的命令:hdfs dfsadmin ****

在这里插入图片描述
-report:hdfs dfsadmin -report
在这里插入图片描述

-safemode 安全模式

[root@bigdata111 ~]# hdfs dfsadmin -safemode
Usage: hdfs dfsadmin [-safemode enter | leave | get | wait]
[root@bigdata111 ~]# hdfs dfsadmin -safemode get
Safe mode is OFF
[root@bigdata111 ~]# hdfs dfsadmin -safemode enter
Safe mode is ON
[root@bigdata111 ~]# hdfs dfs -mkdir /xyz
mkdir: Cannot create directory /xyz. Name node is in safe mode.
[root@bigdata111 ~]# hdfs dfsadmin -safemode leave
Safe mode is OFF

Java API

操作需要包含的jar包:

$HADOOP_HOME/share/hadoop/common/*.jar
$HADOOP_HOME/share/hadoop/common/lib/*.jar
$HADOOP_HOME/share/hadoop/hdfs/*.jar
$HADOOP_HOME/share/hadoop/hdfs/lib/*.jar

方式:
Java API连接HDFS并创建文件夹
使用Java API 上传下载数据
使用Java API获取HDFS的元信息

HDFS的原理解析

数据上传的过程

在这里插入图片描述

数据下载的过程

在这里插入图片描述

HDFS的高级特性

回收站

默认回收站是关闭的,可以通过在 core-site.xml 中添加 fs.trash.interval 来打开幵配置时间阀值。

<property><name>fs.trash.interval</name><value>1440</value>
</property>

可以设置一个时间阈值,当回收站里文件的存放时间超过返个阈值,就被彻底删除,并且释放占用的数据块,比如上面就设置了一个1440分钟的阀值。

在这里插入图片描述
在这里插入图片描述
从回收站里恢复文件
在这里插入图片描述

配额Quota

名称配额

名称配额:规定的是某个HDFS目录下文件的个数,
比如:设置名称配额是N,表示只能在该目录下存放N-1个文件或者目录

hdfs dfsadmin [-setQuota <quota> <dirname>...<dirname>]
hdfs dfsadmin [-clrQuota <dirname>...<dirname>]

举例:

hdfs dfs -mkdir /t1 

设置该目录的名称配额是3,所以该目录下只能放两个文件或文件夹。

hdfs dfsadmin -setQuota 3 /t1 

在这里插入图片描述

空间配额

空间配额:规定的是某个HDFS目录下文件的大小
比如:设置某个HDFS目录的空间配额是200M,只能存放200M以下的文件

hdfs dfsadmin [-setSpaceQuota <quota> [-storageType <storagetype>] <dirname>...<dirname>]
hdfs dfsadmin [-clrSpaceQuota [-storageType <storagetype>] <dirname>...<dirname>]

举例:

hdfs dfs -mkdir /t2

设置该目录的空间配额是1M (逻辑单位)

hdfs dfsadmin -setSpaceQuota 1M /t2

上传一个超过1M,大小为50M的文件,会发生下面的错误:

The DiskSpace quota of /t2 is exceeded: quota = 1048576 B = 1 MB but diskspace consumed = 134217728 B = 128 MB

由于是50M文件,占用一个数据块,所以会提示128M。

快照Snapshot

一个snapshot(快照)是一个全部文件系统、或者某个目录在某一时刻的镜像。(本质:就是cp命令)

在这里插入图片描述

安全模式 SafeMode

安全模式是hadoop的一种保护机制,用于保证集群中的数据块的安全性。如果HDFS处于
安全模式,则表示HDFS是只读状态。

安全模式的作用:当集群启动的时候,会首先进入安全模式。当系统处于安全模式时会检查数据块的完整性。(数据块是否满足冗余度的要求)
假设我们设置的副本数/冗余度(即参数dfs.replication)是5,那么在datanode上就应该有5个副本存在,假设只存在3个副本,那么比例就是3/5=0.6。在配置文件hdfs-default.xml中定义了一个最小的副本的副本率0.999。我们的副本率0.6明显小于0.99,因此系统会自动的复制副本到其他的dataNode,使得副本率不小于0.999.如果系统中有8个副本,超过我们设定的5个副本,那么系统也会删除多余的3个副本。

hdfs dfsadmin -safemode get 查看安全模式状态
hdfs dfsadmin -safemode enter 进入安全模式状态
hdfs dfsadmin -safemode leave 离开安全模式

权限管理:类似Linux

HDFS的集群

集群的两大功能和解决方式:
(1)负载均衡:联盟Federation
(2)失败迁移(单点故障):HA

注意:联盟是HDFS特有的,但HA是主从架构共有的

在这里插入图片描述

HDFS的底层原理:Java程序(记得重新修改)

1、Java的代理对象Proxy
在这里插入图片描述
案例:利用Java的代理对象实现数据库的连接池。
(1)通过连接池返回一个Connection对象
(2)使用完后,connection.close,把该连接直接还给数据库
(3)重写close方法,把该连接还给数据库的连接池

准备实验环境:MySQL的数据库
如何安装MySQL,在Hive的时候,再介绍

2、RPC协议(remote procedure call远程过程调用)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/3971.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

软件测试行业的困境和迷局

中国的软件测试虽然起点较高&#xff0c;但是软件测试的发展似乎没有想象中那么顺利。 其实每个行业除了有自身领域外&#xff0c;还有属于自己的“生态系统”。属于软件测试的生态系统主要包括后备软件测试人员、软件开发人员和软件管理决策者。后备软件测试人员是软件测试的…

微服务保护——Sentinel【实战篇】

一、限流规则&#x1f349; 1.簇点链路&#x1f95d; 簇点链路&#xff1a;就是项目内的调用链路&#xff0c;链路中被监控的每个接口就是一个资源。默认情况下sentinel会监控SpringMVC的每一个端点&#xff08;Endpoint&#xff09;&#xff0c;因此SpringMVC的每一个端点&a…

excel文件导入或导出Java代码示例

1、excel文件导入 controller层接口内容 service层代码 serviceImpl内代码内容 OverrideTransactional(rollbackFor Exception.class)public void importCheckItemExcel(MultipartFile file, Long checkPkgId) throws Exception {if (file.isEmpty()){throw new IOException(…

Java 中 synchronized 的优化操作:锁升级、锁消除、锁粗化

由 并发编程中常见的锁策略 总结可知&#xff0c;synchronized 具有以下几个特性&#xff1a; 开始时是乐观锁&#xff0c;如果锁冲突频繁&#xff0c;就转换为悲观锁。开始是轻量级锁实现&#xff0c;如果锁被持有的时间较长&#xff0c;就转换成重量级锁。实现轻量级锁时&am…

Spring Cloud Alibaba【Nacos配置动态刷新、Nacos集群架构介绍 、Nacos的数据持久化、认识分布式流量防护 】(五)

目录 分布式配置中心_Nacos配置动态刷新 分布式配置中心_Dubbo服务对接分布式配置中心 分布式配置中心_Nacos集群架构介绍 分布式配置中心_Nacos的数据持久化 分布式配置中心_Nacos集群配置 分布式流量防护_认识分布式流量防护 分布式流量防护_认识Sentinel 分布式配置…

pycharm里debug时torch数组显示不全

pycharm里查看torch数组全部值 一、在Pycharm运行torch数组时&#xff0c;通常只能看到数组的一部分二、解决办法1、debug后&#xff0c;鼠标右键想要查看完整的数组&#xff0c;选择Evaluate Expression2、输入np.array(x0.data)&#xff0c;x0为想要查看的数组名&#xff0c;…

在Linux下做性能分析1:基本模型

介绍 本Blog开始介绍一下在Linux分析性能瓶颈的基本方法。主要围绕一个基本的分析模型&#xff0c;介绍perf和ftrace的使用技巧&#xff0c;然后东一扒子&#xff0c;西一扒子&#xff0c;逮到什么说什么&#xff0c;也不一定会严谨。主要是把这个领域的一些思路和技巧串起来。…

Flutter悬浮UI的设计Overlay组件

文章目录 APP开发经常要遇到的开发场景Overlay 的介绍Overlay的使用规则举例说明源码例子报错报错No Overlay widget found报错原因解决方法 修改后的源码 例子效果 APP开发经常要遇到的开发场景 有时候我们在开发APP的时候会遇到下面这些需求&#xff1a; 在现有页面上添加浮…

代码随想录算法训练营第十九天 | 动态规划系列5,6,7,8

动态规划系列5,6,7,8 377 组合总和 Ⅳ未看解答自己编写的青春版重点代码随想录的代码我的代码(当天晚上理解后自己编写)求排列数的题&#xff0c;用二维DP过不了&#xff1f;自己捋逻辑的话&#xff0c;也是可以觉得有漏洞&#xff0c;但是怎么修改&#xff0c;一下子还没思路&…

JVM之内存与垃圾回收篇2

文章目录 3 运行时区域3.1 本地方法栈3.2 程序计数器3.3 方法区3.3.1 Hotspot中方法区的演进3.3.2 设置方法区内存大小3.3.3 运行时常量池3.3.4 方法区使用举例3.3.5 方法区的演进3.3.5 方法区的垃圾回收 3.4 栈3.4.1 几个面试题 3.5 堆3.5.1 Minor GC、Major GC和Full GC3.5.2…

适配器模式-不兼容结构的协调

去英语国家旅游时&#xff0c;我们只会说中文&#xff0c;为了与当地人交流&#xff0c;我们需要购买个翻译器&#xff0c;将中文翻译成英文&#xff0c;而这运用了适配器模式。 1 概述 适配器模式&#xff08;Adapter Pattern&#xff09;&#xff0c;将一个接口转换成客户喜…

idea-控制台输出乱码问题

idea-控制台输出乱码问题 现象描述&#xff1a; 今天在进行IDEA开发WEB工程调式的时候控制台日志输出了乱码&#xff0c;如下截图 其实开发者大多都知道乱码是 编码不一致导致的&#xff0c;但是有时候就是不知到哪些地方不一致&#xff0c;今天我碰到的情况可能和你的不相同…

APACHE KAFKA本机Hello World教程

目标 最近想要简单了解一下Apache Kafka&#xff0c;故需要在本机简单打个Kafka弄一弄Hello World级别的步骤。 高手Kafka大佬们&#xff0c;请忽略这里的内容。 步骤 Apacha Kafka要求按照Javak8以上版本的环境。从官网下载kafka并解压。 启动 # 生产kafka集群随机ID KA…

未来Mac下载站怎么打不开了

重要公告&#xff1a; 未来软件园因业务需要现更换域名 原域名&#xff1a;Mac.orsoon.com 更为新域名&#xff1a;未来mac下载-Mac软件-mac软件下载-mac软件大全 程序已全面转移&#xff0c;请访问新域名

软件基础问答题

性能&#xff1a; 负载压力测试是指在一定约束条件下测试系统所能承受的并发用户量、运行时间、数据量等&#xff0c;以确定系统所能承受的最大负载压力。 负载测试是通过逐步增加系统负载&#xff0c;测试系统性能的变化&#xff0c;并最终确定在满足性能指标的情况下&#xf…

【技能实训】DMS数据挖掘项目-Day11

文章目录 任务12【任务12.1】创建用户信息表【任务12.2】在com.qst.dms.entity下创建用户实体类User&#xff0c;以便封装用户数据【任务12.3】在com.qst.dms.service下创建用户业务类UserService【任务12.4】在项目根目录下创建图片文件夹images&#xff0c;存储dms.png【任务…

计算机毕业论文选题推荐|软件工程|信息管理|数据分析|系列一

文章目录 导文题目导文 计算机毕业论文选题推荐|软件工程|信息管理 (***语言)==使用其他任何编程语言 例如:基于(***语言)门窗账务管理系统的设计与实现 得到:基于JAVA门窗账务管理系统的设计与实现 基于vue门窗账务管理系统的设计与实现 等等 题目 基于requests多线程…

微信小程序——字符串截取

indexOf() &#xff1a; 判断一个字符是否在字符串 中 存在&#xff0c;如果存在返回该元素或字符第一次出现 的 位置 的 索引&#xff0c;不存在返回-1。 lastIndexOf() &#xff1a; 返回一个指定的字符串值最后出现的位置&#xff0c;在一个字符串中的指定位置从后向前搜索。…

静态数码管显示

学习芯片&#xff1a; EP4CE6F17C8 本次学习使用的为共阴极数码管&#xff0c;即用低电平点亮数码管&#xff0c;同样可知&#xff0c;共阳极数码管的阳极连在一起&#xff0c;即用高电平点亮数码管。 八段数码管示意图&#xff1a; a,b,c,d,e,f,g,dg表示八段数码管时&#…

7、sentinel使用和源码分析

一、分布式系统遇到的问题 1、服务雪崩效应 在分布式系统中,由于网络原因或自身的原因,服务一般无法保证 100% 可用。如果一个服务出现了问题&#xff0c;调用这个服务就会出现线程阻塞的情况&#xff0c;此时若有大量的请求涌入&#xff0c;就会出现多条线程阻塞等待&#x…