分布式文件系统HDFS

1.HDFS简介

1.1 Hadoop Distributed File System,简称HDFS。解决海量数据的分布式存储。

1.2 分布式文件系统

  • 计算机集群中内部机器通过光纤高速交换机进行连接,机架之间通过宽带更高的光纤交换机连接。

  • 有一个主节点机器其他的为从节点机器,主节点承担数据目录(元数据)服务,从节点负责具体的数据存储任务。
    在这里插入图片描述
    在这里插入图片描述
    1.3 HDFS实现目标

  • 兼容廉价的硬件设备

  • 实现流数据读写:批量读取全部数据或大部分数据。

  • 支持大数据集

  • 支持简单的文件模型

  • 强大的跨平台特性

1.4 HDFS自身的局限性

  • 不适合低延迟数据访问
  • 无法高效存储大量小文件:HDFS是通过元数据来指引客户端到节点寻找相关数据文件,一个文件被切分存到不同节点。元数据被保存在NameNode节点,HDFS会建立一个碎银数据结构,小文件多,则索引数据结果变得复杂,查询效率变低。
  • 不支持多用户写入及任意修改文件:只允许追加,不允许修改。

2.HDFS相关概念

2.1 块的概念:HDFS中核心概念,分摊磁盘的读写开销(在大量数据间分摊磁盘寻址开销),比普通的文件系统块要大得多,默认为64M。如果块过大,MapReduce执行任务的并行度降低。

2.2 HDFS块设计的优点

  • 支持大规模文件存储:对较大数据进行分割,使其可以分布存储在某些节点(不分的话,单机存不下)。
  • 简化系统设计
  • 适合数据备份

2.3 HDFS两大组件

  • 名称节点:整个HDFS集群的管家,有数据目录。
    元数据:包括数据分割的份数,块与文件的映射关系、块的存储位置等信息。
    FsImage:保存系统文件树以及文件树中所有文件和文件夹中的元数据。是存储相关元数据的,包括文件的复制等级、修改访问时间、访问权限、块大小以及组成的文件的块。
    在这里插入图片描述
    EditLog:记录对数据进行的诸如创建、删除、重命名等操作。

  • 数据节点:存储实际数据。

  • 从节点向主节点汇报自己存储的数据块,主节点生成一个数据清单。

  • 如何避免EditLog的不断增大
    SecondaryNode:名称节点的冷备份,也负责对EditLog的维护处理,定期与主节点通信,在某个阶段会请求名称节点停止使用EditLog文件,名称节点停止使用EditLog而生成一个新的edits.new,将又生成的EditLog文件更新写到edits.new中去,第二名称节点通过Http Get方式从名称节点上把FsImage和旧的EditLog下载到本地,然后合并得到新的FsImage文件,然后发送个名称节点,然后名称节点把edits.new更改为EditLog。
    在这里插入图片描述

3.HDFS体系结构

3.1 数据访问
在这里插入图片描述

3.2 HDFS 命名空间
在这里插入图片描述
3.3 使用的通信协议
在这里插入图片描述

3.4 HDFS局限性

  • 命名空间限制:名称结点是保存在内存中的,因此名称结点能够容纳的对象的个数会受到空间大小的限制。
  • 性能瓶颈:整个分布式文件的吞吐量,受限于单个名称结点的吐吞量。
  • 隔离问题:由于集群中只有一个名称结点,只有一个命名空间,因此无法对不同应用程序进行隔离。
  • 具有单点故障:第二名称结点是冷备份,后来2.0版本有所改进。

4.HDFS存储原理

  • 数据冗余保存:每个块都被冗余保存(默认3份).

    • 优点:加速数据传输速度。多机器访问一个数据时。

    • 很容易检查数据错误。

    • 保证数据可靠性。自动复制生成新的副本,保证正确的副本数量。

    • 存储策略:一个块,生成副本,第一个副本存储在上传数据的结点。外部结点若向集群写入数据,则一个块的副本,集群会随机挑选一个磁盘不太满,CPU不太忙的结点存储块的第一个副本,第二副本放在和第一个机架不同的结点上,第三个副本放在和第一个副本相同的机架的不同结点上。
      在这里插入图片描述

    • 读取策略:HDFS提供的一个API可以确定一个数据结点所属的机架ID。获取数据:根据客户端的机架ID和数据副本的机架ID,选择最近的数据副本读取数据。否则的话,就随机选择结点。

  • 数据的错误与恢复

    • 名称结点出错:热备份,则直接启动第二名称结点。
      在这里插入图片描述
    • DateNode出错:通过该节点的数据的其他副本复制该节点的所有数据,放到其他结点。
      在这里插入图片描述
    • 数据本身出错:校验码,数据创建时生成校验码,并和数据放在同一目录下。读到数据时,计算其校验码与源校验码对比,看是否出错。
      在这里插入图片描述

5.HDFS编程-数据读写

  • Hadoop中的一个通用文件系统的抽象基类FileSystem,如下继承其的子类。

    • DistributedFileSystem
    • 数据的读写open/read/close
      • FSDateInputStream
      • DFSInputStream
        在这里插入图片描述
  • hadoop.conf.Configuration

    • Configuration conf=new Configuration();会通过构造函数加载hdfs-site.xml和core-site.xml文件,获取相关配置信息。
  • 数据读取流程
    在这里插入图片描述

6.HDFS编程实践

  • hadoop fs +:

    • ls :显示文件详细信息
    • mkdir:创建相关文件夹
    • cat:指定文件内容输出到标准输出。
  • 本地文件复制到HDFS系统

    • hadoop fs -cp 本地目录 HDFS路径
  • 利用Java API与HDFS交互:需要加载hadoop开发的jar包,一般位于/usr/local/hadoop/share/hadoop目录下,需要将其导入编辑器Eclipse中。选择属性—>Java Build Path—>Libraries—>Add External JARS。

  • 需要将配置的两个文件core-site.xml和hdfs-site.xml复制到Java工程目录下的bin目录下,否则后面运行会出错。

  • 基本编程结构:测试某文件是否存在。

import org.apache.hadoop.conf.Configuration;//管理相关配置文件
import org.apache.hadoop.fs.FileSystem;		//文件相关的基类
import org.apache.hadoop.fs.Path;			//路径类public class Chap
{try{String filename="hdfs://localhost:9000/user/hadoop/test.txt";Configuration conf =new Configuration();FileSystem fs=FileSystem.get(conf);if(fs.exists(new Path(filename))){System.out.println("文件存在");}else{System.out.println("文件不存在");}}catch(Exception e){e.printStackTrace();}
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/484201.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

小程序开发初体验,从静态demo到接入Bmob数据库完全实现

之前我胖汾公司年会、问我能不能帮忙搞个小程序方便他们进行游戏后的惩罚/抽奖使用、出了个简单的设计图、大概三天左右做了个简单的小程序、目前提交审核了。对于写过一小段时间vue来说小程序很容易上手、写法和结构差不多。 ----------------- 这里整理的内容大致划分四个部分…

演讲实录丨徐宗本院士:如何突破机器学习的先验假设?

来源:中国人工智能学会2021年6月5日至6日,由中国科学技术协会、中国科学院、中国工程院、浙江省人民政府指导,中国人工智能学会、杭州市人民政府主办,杭州市余杭区人民政府筹备组承办,浙江杭州未来科技城管理委员会具体…

hbase单机模式配置

1.软件 https://pan.baidu.com/s/1mgPA8s02FFyPqcc9DmR-FA 提取码: 337t 2.在安装hbase之前,确保你的电脑已经安装Hadoop3.1.3,hbase对Hadoop具有版本依赖。 3.将hbase压缩文件解压到/usr/local目录下,先切换到压缩文件所在目录&#xff0…

QT QTransform与QMatrix 有啥区别?

刚开始学习QT,我使用的是QT5.12进行开发,要不时地查阅QT的官方帮助文档~ 仔细阅读QT官方帮助QTransform类以及QMatrix类,发现两个类的作用描述一模一样(“The QTransform class specifies 2D transformations of a coordinate sys…

hbase伪分布式配置

1.在单机模式的基础上进行配置,打开hbase-env.sh。 vim /usr/local/hbase/conf/hbase-env.sh2.配置HBASE_CLASSPATH为hadoop安装目录下的conf目录,即 /usr/local/hadoop/conf。JAVA_HOME、HBASE_MANAGES_ZK之前已经配置好了。 export HBASE_CLASSPATH/…

机器学习是科学还是“炼金术”?

作者:Samuel Flender译者:王强策划: 刘燕在实证领域,科学的严谨性是从假设开始塑造的。业界对机器学习研究的科学严谨性的质疑声越来越多了。在 2017 年 NIPS 会议上的一场 演讲 中,当时就职于谷歌 AI 的 Ali Rahimi 和 Ben Recht 认为 ML 已经成为了一种…

谷歌发布史上最强人类大脑「地图」,在线可视3D神经元「森林」!

来源:机器学习研究组订阅突触,是神经网络的「桥梁」。我们知道,人类大脑有860亿个神经元,因为有了突触,才可以把神经元上的电信号传递到下一个神经元。长久以来,科学家们一直梦想通过绘制完整的大脑神经网络…

javaweb c3p0连接oracle12c

最近在搞javaweb,在连接池上碰到了一系列的问题,在Junit测试时,oracle12c报错: ORA-28040: 没有匹配的验证协议 百度解决:修改 $ORACLE_HOME/network/admin/sqlnet.ora 加入如下:   SQLNET.ALLOWED_LOGON_VERSION8 之…

数学的意义——席南华院士科普讲座实录

来源:中国数学会编辑:nhyilin谢谢主持人的介绍,谢谢大家在周末星期六的下午听这个报告。我今天要说的是“数学的意义”。数学,要说爱你不容易,不管你是天才还是庸人,都是它虐待的对象,差别在于有…

C#穿透session隔离———Windows服务启动UI交互程序

在Windows服务里面启动其他具有界面的应用程序,需要穿透session隔离,尝试了很多种方法,都可行,现在一一列举下来,并写下几个需要注意的地方。 需要注意的地方 首先要将服务的Account属性设置为LocalSystem,…

谈谈相控阵雷达为何如此先进

作者:寒木钓萌来源:电子万花筒对于很多人来说,相控阵雷达非常耳熟,但它的原理又是什么呢?传统雷达与相控阵雷达之区别要说相控阵雷达的原理,就不得不提一下传统雷达的工作方式。影视中,如果非要…

华为在5.5G未来技术演进的六个方向!

来源:5G产业园”2021年8月3日,华为和中国移动在北京召开主题为“双链融合,共创5G可持续发展未来”的5G-Advanced创新产业峰会。华为常务董事、ICT产品与解决方案总裁汪涛在峰会上发表了“合作创新,5.5G使能万物智联”的主题演讲&a…

引用传递

引用传递的核心意义: 同一块堆内存空间可以被不同的栈内存所指向,不同的栈内存可以对同一个堆内存进行内容的修改。 实例1: class Message {private int num 10;public Message(int num){this.num num; //2.this是代表msg这个对象&#…

线程知识点(一)—— 程序、进程、线程之间的区别与联系、Java的线程状态和生命周期

1 程序、进程、线程之间的区别与联系 三者之间的形象化理解: * 程序:代码实现了功能,就是程序,是静态的; * 进程:执行中的程序就是进程,是动态的; * 线程:进程内的一个执…

官方全面解读“5G+工业互联网”

来源:工信部网站未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图…

为什么要学数学?因为这是一场战略性的投资

来源:数学内参如果将数学学习的好坏仅仅理解为“刷题”的数量和速度,那充其量也只能成为一名熟练的数学工匠。我们所受的数学训练,所领会的数学思想和精神,所获得的数学教养,无时无刻不在发挥着积极的作用,…

滤波 放电速度比充电慢 模电

我不理解为什么这里放电速度比充电速度慢? 因为充电时间常数小,而放电时间常数大 转载于:https://www.cnblogs.com/china520/p/10389477.html

Hexo如何绑定个人域名

前两天用HexoGitHub搭建好了自己的个人博客https://www.serendipper-x.cn/,默认域名github下的二级域名:username.github.io,为了提升访问速度和博客的格调,绑定个人域名是多数人的选择。下面给大家介绍详细过程。 购买域名 国内…

什么是涌现?

来源:集智俱乐部作者:由集智俱乐部众包生产在哲学、系统论、科学和艺术中,当一个实体被观察到具有其所有组成部分本身没有的属性时,涌现 emergence 就出现了。这些属性或行为只有当各个部分在一个更广泛的整体中相互作用时才会涌现…

人工智能vs人类智能小传

来源:混沌巡洋舰Alphago代表的深度网络人工智能体现了AI逐步进入未知领域的强大能力, 因此有人堪忧有人喜乐, 却极少有人戳中要害。说AI比人牛是因为它下围棋比人厉害? 说AI离真正的智能很遥远是因为它不能创造吗? 是…