Hadoop分布式文件系统

目录

一、Hadoop

1、Hadoop发展简史

2、HDFS存储模型

3、HDFS架构设计

3.1、角色功能

3.2、元数据持久化

3.3、安全模式

3.4、HDFS中的SNN

3.5、Block的副本放置策略

4、HDFS写流程

5、HDFS读流程


一、Hadoop

Hadoop之父Doug Cutting

Hadoop的发音[hædu:p]Cutting儿子对玩具小象的昵称

1、Hadoop发展简史

  1. 2002年10月,Doug Cutting和Mike Cafarella创建了开源网页爬虫项目Nutch。
  2. 2003年10月,Google发表Google File System论文。
  3. 2004年7月,Doug Cutting和Mike Cafarella在Nutch中实现了类似GFS的功能,即后来HDFS的前身。
  4. 2004年10月,Google发表了MapReduce论文。
  5. 2005年2月,Mike Cafarella在Nutch中实现了MapReduce的最初版本。
  6. 2005年12月,开源搜索项目Nutch移植到新框架,使用MapReduce和HDFS在20个节点稳定运行。
  7. 2006年1月,Doug Cutting加入雅虎,Yahoo!提供一个专门的团队和资源将Hadoop发展成一个可在网络上运行的系统。
  8. 2006年2月,Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。
  9. 2006年3月,Yahoo!建设了第一个Hadoop集群用于开发。
  10. 2006年4月,第一个Apache Hadoop发布。
  11. 2006年11月,Google发表了Bigtable论文,激起了Hbase的创建。
  12. 2007年10月,第一个Hadoop用户组会议召开,社区贡献开始急剧上升。
  13. 2007年,百度开始使用Hadoop做离线处理。
  14. 2007年,中国移动开始在“大云”研究中使用Hadoop技术。
  15. 2008年,淘宝开始投入研究基于Hadoop的系统——云梯,并将其用于处理电子商务相关数据。
  16. 2008年1月,Hadoop成为Apache顶级项目。
  17. 2008年2月,Yahoo!运行了世界上最大的Hadoop应用,宣布其搜索引擎产品部署在一个拥有1万个内核的Hadoop集群上。
  18. 2008年4月,在900个节点上运行1TB排序测试集仅需209秒,成为世界最快。
  19. 2008年8月,第一个Hadoop商业化公司Cloudera成立。
  20. 2008年10月,研究集群每天装载10TB的数据。
  21. 2009 年3月,Cloudera推出世界上首个Hadoop发行版——CDH(Cloudera's Distribution including Apache Hadoop)平台,完全由开放源码软件组成。   Cloudera公司网址
  22. 2009年6月,Cloudera的工程师Tom White编写的《Hadoop权威指南》初版出版,后被誉为Hadoop圣经。
  23. 2009年7月 ,Hadoop Core项目更名为Hadoop Common;
  24. 2009年7月 ,MapReduce 和 Hadoop Distributed File System (HDFS) 成为Hadoop项目的独立子项目。
  25. 2009年8月,Hadoop创始人Doug Cutting加入Cloudera担任首席架构师。
  26. 2009年10月,首届Hadoop World大会在纽约召开。
  27. 2010年5月,IBM提供了基于Hadoop 的大数据分析软件——InfoSphere BigInsights,包括基础版和企业版。
  28. 2011年3月,Apache Hadoop获得Media Guardian Innovation Awards媒体卫报创新奖
  29. 2012年3月,企业必须的重要功能HDFS NameNode HA被加入Hadoop主版本。
  30. 2012年8月,另外一个重要的企业适用功能YARN成为Hadoop子项目。
  31. 2014年2月,Spark逐渐代替MapReduce成为Hadoop的缺省执行引擎,并成为Apache基金会顶级项目。
  32. 2017年12月,Release 3.0.0 generally available

hadoop官网         Cloudera公司网址

2、HDFS存储模型

  • 文件线性按字节切割成块(block),具有offset,id
  • 文件与文件的block大小可以不一样
  • 一个文件除最后一个block,其他block大小一致
  • block的大小依据硬件的I/O特性调整
  • block被分散存放在集群的节点中,具有location
  • Block具有副本(replication),没有主从概念,副本不能出现在同一个节点
  • 副本是满足可靠性和性能的关键
  • 文件上传可以指定block大小和副本数,上传后只能修改副本数
  • 一次写入多次读取,不支持修改
  • 支持追加数据

3、HDFS架构设计

  • HDFS是一个主从(Master/Slaves)架构
  • 由一个NameNode和一些DataNode组成
  • 面向文件包含:文件数据(data)和文件元数据(metadata)
  • NameNode负责存储和管理文件元数据,并维护了一个层次型的文件目录树
  • DataNode负责存储文件数据(block块),并提供block的读写
  • DataNode与NameNode维持心跳,并汇报自己持有的block信息
  • Client和NameNode交互文件元数据和DataNode交互文件block数据

3.1、角色功能

NameNode

  • 完全基于内存存储文件元数据、目录结构、文件block的映射
  • 需要持久化方案保证数据可靠性
  • 提供副本放置策略

DataNode

  • 基于本地磁盘存储block(文件的形式)
  • 并保存block的校验和数据保证block的可靠性
  • 与NameNode保持心跳,汇报block列表状态

3.2、元数据持久化

  • 任何对文件系统元数据产生修改的操作,Namenode都会使用一种称为EditLog的事务日志记录下来
  • 使用FsImage存储内存所有的元数据状态
  • 使用本地磁盘保存EditLog和FsImage
  • EditLog具有完整性,数据丢失少,但恢复速度慢,并有体积膨胀风险
  • FsImage具有恢复速度快,体积与内存数据相当,但不能实时保存,数据丢失多
  • NameNode使用了FsImage+EditLog整合的方案:
    • 滚动将增量的EditLog更新到FsImage,以保证更近时点的FsImage和更小的EditLog体积

3.3、安全模式

  • HDFS搭建时会格式化,格式化操作会产生一个空的FsImage
  • 当Namenode启动时,它从硬盘中读取Editlog和FsImage
  • 将所有Editlog中的事务作用在内存中的FsImage上
  • 并将这个新版本的FsImage从内存中保存到本地磁盘上
  • 然后删除旧的Editlog,因为这个旧的Editlog的事务都已经作用在FsImage上了
  • Namenode启动后会进入一个称为安全模式的特殊状态。
  • 处于安全模式的Namenode是不会进行数据块的复制的。
  • Namenode从所有的 Datanode接收心跳信号和块状态报告。
  • 每当Namenode检测确认某个数据块的副本数目达到这个最小值,那么该数据块就会被认为是副本安全(safely replicated)的。
  • 在一定百分比(这个参数可配置)的数据块被Namenode检测确认是安全之后(加上一个额外的30秒等待时间),Namenode将退出安全模式状态。
  • 接下来它会确定还有哪些数据块的副本没有达到指定数目,并将这些数据块复制到其他Datanode上。

3.4、HDFS中的SNN

SecondaryNameNode(SNN)

  • 在非Ha模式下,SNN一般是独立的节点,周期完成对NN的EditLog向FsImage合并,减少EditLog大小,减少NN启动时间
  • 根据配置文件设置的时间间隔fs.checkpoint.period  默认3600秒
  • 根据配置文件设置edits log大小 fs.checkpoint.size 规定edits文件的最大值默认是64MB

3.5、Block的副本放置策略

第一个副本:放置在上传文件的DN;如果是集群外提交,则随机挑选一台磁盘不太满,CPU不太忙的节点。
第二个副本:放置在于第一个副本不同的 机架的节点上。
第三个副本:与第二个副本相同机架的节点。
更多副本:随机节点。
 

4、HDFS写流程

  • Client和NN连接创建文件元数据
  • NN判定元数据是否有效
  • NN处发副本放置策略,返回一个有序的DN列表
  • Client和DN建立Pipeline连接
  • Client将块切分成packet(64KB),并使用chunk(512B)+chucksum(4B)填充
  • Client将packet放入发送队列dataqueue中,并向第一个DN发送
  • 第一个DN收到packet后本地保存并发送给第二个DN
  • 第二个DN收到packet后本地保存并发送给第三个DN
  • 这一个过程中,上游节点同时发送下一个packet
  • 生活中类比工厂的流水线:结论:流式其实也是变种的并行计算
  • Hdfs使用这种传输方式,副本数对于client是透明的
  • 当block传输完成,DN们各自向NN汇报,同时client继续传输下一个block
  • 所以,client的传输和block的汇报也是并行的

5、HDFS读流程

  • 为了降低整体的带宽消耗和读取延时,HDFS会尽量让读取程序读取离它最近的副本。
  • 如果在读取程序的同一个机架上有一个副本,那么就读取该副本。
  • 如果一个HDFS集群跨越多个数据中心,那么客户端也将首先读本地数据中心的副本。
  • 语义:下载一个文件:
    • Client和NN交互文件元数据获取fileBlockLocation
    • NN会按距离策略排序返回
    • Client尝试下载block并校验数据完整性
  • 语义:下载一个文件其实是获取文件的所有的block元数据,那么子集获取某些block应该成立
    • Hdfs支持client给出文件的offset自定义连接哪些block的DN,自定义获取数据
    • 这个是支持计算层的分治、并行计算的核心
       

再小的努力,乘以365都很明显!
一个程序员最重要的能力是:写出高质量的代码!!
有道无术,术尚可求也,有术无道,止于术。
无论你是年轻还是年长,所有程序员都需要记住:时刻努力学习新技术,否则就会被时代抛弃!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/90854.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

uniapp ssr发行后一直Hydration completed but contains mismatches Cannot find module

最开始我用前端网页托管的地址访问一直是 Hydration completed but contains mismatches 解决方案 要从云函数的地址访问项目。 先绑定域名,否则用uniapp自带地址访问一直是下载文件 设置路径 最后效果 uniapp ssr 云函数访问 MODULE_NOT_FOUND:Cannot fin…

【科研】--计算机领域顶会

计算机领域顶会 网络安全领域顶会 S&P IEEE Symposium on Security and Privacy (S&P) dblp链接:https://dblp.uni-trier.de/db/conf/sp/index.html 官网链接: http://www.ieee-security.org/TC/SP2021/program-papers.html CCS Conference…

2023 年 Bitget Wallet 测评

对Bitget Wallet钱包的看法 Bitget Wallet在安全性、产品实力和使用体验方面可与Metamask媲美,甚至有所超越,唯一稍显不足的是知名度稍逊一筹。在众多钱包中,Bitget Wallet是拥有最全面的钱包之一,尤其适合那些希望一步到位&…

面试理论篇一

关于面向对象 注:自用 1,什么是面向对象编程? 面向对象编程是⼀种程序设计思想,通过将问题抽象成对象,通过对象之间的交互和数据封装来实现程序逻辑。 2,Java中的类和对象有什么区别? 类是描述…

最小生成树 | 市政道路拓宽预算的优化 (Minimum Spanning Tree)

任务描述: 市政投资拓宽市区道路,本着执政为民,节省纳税人钱的目的,论证是否有必要对每一条路都施工拓宽? 这是一个连问带答的好问题。项目制学习可以上下半场,上半场头脑风暴节省投资的所有可行的思路&a…

web:[极客大挑战 2019]Upload

题目 页面显示为一个上传&#xff0c;猜测上传一句话木马文件 先查看源代码看一下有没有有用的信息&#xff0c;说明要先上传图片&#xff0c;先尝试上传含有一句话木马的图片 构造payload <?php eval($_POST[123]);?> 上传后页面显示为&#xff0c;不能包含<&…

《三国志》游戏的数据表设计与优化

在前两篇文章中,我们已经介绍了数据库的基础概念和《三国志》游戏的数据管理。这篇文章将专注于《三国志》游戏的数据表设计与优化。我们将探讨如何为游戏中的每个实体(例如,武将、城市、装备等)创建数据表,以及如何选择合适的主键和字段类型,最后还将讨论如何定义约束条…

nmap 扫描内网IP, 系统, 端口

nmap 扫描内网IP, 系统, 端口 扫描内网ip 对内网进行ARP扫描 .\nmap.exe -sn 192.168.110.0/24 # 全网段 .\nmap.exe -sn 192.168.110.100-200 # 100-200范围 扫描端口 .\nmap.exe -sT 192.168.110.130 # 三次握手连接 较慢, 但更有效 .\nmap.exe -sS 192.168.110.130 # 发…

k8s--架构基础--云控制器管理器

具体来说&#xff0c;云控制器管理器允许用户将集群与云服务提供商的 API 进行连接&#xff0c;以获取与云平台相关的信息和资源。通过这种连接&#xff0c;Kubernetes 可以利用云服务提供商的功能和特性&#xff0c;例如虚拟机、负载均衡器、对象存储等。与此同时&#xff0c;…

“益路同行”栏目专访第11期——柳州市雨花敬老服务中心陈勇梅

中国善网在本届&#xff08;第十届&#xff09;慈展会上特别推出了《益路同行》采访栏目&#xff0c;《益路同行》栏目旨在寻觅公益之路上同行者的故事&#xff0c;挖掘公益更深层次的内涵&#xff0c;探索新时代公益发展道路。希望公益企业、人物、故事被更多人看到&#xff0…

2.物联网射频识别,RFID通信原理,RFID读写器与标签无线交互方式、数据反馈方式,RFID调制与解调、编码方式,不同RFID标签与读写器

一。RFID无线识别的原理 1.RFID系统无线通信基本原理 如下图所示&#xff0c;左边是读写器&#xff08;刷卡器&#xff09;&#xff0c;右边是标签&#xff08;卡&#xff09;&#xff0c;中间通过无线通信方式。 标签&#xff1a;&#xff08;卡&#xff09; 读写器&#xff…

实战项目:VB实现小鸟快跑小游戏

文章目录&#xff1a; 一&#xff1a;效果演示 二&#xff1a;实现思路 三&#xff1a;代码实现 form1 效果图 代码 form2 效果图 代码 一&#xff1a;效果演示 效果图◕‿◕✌✌✌ 代码下载 二&#xff1a;实现思路 窗口1 就是实现窗口的跳转和关闭窗口2 1.先添加背…

CSS详细基础(三)复合选择器

前两章介绍了CSS中的基础属性&#xff0c;以及一些基础的选择器&#xff0c;本贴开始介绍复合选择器的内容~ ​ 在 CSS 中&#xff0c;可以根据选择器的类型把选择器分为基础选择器和复合选择器&#xff0c;复合选择器是建立在基础选择器之上&#xff0c;对基本选择器进行组合形…

ElementUI之动态树+数据表格+分页

目录 前言 一.ElementUI之动态树 1.前端模板演示 2.数据绑定 2.1 通过链接获取后台数据 2.2 对链接进行绑定 2.3添加动态路由 2.4 配置路由 3.效果演示 二.数据表格动态分页 1.前端模板 2.通过JS交互获取后端数据 3 效果演示 前言 Element UI 是一个基于 Vue.js 的开…

IDEA Debug技巧大全,看完就能提升工作效率

作者简介 目录 1.行断点 2.方法断点 3.异常断点 4.字段断点 5.条件表达式 1.行断点 行断点就是平时我们在代码行旁边单击鼠标打上的断点&#xff0c;这个没有什么好说的。关键点在于很多人不知道的&#xff0c;行断点其实是可以右击选择是对改行的全部调用都生效&#xf…

缓存一致性(cache coherency)解决方案:MESI 协议状态转换详解

MESI 协议 一&#xff0c;MESI状态释义二&#xff0c;MESI状态转换1 Invalid after Reset2, Invalid > Exclusive3, Exclusive > Modified4 Modified > Shared, Invalid > Shared5 Shared > Invalid, Shared > Modified 三&#xff0c;状态转换场景总结Inval…

Go语言strconv包

strconv包 参考资料 常用函数 函数功能备注Atoi(s string) (int, error)string转为intItoa(i int) stringint转为stringIsPrint(r rune) bool查询是否可以打印 了解函数 函数功能备注ParseBool(str string) (value bool, err error)返回字符串表示的bool值。它接受1、0、t…

最新影视视频微信小程序源码-带支付和采集功能/微信小程序影视源码PHP(更新)

源码简介&#xff1a; 这个影视视频微信小程序源码&#xff0c;新更新的&#xff0c;它还带支付和采集功能&#xff0c;作为微信小程序影视源码&#xff0c;它可以为用户 提供丰富的影视资源&#xff0c;包括电影、电视剧、综艺节目等。 这个小程序影视源码&#xff0c;还带有…

Vue之ElementUI实现登陆及注册

目录 ​编辑 前言 一、ElementUI简介 1. 什么是ElementUI 2. 使用ElementUI的优势 3. ElementUI的应用场景 二、登陆注册前端界面开发 1. 修改端口号 2. 下载ElementUI所需的js依赖 2.1 添加Element-UI模块 2.2 导入Element-UI模块 2.3 测试Element-UI是否能用 3.编…

APScheduler包——python tornado框架中实现定时任务

介绍&#xff1a; APScheduler的全称是Advanced Python Scheduler。它是一个轻量级的 Python 定时任务调度框架。APScheduler 支持三种调度任务&#xff1a;固定时间间隔&#xff0c;固定时间点&#xff08;日期&#xff09;&#xff0c;Linux 下的 Crontab 命令。同时&#xf…