Hbase读写数据的原理解析

  • 目录
  • 1、体系图
    • 写数据的流程(参考上图):
    • 读数据的流程(参考下图):

目录

1、体系图

这里写图片描述
针对上图的一些解释:
这里面数据分区(region)存储是为了查询方便(即因为是集群所以能充分利用磁盘的IO性)。添加数据时,数据先进入Hlog–预写日志(数据只能追加不能修改)<防止数据丢失>,数据在Hlog写完后再写到内存中
HFile:认为是将数据进行序列化。
StoreFile:认为是一个文件。
DFS:调用HDFS的客户端API来将数据传到HDFS。

写数据的流程(参考上图):

1、客户端向hregionServer请求写数据
2、hregionServer将数据先写入hlog中。
3、hregionServer将数据后写入memstore中。
4、当内存中的数据达到阈值64M的时候,将数据Flush到硬盘中,并同时删除内存和hlog中的历史数据。
5、将硬盘中数据通过HFile来序列化,再将数据传输到HDFS进行存储。并对Hlog做一个标记。
6、当HDFS中的数据块达到4块的时候,Hmaster将数据加载到本地进行一个合并(如果合并后数据的大小小于256M则当数据块再次达到4块时(包含小于256M的数据块)将最新4块数据块再次进行合并,此时数据块大于256M)。
7、若数据块大于256M,则将数据重新拆分,将分配后的region重新分配给不同的hregionServer进行管理。
8、当hregionServer宕机后,将hregionServer上的hlog重新分配给不同的hregionServer进行加载(修改.META文件中关于数据所在server的信息)。注意:hlog会同步到HDFS中。

读数据的流程(参考下图):

1、通过zk来获取ROOT表在那个节点上,然后进一步通过-ROOT表和-META表来获取最终的位置信息。
2、数据从内存和硬盘合并后返回到客户端。
这里写图片描述

PS:由上图可看到,当客户端在执行查询语句的时候,会先到zk上寻找对应-ROOT表(主要描述-META表在哪里)的位置信息(由此也知道ZK在Hbase中的作用),接下来根据-ROOT表中数据进而找到对应的HRegionServer,在对应的HRegionServer上的-META表(主要记载表的元数据信息)中找到对应的Table表在哪个HRegionServer上,再到对应的HRegionServer中查找对应的数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/456664.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Zookeeper的简介及命令行操作

目录前言1、Zookeeper简介2、Zookeeper结构3、Zookeeper常用的命令行操作 总结&#xff1a; 目录 前言 作为一款第三方的协调服务框架&#xff0c;ZK被应用在许多地方&#xff0c;如&#xff1a;Hbase中用于存储-ROOT表的位置信息&#xff1b;Storm中用于保存任务分配的信息、…

【python】pycharm启动 一直index,无法运行

花了几个小时找相关资料&#xff0c;按网上提供答案操作&#xff0c;依然没有解决, 最后让它自动更新完才好&#xff08;大概更新了十分钟 有固态情况&#xff09; 参考链接 pycharm启动后总是不停的updating indices...indexing? pycharm 启动后一直更新index的问题

Zookeeper集群角色分配原理

ZK内部存在Leader和Follower两个角色&#xff0c;那么这两种角色是怎样划分呢&#xff1f;或者说是怎么样被选举出来呢&#xff1f;以下将详细介绍ZK内部的选举机制。 ZK是通过内部的选举算法来选出Leader。&#xff08;服务器需要配置对应的ID和文件&#xff09;如下图所示&a…

2016大数据发展7大趋势

1.算法&#xff08;Algorithms&#xff09;的崛起 大数据已过时&#xff0c;算法正当道。数据已经成为一种商品&#xff0c;每个组织都能够收集和存储大量的数据。分析大数据也不再那么引人注目了。每个组织都可以聘用或培训大数据分析人员来了解数据模式。 2016年&#xff0c;…

MySQL数据库重点概要总结

目录前言&#xff1a;1、结构化查询语言(Structured Query Language)简称SQL。2、基本SELECT语句语法3、多表链接4、笛卡尔积5、ANSI SQL ANSI SQL&#xff1a;1999标准的连接语法6、单行函数和分组函数的区别&#xff1a;7、分组函数8、SQL语句的执行顺序&#xff1a;9、子查询…

《MySQL排错指南》——1.9 许可问题

本节书摘来自异步社区出版社《MySQL排错指南》一书中的第1章&#xff0c;第1.9节&#xff0c;作者&#xff1a;【美】Sveta Smirnova&#xff08;斯维特 斯米尔诺娃&#xff09;&#xff0c;更多章节内容可以访问云栖社区“异步社区”公众号查看。 1.9 许可问题 MySQL有复杂的…

毕业半年,码过5个城市

时间飞逝&#xff0c;半年前我还在想我的毕业设计要怎么做&#xff0c;还在担心自己的答辩能够拿多少分&#xff0c;而此刻我正在成都写我喜欢的代码&#xff0c;过着我想过的生活。毕业半年&#xff0c;码过5个城市&#xff0c;从厦门->太原-》合肥-》北京-》成都。2016是我…

《Pro/ENGINEER野火版5.0从入门到精通》——2.5 设置零件单位

本节书摘来自异步社区《Pro/ENGINEER野火版5.0从入门到精通》一书中的第2章&#xff0c;第2.5节&#xff0c;作者 暴风创新科技&#xff0c;更多章节内容可以访问云栖社区“异步社区”公众号查看。 2.5 设置零件单位 由于不同国家单位制的不相同&#xff0c;在企业间合作或沟通…

机器学习之必知开源数据集

之前看到的不错的文章&#xff0c;玩机器学习数据是关键&#xff0c;有了这些东西&#xff0c;你就不必再为没有数据而苦恼。 转自&#xff1a;https://www.toutiao.com/i6432197108580745730/ 目录UCIGoogleTrendsKaggleAWS公用数据集ImagenetMINIST/r/数据集其他数据集 目录…

《计算机科学概论》—第3章3.3节文本表示法

本节书摘来自华章出版社《计算机科学概论》一书中的第3章&#xff0c;第3.3节文本表示法&#xff0c;作者&#xff3b;美]内尔黛尔&#xff08;Nell Dale&#xff09;约翰路易斯&#xff08;John Lewis&#xff09;&#xff0c;更多章节内容可以访问云栖社区“华章计算机”公众…

经典技术面试指南

目录计算机基础知识数据结构算法操作系统计算机网络数据库海量数据处理C语言基础Java基础Java高级Java Web设计模式知识的综合能力工具使用项目相关技术热情表达能力思考方式其他推荐阅读 目录 最近看到一份不错的面试总结&#xff0c;也是每位程序猿都应该掌握的基础&#x…

Linux 共享内存详解一

共享内存段被多个进程附加的时候&#xff0c;如果不是所有进程都已经调用shmdt&#xff0c;那么删除该共享内存段时&#xff0c;会出现一个临时的不完整的共享内存段&#xff08;key值是0&#xff09;&#xff0c;无法彻底删除。只有当所有进程都调用shmdt&#xff0c;这个临时…

Storm编程模型总结

目录前言&#xff1a;1、Storm编程模型2、对应的的WordCount案例总结&#xff1a; 目录 前言&#xff1a; 对于Storm的编程模型有必要做一个详细的介绍&#xff08;配合WC案例来介绍&#xff09; 1、Storm编程模型 上图中组件的解释&#xff1a; DataSource&#xff1a;外…

13_观察者模式

【观察者模式】 也叫作发布/订阅模式&#xff0c;使用较为频繁。 定义了对象间一种一对多的依赖关系&#xff0c;当一个对象改变状态时&#xff0c;则所有依赖于它的对象都会得到通知并被自动更新。 观察者模式由以下几个角色组成&#xff1a; * Subject 被观察者 定义被观察者…

《黑客秘笈——渗透测试实用指南》—第2章2.3节 外部或内部的主动式信息收集...

本节书摘来自异步社区《黑客秘笈——渗透测试实用指南》一书中的第2章2.3节 外部或内部的主动式信息收集&#xff0c;作者【美】Peter Kim&#xff08;彼得 基姆&#xff09;,更多章节内容可以访问云栖社区“异步社区”公众号查看。 2.3 外部或内部的主动式信息收集黑客秘笈——…

Storm集群的安装及简单使用

目录前言&#xff1a;1、集群部署的基本流程2、Storm常用操作命令&#xff08;了解&#xff09;3、Storm集群的进程及日志熟悉&#xff08;知道对应的日志的位置出了问题知道去哪找原因&#xff09;4、Storm源码目录分析&#xff08;重要&#xff09;总结&#xff1a; 目录 前…

Storm的通信机制

目录前言&#xff1a;1、Worker进程间通信原理2、Worker进程间技术(Netty、ZeroMQ)3、Worker 内部通信技术(Disruptor)总结&#xff1a; 目录 前言&#xff1a; 这篇文章&#xff0c;博客主要介绍下Storm中Worker进程间和进程内部通信的原理和技术。整篇内容仅供了解&#x…

Storm程序的并发机制原理总结

文章目录目录前言&#xff1a;1、概念2、配置并行度总结&#xff1a;目录 前言&#xff1a; 为了在以后的实践中提高Storm程序执行的效率&#xff0c;我们还是有必要了解下对应的Storm程序的并发机制。&#xff08;哈哈&#xff0c;虽然以博主小菜鸟的水平还没有接触到这种提…

★数学上最大的数是多少?

数学上最大的数是多少&#xff1f; 怪罗科普 收藏(282)| 阅读(117678)人类已经使用数长达千年之久。普遍认为&#xff0c;数的概念最先源于史前人类开始使用手指进行计数。这最终演变成符号语言&#xff0c;然后在沙子、墙壁和木头等物体上作标记。 我们已经向前发展了一大步&…

Storm任务提交过程及目录树介绍

目录前言&#xff1a;1、Storm 任务提交的过程2、Storm相关的目录树总结&#xff1a; 目录 前言&#xff1a; 对于任何一个组件来说&#xff0c;了解它相关的任务提交的过程是非常有必要的&#xff08;毕竟生产中遇到一些Bug时&#xff0c;你如果知道内部执行的过程&#xf…