HBase高阶(一)基础架构及存储原理

一、HBase介绍

简介

HBase是Hadoop生态系统中的一个分布式、面向列的开源数据库,具有高可伸缩性、高性能和强大的数据处理能力。广泛应用于处理大规模数据集。

HBase是一种稀疏的分布式持久的多维排序map

稀疏:对比关系型数据库和非关系型数据库,关系型数据库是以表格的形式进行存储,对存储的要求较高,每一行每一列都需要预留对应的存储空间,这就会造成存储空间的浪费。

分布式:海量数据保存在多台机器上。

持久化:将内存中的对象存储在数据库中,或者存储在磁盘文件中。

多维:noSQL数据库的本质是KV结构。像hashMap就是一种单维的kv结构,存储的数据不够全面、较为单一。 

排序:无序的数据当想要查找的时候,需要遍历全表。而排序的表可以按照一些算法进行查找

map:由行键、列键和时间戳作为keyvalue是一个未解释的字节数组(未解释:经过序列化 或 没有经过UTF-8编码。这么做能够节省存储空间)

hbase的设计模型可以参考这篇文档:

Amandeep Khurana - 基本模型导论

1. 特点

我们都知道HBase是一种 分布式的NoSQL 数据库。比起传统的 RDBMS,由于缺少RDBMS中的许多特性,HBase 更像是一种【数据存储-Data Store】而非【数据库-Data Base】。但是当集群中数据增加到一定程度时,传统RDBMS很难支撑起大量的存储需求,而HBase可以通过分裂rowkey,将数据分布式的存储在不同的RegionServer上。

  1. 数据模式:HBase是一种模式灵活的数据库系统,没有严格定义的表结构。
  2. 强一致性的读/写:HBase在默认情况下提供最终一致性,即写入操作的结果可能不会立即对所有读取操作可见。
  3. 存储与计算:HBase存储在HDFS,使用MapReduce进行计算
  4. 支持使用Java API进行编程访问
  5. 支持Block Cache和Bloom Filters进行大容量查询优化

2. 使用场景

  1. 当数据量够大,比如数亿行数据
  2. 没有使用到RDBMS的特性,如索引、事务、高级查询语言等
  3. 由于需要使用集群,所以需要保证有足够的硬件资源

二、HBase逻辑结构(概念)

1. 基础模型

一个Hbase表的逻辑结构是这样的:

名词解释:

  • Column Family(列族):HBase中的每个列都归属于某个列族,列族不能改变,一行可有多个列族,一个列族可有任意个列;
  • Column(列):类似于关系型数据库中的列名。一般都是从属于某个列族,跟列族不一样,这些列都可以动态添加;
  • RowKey(行键):行键是HBase记录条目的主键,物理存储时会按照RowKey的字典序排序存储,HBase基于RowKey实现索引。

存储特点:

  • Key-Value(键值对):每一列存储的是一个键值对,Key是列名,Value是列值。通过{行键,列族名,列名}可以唯一确定一个列单元并获取数据Value,和关系型数据库不同的是,HBase中的数据是没有类型的,都是以bytes形式存储;
  •  Byte(数据类型):数据在HBase中以Byte存储,实际的数据类型交由用户转换;
  • 多维:通过行、列能维持一个复杂的结构;
  • 数据存储整体有序:按照rowkey的字典序排列,rowkey为byte数组;
  •  稀疏矩阵:行与行之间的列数可以不同,但只有实际的列才会占用存储空间;
  • Version(多版本):每一列都可配置相应的版本数量,获取指定版本的数据(默认返回最新版本)。HBase 的版本维度按递减顺序存储,因此在从存储文件中读取时,最新的值首先被找到。

【引申】

        由于HBase通过Put和Result支持“Bytes-in/Bytes-out”接口,因此任何可以转换为字节数组的内容都可以作为值存储。输入可以是字符串、数字、复杂对象,甚至是图像,只要它们可以转换为字节。

        类似于一个文件夹,里面可以存放各种类型的文件,比如文本文件、图片文件、视频文件等。你可以将这个文件夹看作是HBase表中的一行数据,而文件夹中的文件就是该行数据的值。无论是什么类型的文件,只要它们可以转换为字节,就可以存储在HBase中。

2. 模型拆分

一个表示数十亿行、数百万列,如果不进行拆分无法对其进行存储。

  • 首先横向以行为单位进行拆分。因为在数据表格使用时往往以行为单位,在写入时往往一次写入一行的数据。拆分完就把表格拆分出一个结构:Region。Region在拆分完之后会有对应的rowkey范围,每个Region的rowkey范围不一样,互相不交叉。用于实现分布式结构,拆分完之后可以放到不同的节点上。
  • 然后以列族为单位竖向切分。由于存在数百万列,不进行拆分数据量太大。切分出来的单位成为store。竖向切分为store,用于底层存储到不同的文件夹中,便于文件存储。
  • 切分region:放到不同的节点;切分store:拆分文件夹

3. 多维映射的HBase表中的一行

Key  由 [row key, column family, column qualifier, timestamp] 组成
Value  为每一个 cell 的内容

三、HBase 物理存储结构

虽然在概念级别上可以将表视为一组稀疏的行,但它们在物理上是按列族存储的,可以随时向现有列族添加新的列限定符(column_family:column_qualifier)。

在上面图示中,拆分到最后一个存储单元是一个store。以一个store为例,value是实际存储的数值,也就是“张三”。

Key由行号①rowkey、②列号(包括列族、列限定符)、③时间戳(用于标记版本)、④type(当前标记,如put、delete)组成。

解释:

  • 修改:由于HBase是以HDFS为存储基础的数据库,而HDFS在对文件存储时只能新增、删除、不能修改,所以HBase不能修改数据。为了实现修改数据的功能,HBase通过时间戳来实现版本的标记。读取数据的时候有两个时间版本,新的版本会覆盖旧的版本,就会被认为数据已经修改。
  • 删除:与修改类似,为了实现对数据的删除,HBase通过对时间戳标记,实现对数据的删除。

1. 数据模型

  • NameSpace(命名空间):与database概念类似。每个命名空间下有多个表;
  • Table(表):类似于关系型数据库中表的概念。但Hbase定义表时只需要声明列族,不需要声明具体的列;
  • Row:每行数据由一个Rowkey和多个Column(列)组成;
  • Column:每个列由Column Family(列族)Column Qualifier(列限定符)进行限定。建表时只需要声明列族,列限定符无需预先定义;
  • Time Stamp:用于标识数据的不同版本(version),数据写入时会自动加上该字段,其值为写入HBase的时间;
  • Cell:由 {rowkey, column Family:column Qualifier, time Stamp} 唯一确定的单元。cell 中的数据是没有类型的,全部是字节码形式存贮。底层存储的一行数据为一个cell。(一个版本对应一个cel)

四、HBase架构及设计

1. 主架构

  • client:当一个Client需要访问HBase集群时,Client需要先和Zookeeper来通信,获取路由表hbase-meta的存放地址。通过这个存放地址可以获得hbase:meta文件来找到的Client所需要的Region和对应的Region Server的地址,进行DML操作。

  • zookeeper:HMaster通过zookeeper实现分布式的管理。

  • HMaster / Backup-Master:HMaster 是 HBase 集群的主节点,负责管理整个集群的元数据(如表和列族信息)、调度和协调工作,以及处理管理操作。HMaster 负责分配和管理 RegionServer,负责 Region 的负载均衡、故障恢复和自动切分。在 HBase 中,每个集群通常只有一个 HMaster节点,在故障发生时可以通过自动故障转移来切换到另一台 HMaster。

  • HRegionServe:HRegionServer 是 HBase 集群中的工作节点,负责存储和处理数据。RegionServer将进程信息注册到zookeeper中,master读取zk中注册的信息,从而实现管理。每个 RegionServer 管理多个 HBase 表的 Region,每个 Region 负责存储表的一部分数据。HRegionServer 处理来自客户端的读写请求,并将数据存储到 HDFS 上。它还负责处理 Region的 分裂、合并、迁移等操作,以及处理数据的压缩、缓存和预取。

  • HDFS:用于实际存储数据。

2. 其他组成部分

  • HLog:负责记录着数据的操作日志,当HBase出现故障时可以进行日志重放、故障恢复。例如,磁盘掉电导致 MemStore中的数据没有持久化存储到 StoreFile,这时就可以通过HLog日志重放来恢复数据。
  • HRegion:将表切分成多个region。
  • Store:一个 Region 由多个 Store 组成,每个 Store 都对应一个 Column Family, Store 包含 MemStore 和 StoreFile。
  1. MemStore内存数据存储,数据的写操作会先写到 MemStore 中,当MemStore 中的数据增长到一个阈值(默认64M)后,Region Server 会启动 flasheatch 进程将 MemStore 中的数据写人 StoreFile 持久化存储,每次写入后都形成一个单独的 StoreFile。
  2. StoreFile:MemStore 内存中的数据写到文件后就是StoreFile,StoreFile底层是以 HFile 的格式保存。HBase以Store的大小来判断是否需要切分Region。
  • HFile / StoreFile:HFile 和 StoreFile 是同一个文件,只不过站在 HDFS 的角度称这个文件为HFile,站在HBase的角度就称这个文件为StoreFile。

HBase将表格的数据存储到HDFS上,按照 namespace -> table -> region -> store 的格式划分文件夹存储。在store内部存储HFile,内部为对应的cell。

3. HBase 表的设计原则

  •  region 的大小设置在 10-50GB 之间;
  • 单个 cell 大小不超过 10MB。或使用mob机制存储数据时,单个mob列不大于50MB。否则,可以考虑将数据存储在HDFS中,并在HBase中存储一个指向数据在HDFS中位置的指针;
  • 一个典型的模式每个表有1到3个列族。HBase表不应该被设计成模仿RDBMS表;
  • 对于1-2个列族的表来说,region最好设置为50-100个;
  • 列族尽可能短,不能像RDBMS那样具有描述性;

【注】mob是指"Mobile”(移动)的简称。它是一种特殊的存储机制,用于存储较大的数据值(例如大文本、图像、音频等),可以提供更高的读取性能和压缩比

4. HBase 列族的设计原则

  • HBase目前不能很好地处理超过两个或三个列族的任何东西,所以最好尽量减少列族的数量
  • 如果单个表中存在多个列族,请注意表格的行数。如果 列族A 有100万行,而 列族B 有10亿行,那么 列族A 的数据可能会分布在很多很多的 regionserver 中。会大大降低对 列族A 进行大规模扫描的效率。

5. HBase RowKey的设计原则

参考 -> HBase rowkey的设计原则

四、HBase原理

写入过程

当数据写入HBase时,首先会根据表的设计将数据写入对应的Region。每个Region维护一个HLogMemStore。数据首先被追加到HLog中,以提供数据的持久性和故障恢复。然后数据被写入内存的MemStore中,当MemStore积累到一定的大小后,将其刷新到磁盘上的HFile中。同时,HBase还会对数据进行压缩和写缓存等优化操作。

可以参考->HBase有写入数据,页面端显示无数据量_five小点心的博客-CSDN博客

读取过程

读取数据时,HBase首先在内存中的MemStore中查找数据,然后在HFile中进行查找。由于HFile支持块级索引,可以高效地定位到指定行的数据。HBase还可以利用块缓存(BlockCache)来加速数据的读取操作,通过将热点数据缓存在内存中,提高读取性能。

故障恢复

HBase通过复制机制实现数据的冗余备份,并通过多个RegionServer之间的数据复制来提供高可用性和容错性。当一个RegionServer宕机时,HBase会使用备份的数据进行自动故障转移,将失效的Region切换到其他可用的RegionServer上。

自动切分

HBase支持自动切分(Split)功能,当一个Region存储的数据过大时,HBase会自动将其切分为两个或多个Region,从而实现数据的均衡分布。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/91651.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【洛谷】P3378 【模板】堆

原题链接&#xff1a;https://www.luogu.com.cn/problem/P3378 目录 1. 题目描述 2. 思路分析 3. 代码实现 1. 题目描述 2. 思路分析 一道模板题&#xff0c;主要是熟悉STL中优先队列&#xff08;priority_queue&#xff09;的使用。 堆的STL实现: priority_queue<in…

1.6.C++项目:仿mudou库实现并发服务器之channel模块的设计

项目完整版在&#xff1a; 文章目录 一、channel模块&#xff1a;事件管理Channel类实现二、提供的功能三、实现思想&#xff08;一&#xff09;功能&#xff08;二&#xff09;意义&#xff08;三&#xff09;功能设计 四、代码&#xff08;一&#xff09;框架&#xff08;二…

【分布式计算】二、架构 Architectures

1.中心化架构&#xff08;Centralized Architectures&#xff09; 1.1.经典C/S模型 服务器&#xff1a;一个或多个进程提供服务 客户端&#xff1a;一个或多个进程使用服务 客户端和服务器可以在不同的机器上 客户端遵循请求/回复模型 1.2.传统三层视图 用户界面层&#x…

KNN(上):数据分析 | 数据挖掘 | 十大算法之一

⭐️⭐️⭐️⭐️⭐️欢迎来到我的博客⭐️⭐️⭐️⭐️⭐️ &#x1f434;作者&#xff1a;秋无之地 &#x1f434;简介&#xff1a;CSDN爬虫、后端、大数据领域创作者。目前从事python爬虫、后端和大数据等相关工作&#xff0c;主要擅长领域有&#xff1a;爬虫、后端、大数据…

Socket网络编程练习题三:客户端上传文件到服务器

题目 客户端&#xff1a;将本地文件上传到服务器&#xff0c;接收服务器的反馈服务端&#xff1a;接收客户端上传的文件&#xff0c;上传完毕之后给出反馈 代码实战 1、客户端代码 package com.heima;import java.io.*; import java.net.Socket;public class Client {publi…

毛玻璃态按钮悬停效果

效果展示 页面结构组成 通过上述的效果展示可以看出如下几个效果 毛玻璃的按钮按钮上斜边背景及动画按钮上下边缘的小按钮和小按钮动画 CSS3 知识点 backdrop-filter 属性transition 属性transform 属性 实现基础按钮结构 <div class"btn"><a href&qu…

抓包习讯云院校数据通过PHP解析导入数据库

前言 最近&#xff0c;打卡APP需要这个数据&#xff0c;通过抓包后发现这个数据是固定的&#xff0c;获取很简单&#xff0c;但是数据太多&#xff0c;手动导入不显示&#xff0c;于是分析了json格式后果断通过脚本完成 【推荐】 《【MQTT】Esp32数据上传采集&#xff1a;最…

elementui引入弹出框报错:this.$alert is not defined 解决方案

1.按需引入文件element.js 注意&#xff1a;引入Message&#xff0c;MessageBox两个组件就行&#xff0c;alert包括在MessageBox里面了。 之前我引入了Alert组件&#xff0c;发现不行 2.在vue的prototype里注册伪名字 3.组件里直接调用就行了 4.实现效果 我发现elementui调用…

React 入门笔记

前言 国庆值班把假期拆了个稀碎, 正好不用去看人潮人海, 趁机会赶个晚集入门一下都火这么久的 React 前端技术. 话说其实 n 年前也了解过一丢丢来着, 当时看到一上来就用 JS 写 DOM 的套路直接就给吓退了, 扭头还去看 Vue 了&#x1f923;, 现在从市场份额来看, 确实 React 还…

【通意千问】大模型GitHub开源工程学习笔记(2)--使用Qwen进行推理的示例代码解析,及transformers的库使用

使用Transformers来使用模型 如希望使用Qwen-chat进行推理,所需要写的只是如下所示的数行代码。请确保你使用的是最新代码,并指定正确的模型名称和路径,如Qwen/Qwen-7B-Chat和Qwen/Qwen-14B-Chat 这里给出了一段代码 from transformers import AutoModelForCausalLM, Aut…

手动实现Transformer

Transformer和BERT可谓是LLM的基础模型&#xff0c;彻底搞懂极其必要。Transformer最初设想是作为文本翻译模型使用的&#xff0c;而BERT模型构建使用了Transformer的部分组件&#xff0c;如果理解了Transformer&#xff0c;则能很轻松地理解BERT。 一.Transformer模型架构 1…

【Spring Cloud】深入理解 Eureka 注册中心的原理、服务的注册与发现

文章目录 前言一、微服务调用出现的问题1.1 服务消费者如何获取服务提供者的地址信息&#xff1f;1.2 如果有多个服务提供者&#xff0c;消费者该如何选择&#xff1f;1.3 消费者如何得知服务提供者的健康状态&#xff1f; 二、什么是 Eureka2.1 Eureka 的核心概念2.2 Eureka 的…

MyBatis 映射文件(Mapper XML):配置与使用

MyBatis 映射文件&#xff08;Mapper XML&#xff09;&#xff1a;配置与使用 MyBatis是一个强大的Java持久化框架&#xff0c;它允许您将SQL查询、插入、更新和删除等操作与Java方法进行映射。这种映射是通过MyBatis的映射文件&#xff0c;通常称为Mapper XML文件来实现的。本…

国庆创作周 组播《第十二课》

国庆创作周《第十二课》图解

5自由度雄克机械臂仿真描点

5自由度雄克机械臂仿真描点 任务 建立雄克机械臂的坐标系和D-H参数表&#xff0c;使用Matlab机器人工具箱&#xff08;Robotics Toolbox&#xff09;&#xff0c;用机械臂末端执行器触碰8个红色的目标点。 代码 %% 机器人学 format compact close all clear clc%% DH参数 L…

Springboot: Spring Cloud Gateway 使用的基本概念及配置介绍

1. SpringCloud 与 SpringBoot的版本映射关系 在已有的Spring Boot项目中增加Spring Cloud&#xff0c;首先要确定使用的Spring Cloud的版本&#xff0c;这取决于项目使用的Spring Boot的版本 SpringCloud 与 SpringBoot的版本映射关系 如果两者的版本不兼容&#xff0c;再会…

R | R及Rstudio安装、运行环境变量及RStudio配置

R | R及Rstudio安装、运行环境变量及RStudio配置 一、介绍1.1 R介绍1.2 RStudio介绍 二、R安装2.1 演示电脑系统2.2 R下载2.3 R安装2.4 R语言运行环境设置&#xff08;环境变量&#xff09;2.4.1 目的2.4.2 R-CMD测试2.4.3 设置环境变量 2.5 R安装测试 三、RStudio安装3.1 RStu…

vue.draggable拖拽,项目中三个表格互相拖拽的实例操作,前端分页等更多小技巧~

vue.draggable中文文档 - itxst.com官网在这里&#xff0c;感兴趣的小伙伴可以看看。 NPM或yarn安装方式 yarn add vuedraggable npm i -S vuedraggable UMD浏览器直接引用JS方式 <script src"https://www.itxst.com/package/vue/vue.min.js"></script&…

Leetcode算法题练习(一)

目录 一、前言 二、移动零 三、复写零 四、快乐数 五、电话号码的字母组合 六、字符串相加 一、前言 大家好&#xff0c;我是dbln&#xff0c;从本篇文章开始我就会记录我在练习算法题时的思路和想法。如果有错误&#xff0c;还请大家指出&#xff0c;帮助我进步。谢谢&…

PHP 二手物品交易网站系统mysql数据库web结构apache计算机软件工程网页wamp

一、源码特点 PHP 二手物品交易网站系统是一套完善的web设计系统&#xff0c;对理解php编程开发语言有帮助&#xff0c;系统具有完整的源代码和数据库&#xff0c;系统主要采用B/S模式开发。 代码下载 https://download.csdn.net/download/qq_41221322/88385559 二、功能介…