HBase基础

参考

https://www.bilibili.com/video/BV1bC4y1b7Q1

HBase 简介

定义

HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库(k-v)。

数据量越大，优势越明显；数据量小，比较消耗内存，耗资源；数据量大的时候，可以做到几十亿条数据秒级查询；

HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用 HBASE 技术可在廉价 PC Server 上搭建起大规模结构化存储集群。
HBase 的目标是存储并处理大型的数据，更具体来说是仅需使用普通的硬件配置，就能够处理由成千上万的行和列所组成的大型数据。
HBase 是 Google Bigtable 的开源实现，但是也有很多不同之处。比如：Google Bigtable利用 GFS 作为其文件存储系统，HBase 利用 Hadoop HDFS 作为其文件存储系统；Google运行 MAPREDUCE 来处理 Bigtable 中的海量数据，HBase 同样利用 Hadoop MapReduce 来处理 HBase 中的海量数据；Google Bigtable 利用 Chubby 作为协同服务，HBase 利用 Zookeeper 作为对应。
官网：http://habse.apache.org
逻辑上，HBase的数据模型同关系型数据库很类似，数据存储在一张表中，有行有列。但从HBase的底层物理存储结构（K-V)来看，HBase更像是一个multi-dimensional map(多维度map)。

HBase逻辑存储

画hbase结构的时候,一般画为表结构,但是事实上,在库中不是这样存储的,是k-v的,有唯一键.

在这里插入图片描述

一张表中:

Row Key行键:
- 表的key,必有的,在一张表中唯一,类似主键;
- 是有序的;
- 字典序:由小到大的,按位比较,有比没有大(1<11<2<3<4<45);
列:一张表中每一个字段就是一列,列可以动态增加;
列族:
- HBASE在一个表中将很多列分成列族(图中分了personal_info和office_info两个列族);
- 不同的列族放到不同的文件夹中存放;(相当于mysql中对于宽表的切分)
- 实质:一张表会根据列族分为多个文件夹;
横向切分region:根据行键切分,切分时根据数据量进行切分

HBase是要存海量数据的,几百列,几十亿行,因此要将数据分列族,分region,提高查询速度
图片中表被切为了6块,3行2列

列:根据列族切分
行:根据行键切分

高表:数据行多
宽表:数据列多

store:真正存的内容,真正在HBase表中存的数据

HBase物理存储

在这里插入图片描述

这一部分才是真正存储的内容;

存储的时候,每一行都存储为右下角的那种格式,使用Row Key作为唯一主键;

Row Key:唯一键
column Family:列族
column qualifier
timestamp:时间戳,操作时间
type:类型
- Put:插入
- Delete:删除
value:值

可以看到,图中phone的有两行,key一样,时间戳和value不一样;

其实这是进行了修改操作;

修改:其实是重新put了一条数据,获取的时候获取最大的时间戳的
删除:插入一条删除记录,若是获取的时候删除操作大,代表删除了

HBase数据模型

Name Space
命名空间，类似于关系型数据库的database概念，每个命名空间下有多个表。Hbase有两个自带的命名空间，分别是hbase和default,hbase中存放的是HBase内置的表(可以创建表,但是最好不要)，default表是用户默认使用的命名空间。
Region
类似于关系型数据库的表概念。不同的是，HBase定义表时只需要声明列族即可，不需要声明具体的列。这意味着，往HBase写入数据时，字段可以动态、按需指定。因此，和关系型数据库相比，HBase能够轻松应对字段变更的场景。

hbase的列就相当于数据

Row:行
HBase表中的每行数据都由一个RowKey和多个Column(列）组成，数据是按照RowKey的字典顺序存储的，并且查询数据时只能根据RowKey进行检索，所以RowKey的设计十分重要。
Column:列
HBase中的每个列都由Column Family(列族）和Column Qualifier(列限定符)进行限定，例如``info:name,info:age`(列族:具体列)。建表时，只需指明列族，而列限定符无需预先定义。
Time Stamp
用于标识数据的不同版本（version)(除了这个和value和type可以不一样,其他必须一样,才代表同一条数据),每条数据写入时，如果不指定时间戳，系统会自动为其加上该字段，其值为写入HBase的时间。
Cell(一个单元格)
由{rowkey,column Family:column Qualifier,time Stamp}唯一确定的单元(时间戳确定了版本)。cell中的数据是没有类型的，全部是**字节码(byte[])**形式存贮。

HBase基本架构

在这里插入图片描述

数据存储在 Store 中，一个 Store 对应 HBase 表中的一个列族。

RegionServer
- 数据的get/put/delete(查/增/删)
- Regioan表的:splitRegion(切分), compactRegion(合并)
master:依赖于Zookeeper,管理集群
- 管理表:create创建/delete删除/alter修改/查询/描述
- 管理RegionServer:分配regions到每个RegionServer,监控每个RegionServer的状态

master高可用
为 RegionServer 分配 Region
维护整个集群的负载均衡
维护集群的元数据信息
发现失效的 Region，并将失效的 Region 分配到正常的 RegionServer 上
当 RegionSever 失效的时候，协调对应 Hlog 的拆分

Zookeeper
- HBase 通过 Zookeeper 来做 master 的高可用、RegionServer 的监控、元数据的入口以及集群配置的维护等工作。具体工作如下：
  - 通过 Zoopkeeper 来保证集群中只有 1 个 master 在运行，如果 master 异常，会通过竞争机制产生新的 master 提供服务
  - 通过 Zoopkeeper 来监控 RegionServer 的状态，当 RegionSevrer 有异常的时候，通过回调的形式通知 Master RegionServer 上下线的信息
  - 通过 Zoopkeeper 存储元数据的统一入口地址

Hbase 特点

海量存储
Hbase 适合存储 PB 级别的海量数据，在 PB 级别的数据以及采用廉价 PC 存储的情况下，能在几十到百毫秒内返回数据。这与 Hbase 的极易扩展性息息相关。正式因为 Hbase 良好的扩展性，才为海量数据的存储提供了便利。
列式存储
这里的列式存储其实说的是列族存储，Hbase 是根据列族来存储数据的。列族下面可以有非常多的列，列族在创建表的时候就必须指定。
极易扩展
Hbase 的扩展性主要体现在两个方面，一个是基于上层处理能力（RegionServer）的扩展，一个是基于存储的扩展（HDFS）。
通过横向添加 RegionSever 的机器，进行水平扩展，提升 Hbase 上层的处理能力，提升 Hbsae
服务更多 Region 的能力。

备注：RegionServer 的作用是管理 region、承接业务的访问，这个后面会详细的介绍通过横向添加 Datanode 的机器，进行存储层扩容，提升 Hbase 的数据存储能力和提升后端存储的读写能力。

高并发
由于目前大部分使用 Hbase 的架构，都是采用的廉价 PC，因此单个 IO 的延迟其实并不小，一般在几十到上百 ms 之间。这里说的高并发，主要是在并发的情况下，Hbase 的单个IO 延迟下降并不多。能获得高并发、低延迟的服务。
稀疏
稀疏主要是针对 Hbase 列的灵活性，在列族中，你可以指定任意多的列，在列数据为空的情况下，是不会占用存储空间的。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/107021.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！