关于Hbase的一些问题

HBase

1. RowKey如何设计,设计不好会产生什么后果

唯一原则:在设计上要保持RowKey的唯一性。

  • 因为HBase中的数据是以KV的格式来存储的,所以如果向同一张表中插入RowKey相同的数据,旧的数据会被覆盖掉。

长度原则:建议RowKey的长度不要过长最好不要超过十六字节。对齐RowKey长度。

  • 因为数据的持久化文件HFile是按照Key Value存储的,如果RowKey的长度过长,会使得文件过大,从而影响HFile的存储效率。
  • MemStore将缓存部分数据到内存,如果RowKey的长度过长就会导致内存的有效利用率降低,系统将无法缓存更多的数据,降低检索速率。

散列原则:设计出来的RowKey需要均匀的分布在各个RegionServer上。

  • 如果数据分布的不均匀就可能会造成数据倾斜的发生,进一步导致热点问题的出现,最终造成节点崩溃。

2. 列族如何设计,为什么不建议HBase设计过多列族

  • HBase的列族不是越多越好,官方推荐一个表的列族最好不超过三个,过多的列族不利于HBase数据的管理和索引。

  • 将所有相关性很强的key_value都放在同一个列族。这样可以增加查询效率,减少访问不同的磁盘文件。

  • 列族的长度尽可能小,一个是为了增加查询速率,一个是为了节省空间。

    • 内存开销:列族过多,内存开销会逐渐积累,导致RegionServer的内存占用增加,影响集群的稳定性。
    • 磁盘开销:过多的列族会导致更多的磁盘寻址和IO操作,增加磁盘开销。
    • 查询性能下降:查询跨越多个列族,会影响性能。
    • 写入性能下降:写入操作需要锁定列族,列族过多会导致性能下降。

    3. HBase读取数据的流程

    1. Client访问Zookeeper,获取hbase:meta所在的HRegionServer的节点信息;
    2. Client访问hbase:meta所在的HRegionServer,获取hbase:meta记录的元数据后加载到内存中,然后再从内从中查询出RowKey所在的Hregion(HRegion所在的HRegionServer);
    3. Client对RowKey所在的HRegion对应的HRegionServer发起读取请求;
    4. HRegionServer构建RegionScanner(需要查询的RowKey分布在多少个HRegion中就需要构建多少个RegionScanner),用于对该HRegion的数据检索;
    5. RegionScanner构建StoreScanner(HRegion中有多少个Store就需要构建多少个StoreScanner,Store的数量取决于表中的列族的数量),用于对该列族的检索;
    6. 所有的StoreScanner合并构建最小堆(已排序的完全二叉树)StoreHeap:PriorityQueue;
    7. StoreScanner构建一个MemStoreScanner和一个或多个StoreFIleScanner(数量取决于StoreFile的数量);
    8. 过滤掉能够确定索要查询的RowKey一定不存在的StoreFileScanner或MemStoreScanner(布隆过滤器);
    9. 经过筛选后留下的Scanner开始做读取数据的准备,将对应的StoreFile定位到满足的RowKey的起始位置;
    10. 将所有的StoreFileScanner和MemStoreScanner合并构建最小堆KeyValueHeap:PriorityQueue,排序的规则按照KeyValue从小到大排序;
    11. 从KeyValueHeap:PriorityQueue中经过一系列筛选后一行行的得到需要查询的KeyValue。

4. HBase写入数据的流程

  1. Client访问ZooKeeper,获取hbase:meta所在的HRegionServer的节点信息;
  2. Client访问hbase:meta所在的HRegionServer,获取hbase:meta记录的元数据后现加载到内存中,然后再从内存中查询出RowKey所在的HRegion(HRegion所在的HRegionServer);
  3. Client对RowKey所在的HRegion对应的HRegionServer发起写入请求;
  4. 建立连接后,首先将DML要做的操作写入到日志HLog;
  5. 然后将数据的修改更新到MemStore中,本次操作结束。一个HRegion由多个Store组成,一个Store对应一个列族,Store包括位于内存的MemStore和位于磁盘的StoreFile,写入操作先写入MemStore;
  6. 当MemStore数据达到阈值后(128M),创建一个新的MemStore;
  7. 旧的MemStore将刷写成为一个独立的StoreFIle(HRegionServer会启动FlushCache进程写入StoreFIle)并存放到HDFS,最后删除HLog中的历史数据。

5. Hive 和 HBase的区别

HBase和Hive都是架构在Hadoop之上的,都使用了HDFS作为底层存储。

不同点

  • Hive是一个数仓工具,可以将结构化数据映射为表格。HBase是一个分布式的非关系型数据库。
  • Hive本身并不存储和计算数据,它底层通过Hadoop的MapReduce框架来处理数据。HBase底层使用HDFS和ZooKeeper分布式协调服务来存储和管理数据。
  • HBase是物理表,提供了一个超大内存的Hash表,搜索引擎通过它来存储索引,方便查询操作。
  • Hive不支持随机写入操作,HBase支持随机写入操作。
  • Hive适合查询和分析结构化数据,HBase适合存储和查询非结构化数据。

6. 为什么要使用Phoenix

  • 提供标准的SQL以及完备的ACID事务支持;
  • 通过利用HBase作为存储,让NoSQL数据库具备通过有模式的方式读取数据,可以使用SQL语句来操作HBase。
  • Phoenix通过协处理器在服务器端执行操作,最小化客户机/服务器数据传输。
  • Phoenix可以很好地与其他的Hadoop组件整合到一起,例如Spark、Hive等。

Phoenix只是在HBase之上构建了SQL查询引擎,Phoenix可以使用SQl快速查询HBase中的数据,但是数据的底层必须符合HBase的存储结构,HBase结合Phoenix可以实现海量数据的快速随机读写。Phoenix就相当于一个特别好用的皮肤,方便了程序员的操作。

7. HBase的热点Key会产生什么问题

HBase中的热点Key是指在同一时间内被频繁访问的行键,造成少数RegionServer的读写请求过多,负载过大,而其他RegionServer负载却很小,造成热点现象。

  • 读写性能下降:由于多个请求涌入到一台RegionServer中,导致该RegionServer的负载过高,从而影响读写性能。
  • 均衡性差:由于不同RegionServer负责不同的Region,而热点Key的存在会导致某些RegionServer的负载过高,从而影响整个集群的负载不平衡。
  • 单点故障:如果某个RegionServer负责的某个Region出现热点Key问题,该RegionServer发生故障会导致该Region不可用,从而影响整个集群的可用性。

避免HBase的热点Key的方式:

  • 合理设计RowKey
  • 采用哈希算法对RowKey进行分片,使数据分布更均匀
  • 使用预分区技术

8. 说一说HBase的数据刷写与合并

数据刷写(FLush):数据刷写是将内存中的数据写入到磁盘存储的过程。在HBase中,写入的数据首先会被缓存在内存的MemStore中,而不是直接写入磁盘。当MemStore中的数据达到一定大小阈值时,或者出发了一定的时间阈值,HBase会将该MemStore中的数据刷写到磁盘,生成一个新的Store文件。这样可以减少磁盘的随机写入操作,提高写入性能。

数据合并(Comoaction):数据合并是将多个Store文件合并成为一个更大的文件的过程。在HBase中,随着数据的写入和删除,会产生大量的小文件,这样对于查询操作会引入额外的磁盘寻址开销。为了优化性能和减少磁盘空间的占用,HBase会定期执行那个数据合并操作。数据合并会将多个Store文件合并成更大的文件,从而减少文件数量和磁盘寻址次数。

  • 触发数据合并的三种方式:MemStore刷盘后台线程周期性检查手动触发
  • 小合并(Minor Compaction):当一个Region中的Store文件达到一定的数量或累积了一定大小时,会触发小合并。小合并只会合并相邻的几个Store文件,并生成一个新的更大的文件。
    • 不做任何删除数据、多版本数据的清理工作,但是会对 minVersion=0 并且设置 TTL 的过期版本数据进行清理。
  • 大合并(Major Compaction):当一个Region中的Store文件数量达到一定阈值,或者手动触发大合并操作时,会执行大合并。大合并会将所有的Store文件都合并为一个更大的文件。大合并 可以进一步优化查询性能和节省磁盘空间,但相应地需要更多的计算和IO资源。
    • 清理三类无意义数据:被删除的数据、TTL 过期数据、版本号超过设定版本号的数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/150900.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java方法中不使用的对象应该手动赋值为NULL吗?

在java方法中,不使用的对象是否应该手动赋值为null?我们先来通过一个示例看一下。 垃圾回收示例一 public class GuoGuoTest {public static void main(String[] args) {byte[] placeholder new byte[64 * 1024 * 1024];System.gc();} } 上面代码向内…

vue3 tsx 项目中使用 Antv/G2 实现多线折线图

Antv/G2 文档 Antv/G2 双折线图 安装 antV-G2 通过 npm 安装 项目中安装 antv/g2 依赖库&#xff1a; npm install antv/g2 --save安装成功&#xff1a; 浏览器引入 可以将脚本下载到本地&#xff0c;也可以直接引入在线资源。 引入在线资源 <!-- 引入在线资源&…

java springboot在测试类中启动一个web环境

我们在开发过程中 可以对数据层 业务层做测试 那我们的表现层能做测试吗&#xff1f; 答案自然是可以的 但是 前提 我们要有一个web环境 我们现在 测试类运行 明显是个很普通的java程序 还是这个 SpringBootTest 它有一个 webEnvironment 我们可以先这样写 package com.examp…

城市生命线丨市政综合管廊监测系统的效果

市政综合管廊&#xff0c;又被称为城市生命线&#xff0c;是我们在地下建造的一个智慧而高效的空间。它把市政、电力、通讯、燃气、给排水等各种管线集于一体&#xff0c;解决了城市中反复开挖路面、架空线网密集、管线事故频发等问题&#xff0c;为城市运行提供了重要的基础设…

Windows安装Vmware 虚拟机

目录 一、Vmware 虚拟机介绍 二、Vmware 虚拟机的三种网络模式 2.1桥接模式 2.2仅主机模式 2.3NAT 网络地址转换模式 三、Vmware 虚拟机的安装 一、Vmware 虚拟机介绍 VMware Workstation Pro 是一款可以在个人电脑的操作系统上创建一个完全与主机操作系统隔离的 虚拟机&…

【技巧】Word和Excel如何互相转换?

Word文档里有数据表格&#xff0c;如果编辑修改起来感觉没那么方便或容易出错&#xff0c;不妨将文档转换成Excel表格再来处理。 将Word文档转换成Excel&#xff0c;比较常用的是复制粘贴方法&#xff0c;也就是将Word文档的表格复制后&#xff0c;再粘贴到Excel表格里&#x…

FPC焊点剥离失效分析

一、案例背景 FPC在后续组装过程中&#xff0c;连接器发生脱落。在对同批次的样品进行推力测试后&#xff0c;发现连接器推力有偏小的现象。据此进行失效分析&#xff0c;明确FPC连接器脱落原因。 #1、#2样品连接器脱落连接器脱落&#xff1b;#3样品连接器未脱落&#xff1b;…

c语言通信之网络通信

除了上一章说的串口通信&#xff0c;还有网络通信也是一种常见的通信方式。下面是一个基于TCP协议的网络通信的例子&#xff1a; 1.创建socket 在C语言中&#xff0c;可以使用socket()函数创建一个socket。该函数的第一个参数是协议族&#xff0c;第二个参数是socket类型。例…

HTTP HTTPS 独特的魅力

目录 HTTP协议 HTTP协议的工作过程 首行 请求头&#xff08;header&#xff09; HOST Content-Length​编辑 User-Agent&#xff08;简称UA&#xff09; Referer Cookie 空行 正文&#xff08;body&#xff09; HTTP响应详解 状态码 报文格式 HTTP响应格式 如何…

鸿蒙:Harmony开发基础知识详解

一.概述 工欲善其事&#xff0c;必先利其器。 上一篇博文实现了一个"Hello Harmony"的Demo&#xff0c;今天这篇博文就以"Hello Harmony" 为例&#xff0c;以官网开发文档为依据&#xff0c;从鸿蒙开发主要的几个方面入手&#xff0c;详细了解一下鸿蒙开…

RAID技术复习笔记

Raid&#xff08;Redundant Array of independent Disks&#xff09;独立磁盘冗余阵列&#xff1a;磁盘阵列 Raid 分为:软raid、硬raid、软硬混合三种。 软Raid&#xff1a;所有的功能均有操作系统和CPU来完成&#xff0c;没有独立的raid控制、处理芯片和IO处理处理芯片。 硬R…

车载通信架构 —— 传统车内通信网络发展回顾

车载通信架构 —— 传统车内通信网络发展回顾 我是穿拖鞋的汉子&#xff0c;魔都中坚持长期主义的汽车电子工程师。 老规矩&#xff0c;分享一段喜欢的文字&#xff0c;避免自己成为高知识低文化的工程师&#xff1a; 屏蔽力是信息过载时代一个人的特殊竞争力&#xff0c;任何…

c语言-数据结构-堆

目录 一、二叉树 1、二叉树的概念 2、完全二叉树和满二叉树 3、完全二叉树的顺序存储 二、堆 2、堆的概念与结构 3、堆的创建及初始化 4、堆的插入&#xff08;小堆&#xff09; 5、堆的删除 6、显示堆顶元素 7、显示堆里的元素个数 8、测试堆的各个功能 9、 实现堆…

华为 HUAWEI 数通路由交换设备 基线安全加固操作

帐号管理 ELK-Huawei-01-01-01 编号&#xff1a; ELK-Huawei-01-01-01 名称&#xff1a; 无效帐户清理 实施目的&#xff1a; 删除与设备运行、维护等工作无关的账号 问题影响&#xff1a; 账号混淆&#xff0c;权限不明确&#xff0c;存在用户越权使用的可能。 系统当…

学生邮箱白嫖/免费安装JetBrains全家桶(IDEA/pycharm等) —— 保姆级教程

&#x1f9f8;欢迎来到dream_ready的博客&#xff0c;&#x1f4dc;相信您对博主首页也很感兴趣o (ˉ▽ˉ&#xff1b;) 博主首页&#xff0c;更多redis、java等优质好文以及各种保姆级教程等您挖掘&#xff01; 目录 前言 JetBrains全家桶介绍 申请过程&#xff1a; 获取学…

这个技术也能管理教学质量,厉害了!

在当今数字化时代&#xff0c;教育领域也在积极应用先进的技术来提升教学质量和管理效率。在线巡课系统作为其中的一种创新工具&#xff0c;为学校管理者和教育工作者提供了便捷而高效的管理手段。 在线巡课系统通过数字化、自动化的方式&#xff0c;实现了对课堂教学的全面监控…

Python基础:正则表达式(regular expression)详解

在Python中&#xff0c;正则表达式是一种强大的工具&#xff0c;可用于匹配和操作字符串。什么是正则表达式&#xff1f; 正则表达式是一种模式匹配语言&#xff0c;用于匹配字符串中的特定模式。这些模式可以是字母、数字、字符组合或其他符号。正则表达式通常用于文本处理、网…

C语言-字符串替换

本题要求编写程序&#xff0c;将给定字符串中的大写英文字母按以下对应规则替换&#xff1a; 原字母对应字母AZBYCXDW……XCYBZA 输入格式&#xff1a; 输入在一行中给出一个不超过80个字符、并以回车结束的字符串。 输出格式&#xff1a; 输出在一行中给出替换完成后的字…

excel怎么能锁住行 和/或 列的自增长,保证粘贴公式的时候不自增长或者只有部分自增长

例如在C4单元格中输入了公式&#xff1a; 现在如果把C4拷贝到C5&#xff0c;D3会自增长为D4&#xff1a; 现在如果想拷贝的时候不自增长&#xff0c;可以先把光标放到C4单元格&#xff0c;然后按F4键&#xff0c;行和列的前面加上了$符号&#xff0c;锁定了&#xff1a; …

Linux中的进程终止(详解)

Linux中的进程终止 1. 进程退出场景2. 进程常见退出方法2.1 _exit函数2.2 exit函数2.3 return退出 1. 进程退出场景 代码运行完毕&#xff0c;结果正确代码运行完毕&#xff0c;结果不正确代码异常终止 2. 进程常见退出方法 正常终止&#xff08;可以通过 echo $? 查看进程…