Hadoop(四)C#操作Hbase

Hbase

Hbase是一种NoSql模式的数据库,采用了列式存储。而采用了列存储天然具备以下优势:

  1. 可只查涉及的列,且列可作为索引,相对高效

  2. 针对某一列的聚合及其方便

  3. 同一列的数据类型一致,方便压缩

同时由于列式存储将不同列分开存储,也造成了读取多列效率不高的问题

LSM Tree

说到HBase,我们不得不说其采用的LSM Tree。我们都知道关系数据库中常用的B+Tree,叶子节点有序,但写入时可能存在大量随机写入,因此形成了其读快写慢的特点。

而HBase采用了LSM Tree,在读写之间寻找了平衡,损失了部分读取的性能,实现了快速的写入。LSM具体实现如下:

  1. 写入WAL日志中(防止数据丢失),同时数据写入内存中,内存中构建一个有顺序的树,HBase采用跳表结构。

  2. 随着内存中数据逐渐增大,内存中flush到磁盘,形成一个个小树。

  3. 磁盘中的小树存在数据冗余,且查询时遍历多个小树效率低,LSM定期合并,实现数据合并,而合并的时候,会对数据重新排序,优化读取性能。

72a64b96421b19700089073629398f9e.png

HBase架构

HBase中三个核心的Server形成其分布式存储架构。

  1. RegionServer:负责客户端读写请求,客户端直接与其通信

  2. HBaseMaser:负责维护RegionServer;表结构的维护

  3. Zookeeper:维护集群状态

8b1a80e1b829a3d97115e4bd343f3cbc.png

HBase读写操作步骤

  1. 客户端从zookeeper获取哪台RegionServer存储MetaTable(一张特殊表,存储了所有region信息)。

  2. 客户端查询MetaTable所在的RegionServer,获取哪台RegionServer应负责此次操作的rowKey

  3. 客户端访问对应的RegionServer实现数据读取

2ac604ac3880a404d012db0ddf7263b5.png

RegionServer的组成

  1. WAL:Write Ahead Log,用于存储写操作的日志,用于故障恢复

  2. BlockCache:读缓存,用于缓存最常访问数据

  3. MemStore:写缓存,会定期flush到磁盘

  4. HFile:在HDFS上存储数据,以有序keyvalue形式存储

6416b37d615bfec96f77f3459f09d937.png

HBase存储机制

  1. 表是行的集合。

  2. 行是列家族的集合。

  3. 列家族是列的集合。

  4. 列是键值对的集合。

20600fa742aadcc2558bf8d854baa4ba.png

HBase安装

1.下载Hbase2.4.11

https://hbase.apache.org/downloads.html

2.解压

tar -zxvf hbase-2.4.11-bin.tar.gz

3.修改环境变量

cat conf/hbase-env.sh
export JAVA_HOME=/usr/local/java18/jdk1.8.0_331/

4.修改hbase存储位置

cat conf/hbase-site.xml<property><name>hbase.cluster.distributed</name><value>true</value></property>
<property><name>hbase.rootdir</name><value>hdfs://localhost:9000/hbase</value>
</property>

5.启动Hbase

./bin/start-hbase.sh

6.验证Hbase

http://192.168.43.50:16010/master-status

16021f1f97ccbf9be958299267ef822d.png

7.停止Hbase

./bin/stop-hbase.sh

HBase Shell访问HBase

官方文档:https://hbase.apache.org/book.html#shell

1.进入shell

./bin/hbase shell

2.查看表

hbase:001:0> list

3.创建表

#create ‘<table name>’,’<column family>’hbase:001:0> create 'emp', 'personal data', 'professional data'
Created table emp
Took 3.4810 seconds
=> Hbase::Table - emp

4.创建/更新数据

#put ‘table name’,’row ’,'Column family:column name',’new value’hbase:001:0> put 'emp','1','personal data:name','raju'
Took 1.1807 seconds

5.查看数据

hbase:001:0> scan 'emp'
ROW                                                    COLUMN+CELL1                                                     column=personal data:name, timestamp=2022-05-02T09:55:38.861, value=raju
1 row(s)
Took 1.1758 seconds
#get ’<table name>’,’row1’
hbase:002:0>  get 'emp', '1'
COLUMN                                                 CELLpersonal data:name                                    timestamp=2022-05-02T09:55:38.861, value=raju
1 row(s)
Took 1.3090 seconds

6.删除数据

#delete ‘<table name>’, ‘<row>’, ‘<column name >’, ‘<time stamp>’hbase:001:0> deleteall 'emp','1'
Took 0.9424 seconds

C#访问Hbase

C#访问Hbase可以根据thrift文件自己生成响应rpc client代码,通过rpc方式访问。

https://github.com/apache/hbase/tree/master/hbase-thrift/src/main/resources/org/apache/hadoop/hbase

也可以启动rest server通过微软的Microsoft.Hbase.Client访问,我们这次使用rest方式访问。

1.启动与关闭rest server

./bin/hbase-daemon.sh start rest
./bin/hbase-daemon.sh stop rest

可通过访问http://192.168.43.50:8080/version/cluster验证rest是否启动成功

50ef13d5d68b65bd85a247ec74d7831b.png

2.新增console项目,引入Microsoft.Hbase.Client包

https://github.com/hdinsight/hbase-sdk-for-net

3.编写测试demo

using Microsoft.HBase.Client;
using Microsoft.HBase.Client.LoadBalancing;
using org.apache.hadoop.hbase.rest.protobuf.generated;var scanOptions = RequestOptions.GetDefaultOptions();
scanOptions.Port = 8080;
scanOptions.AlternativeEndpoint = "/";
var nodeIPs = new List<string>();
nodeIPs.Add("192.168.43.50");
var client = new HBaseClient(null, scanOptions, new LoadBalancerRoundRobin(nodeIPs));
var version = client.GetVersionAsync().Result;
Console.WriteLine(version);var testTableSchema = new TableSchema();
testTableSchema.name = "mytablename";
testTableSchema.columns.Add(new ColumnSchema() { name = "d" });
testTableSchema.columns.Add(new ColumnSchema() { name = "f" });
client.CreateTableAsync(testTableSchema).Wait();

通过hbase shell验证表是mytablename否创建成功

hbase:001:0> list
TABLE
emp
mytablename

关注我获取技术分享

4020073ea0c03dc7ecd96c25fbd5f204.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/288114.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

剑指offer之两个栈实现队列问题

1 问题 两个栈实现队列的插入和获取头部元素的功能 2 分析 我们定义连个栈stack1&#xff0c;stack2&#xff0c;当队列弹出头部元素的时候&#xff0c;我们知道队列先进后出&#xff0c;我们先把一个元素压到stack1,然后再压一个元素到stack1,然后我们把stack1的top函数得到…

【ArcGIS风暴】ArcGIS 10.2导入Excel数据X、Y坐标(经纬度、平面坐标),生成Shapefile点数据图层

用过CASS的人都知道,野外数字测图得到的点数据(平面坐标)可以直接导入到CASS中,进一步绘制地形图。那么,带有坐标的数据能不能在ArcGIS中实现点图层的生成呢?答案是必须的! 本文以气象台站shp数据的生成为例,详细介绍ArcGIS 10.2中导入X、Y坐标(这里指的是经度、纬度)…

【二】Windows API 零门槛编程指南——CreateWindow 窗口创建 “万字长篇专业术语全解”

本系列博文几乎没有难啃的“专业术语”&#xff0c;尽量让读者能够看明白文章所述内容&#xff0c;是本系列博文的核心宗旨之一。&#xff08;由于本人也是由于项目需要&#xff0c;所以才来查阅相关资料&#xff0c;文中出现的错误欢迎指出&#xff0c;共同进步&#xff01;谢…

一行命令 优化上传速度

本文来自 fir.im 首席吉祥物 TraWor. 最近许多用户反映上传速度慢的一塌糊涂&#xff0c;七牛的上传带宽我想肯定是没问题的&#xff0c;那原因不必多想就剩下 DNS 了。 即便本地网络再快&#xff0c;DNS 服务器给了一个很远的服务器地址也没办法很快的上传。 在终端运行这一行…

go 服务器 源码,LollipopGo开源游戏服务器框架--global服务器源码

大家好&#xff0c;我是彬哥&#xff0c;本节给大家讲下LollipopGov1.0.20190102版本游戏服务器globla服务器&#xff0c;抛砖引玉了&#xff0c;主要是针对Go语言游戏服务器Global服务器处理。package mainimport ("LollipopGo/LollipopGo/conf""LollipopGo/Lo…

ArcGIS导入Sketchup模型

ArcGIS可以与Sketchup、3D Studio Max等三维软件完美进行交互。 ArcGIS可以借助 Import 3D Files 工具支持主流的三维模型导入。支持 3D Studio Max (*.3ds)、VRML and GeoVRML 2.0 (*.wrl)、SketchUp 6.0 (*.skp)、OpenFlight 15.8 (*.flt)、Collaborative Design Activity (C…

剑指offer之两个队列实现栈的问题

1 问题 两个队列实现栈的插入和获取头部元素的功能 2 分析 1&#xff09;获取头部元素的功能分析&#xff1a; 我们有2个队列&#xff0c;我们知道队列的特点的先进先出&#xff0c;而栈的特点是先进后出&#xff0c;比如我们有数据1,2,3,4,我们分别依次压入队列1&#xff0…

ios wkweb设置图片_iOS WKWebView (NSURLProtocol)拦截js、css,图片资源

项目地址github&#xff1a;HybirdWKWebVIewHybridNSURLProtocol一个基于WKWebView的hybirde的容器。能拦截所有WKWKWebView的的css,js,png等网络请求的demoNSURLProtocol 子类&#xff0c;就可以对 app 内所有的网络请求进行:[NSURLProtocol registerClass:[HybridNSURLProtoc…

solr的空间查询(查询地图周围坐标)

原文网址&#xff1a;http://www.cnblogs.com/hanhuibing/articles/5680616.html 基于Solr的空间搜索 如果需要对带经纬度的数据进行检索&#xff0c;比如查找当前所在位置附近1000米的酒店&#xff0c;一种简单的方法就是&#xff1a;获取数据库中的所有酒店数据&#xff0c;…

「零门槛多语言 Python/C/C# 通用思想学习系列」第一篇:经典HelloWorld

环境说明 操作系统&#xff1a;Windows7 SP1 编辑器说明&#xff1a; Python&#xff1a;notepadC&#xff1a;devcC sharp&#xff08;C#&#xff09;&#xff1a;Visual Studio2019 注意&#xff1a; 标点&#xff1a;在编程中要使用英文的标点符号&#xff0c;必须切记数…

c# 元组类型

简介元组就是将一组松散的对象简单地组合在一起。元组比数组灵活性略强&#xff0c;数组中元素类型是统一的&#xff0c;而元组使用的是泛型参数&#xff0c;每个元素类型相互独立。元组不同于类和结构&#xff0c;类和结构是高度聚合的数据类型&#xff0c;其中要实现各种复杂…

服务器2008 系统日志 提示打印机,介绍服务器日志出现打印机错误的解决方法

今天来聊聊一篇关于服务器日志出现打印机错误的解决方法的文章,现在就为大家来简单介绍下服务器日志出现打印机错误的解决方法,希望对各位小伙伴们有所帮助。windows2003日志提示&#xff0c;打印机 ****未知。登录之前&#xff0c;请与管理员联系&#xff0c;安装驱动程序。事…

js 错误/异常处理

为什么80%的码农都做不了架构师&#xff1f;>>> /*** 自定义错误处理*/ onerror handleError; function handleError(desc,page,line){alert("desc:"desc"\n""page:"page"\n""line:"line); } var s null; s.t…

多面体 (Multipatch)

多面体要素是一种可存储面集合的 GIS 对象,能够在数据库中将 3D 对象的边界表示为单个行。面可存储表示要素组成部分的纹理、颜色、透明度和几何信息。面中存储的几何信息可以是三角形、三角扇、三角条带或环,如下所示。 所有多面体都将…

剑指offer之二叉搜索树的第K个节点

1 问题 给定一颗二叉搜索树&#xff0c;请找出其中的第k小的结点。例如&#xff0c; 5 3 7 2 4 6 8 中&#xff0c;按结点数值大小顺序第三个结点的值为4。 2 分析 二叉树定义&#xff1a;二叉查找树&#xff08;Binary Search Tree&#xff09;&#xff0c;&#xff0…

Python turtle库实现基本剖析

有关turtle的相关使用请参考《python图形绘制库turtle中文开发文档及示例大全》 本篇文为turtle库的实现剖析&#xff0c;但不涉及 python 的 TK库。 开始 入口探寻 在turtle中&#xff0c;直走是使用 forward 或者 fd 函数&#xff1b;在本机安装好了 turtle 库后&#xf…

git菜单形式的_Idea:Git的常用菜单操作和常用命令

工作中多人使用版本控制软件协作开发&#xff0c;常见的应用场景归纳如下&#xff1a;假设小组中有两个人&#xff0c;组长小张&#xff0c;组员小袁场景一&#xff1a;小张创建项目并提交到远程Git仓库场景二&#xff1a;小袁从远程Git仓库上获取项目源码场景三&#xff1a;小…

分享我做Dotnet9博客网站时积累的一些资料

从2019年使用WordPress搭建Dotnet9网站&#xff0c;到现在手撸代码开发&#xff0c;介绍中间使用的一些资源&#xff0c;绝无保留&#xff0c;希望对大家有用。1. 申请域名、搭建WordPress网站时间点&#xff1a;2019年11月申请Dotnet9域名&#xff0c;讲个实话&#xff0c;站长…

css媒体查询改变上边距,CSS媒体查询宽度或高度

我在一个全屏页面的中心放置了一个徽标。img.logo {width: 920px;height: 552px;position: absolute;top: 50%;left: 50%;margin-left: -460px;margin-top: -276px;}这很好用。现在我想在不同的设备高度和宽度上使用不同的尺寸&#xff0c;所以我尝试使用媒体查询。media (max-…

基于Azure Blob冷存储的数据压缩备份总结

基于上一篇的压缩算法对比分析报告&#xff0c;选择了LZ4算法的普通模式&#xff0c;其测试压缩率为28%&#xff0c;20G压缩时间为256s&#xff0c;估计1T的冷备时间为3.5h。 接下来&#xff0c;将23T的HBase历史数据进行了压缩冷备&#xff0c;压缩后大小为3.5T&#xff0c;冷…