Hbase随笔

大数据时代的数据量是超大规模的,传统的关系数据库已经很难存储和管理这些数据了,为了存储海量数据,我们有了HDFS,它可以把成千上万台服务器上的硬盘聚集成一块超级大的硬盘,为了让这些数据产生价值,我们有了mapreduce,它可以计算这个超大硬盘的数据,面对这么大的数据量我们还有一个迫切的需求那就是如何快速检索出我们想要的数据,而这个功能就是由hbase来承担。

  那么如此海量数据快速检索技术原理又是怎样的呢?我觉得原理很简单就是索引技术。Hbase通过rowkey来区别不同类型数据,通过列族把经常需要一起被查询出来的数据放在一起,例如我们如果要做一个电商平台的交易记录业务表设计,对于电商平台下的商户他其实只需要查询出自己的交易信息,而不会去关心其他商户的交易信息,那么我们就可以把商户号作为rowkey,每一个商户的交易的信息我们就放在一个列族里,商户号这样的信息就像数据在硬盘上的门牌号,我们一传入这个值做查询,hbase就能快速找到数据存储的位置,这就是hbase能快速检索到数据的原理。

  上面讲到的原理只是业务抽象的角度来说,在hbase底层它就是根据上面说到的这些原理来设计的,hbase里面有region的概念,region是一个数据集合,那么什么样的数据会放置到某一个region里呢?hbase是根据rowkey来把同一类的数据放置在一个region里,rowkey下面就是列族,列族对应的底层存储就是hfile,hfile放置在rowkey对应的region下,所以当我们查询时候我们很容易通过业务规则找到我们设计好的rowkey,找到了rowkey就找到region,那么region下存储的hfile列族信息也就可以全部查询出来了。

  Rowkey其实就是hbase的索引,也可以说是hbase官方给出的唯一索引,因此很多资料里说hbase只有一级索引,这个一级索引就指的就是rowkey,因此如何设计rowkey就是一门大学问了,时常我们一行数据不能满足我们复杂的查询要求,我们需要跨行就像scan那么扫描多行数据,而region里的行都是按照一定顺序排列的,这个顺序就是字典顺序,这个我在以前一篇文章里提到过,所以碰到这种情况,我们一般会通过md5将key散列,这样相邻的数据行会排列在一起,底层存储数据时候也会存储在同一个地方(相同region)或者是相互靠近的地方(相邻region),这样也就可以提升查询的效率。

  Hbase内部有两张表一个是-ROOT-表和.META.表,客户端程序就是像我上面给出的示例程序首先访问zookeeper,通过zookeeper获取含有-ROOT-的region服务器名,通过-ROOT-的region服务器可以查询到.META.表里行键rowkey对应的region位置,而-ROOT-和.META.客户端访问后就会缓存起来。

  其实hbase的表设计本身非常简单,对外接口也没有关系数据库那么丰富,我最近学习hbase,觉得hbase基本都没有关系数据库里那些计算函数,可见hbase只是提供一种能快速检索海量数据的一种计算模型而已。

转载于:https://www.cnblogs.com/zourui4271/p/6034716.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/489677.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《2019中国硬科技发展白皮书》发布,中美硬科技创新指数PK

来源:创新研究10月30日,在2019全球硬科技创新大会上,《2019中国硬科技发展白皮书》正式发布。白皮书从综述篇、科技篇、产业篇和城市篇四个部分,系统论述了发展硬科技的时代背景、硬科技的各领域突破和进展情况、国内各城市硬科技…

JAVA编写提示用户输入投资额_java(计算银行存款总额(要求输入错误时,提示重新输入))...

【任务一】:编写一个简单 Java 程序,计算银行年存款的本息。 要求:程序运行后要求用户输入存款本金、年利率和存款年限,最后程序计算并输出相应年限后存款的金额。相应 的计算公式为:存款总额本金 * (1 利率)存款年限…

这一次,脑机接口可以实时读取人类脑中画面了?

来源:机器之心由俄罗斯脑机接口公司 Neurobotics、莫斯科物理技术学院(MIPT)研发的一种全新脑机接口算法最近被公之于众,它可以利用人工神经网络和脑电图将人类大脑中的图像实时显示在计算机屏幕上。而且,与马斯克脑机…

python访问网页变量_Python 如何访问外围作用域中的变量

在表达式中引用变量时,Python 会按照如下的顺序遍历各个作用域,寻找该变量:当前函数作用域任何外围作用域(比如包含当前函数的其他函数)global 作用域,即代码所在的模块的作用域如果上述作用域内都找不到变量,就会报 N…

什么时候使用CountDownLatch

正如每个Java文档所描述的那样,CountDownLatch是一个同步工具类,它允许一个或多个线程一直等待,直到其他线程的操作执行完后再执行。在Java并发中,countdownlatch的概念是一个常见的面试题,所以一定要确保你很好的理解…

java父包引用_父类引用指向子类对象(java)

从对象的内存角度来理解试试.假设现在有一个父类Father,它里面的变量需要占用1M内存.有一个它的子类Son,它里面的变量需要占用0.5M内存.现在通过代码来看看内存的分配情况:Father f new Father();//系统将分配1M内存.Son s new Son();//系统将分配1.5M内存!因为子类中有一个隐…

科技角逐:中美的人工智能布局

来源:人机与认知实验室2017年以来,与人工智能相关的国家级战略密集出台,社会关于人工智能的大讨论激烈展开,各国政府关于人工智能发展的思路也逐渐清晰。中美作为两大科技强国,都在人工智能领域投入巨大,有…

python中scale_Python中的Log-scale mathplotlib?

我试图拟合对数正态曲线,但我不知道如何将y(和x轴)更改为对数刻度?我尝试使用logspace而不是linspace,但是遇到了一个错误OverflowError: cannot convert float infinity to integer我试过了:^{pr2}$但这似乎也不管用。我附上了我…

akka kafka java_当使用websocket连接时,使用akka-stream-kafka从kafka主题获取最后一条消息...

使用David van Geest非常巧妙地描述的方法,我能够避免在客户端连接时获取任何上游数据here归结为在Consumer上有一个BroadcastHub:val liveSource Consumer.plainSource(consumerSettings, Subscriptions.topics(topic1, topic2)).map(kafkaObject >…

android px,dp,sp大小转换工具

package com.voole.playerlib.util;import android.content.Context;/*** Android大小单位转换工具类<br/>* * float scale context.getResources().getDisplayMetrics().density;*/ public class DisplayUtil {/*** 将px值转换为dip或dp值&#xff0c;保证尺寸大小不变…

工业物联网的应用领域与方向

&#xff08;图片来自pixabay&#xff09;来源&#xff1a;OFweek工控从一定程度上&#xff0c;物联网可以说是个“旧瓶装新酒”的概念&#xff0c;提出物联网——IoT&#xff08;Internet of things&#xff09;这个概念的确是一种创新&#xff0c;但是要把这个创新与传统的M2…

mysql count里面能加条件吗_select count(1) 和 count(*),哪个性能更好?

相信很多小伙伴都想了解 count(1) 和 count(*) 的性能问题 &#xff0c;今天给大家做一下测试。声明&#xff1a;本文使用MySql数据库&#xff0c;数据库表里面有100万条数据。先测试 count(*)可以看出&#xff0c;count(*) 用时间差不多15s.再测试 count(1)看到这个数据&#…

PDA 收银系统PDA手持打印扫描枪 销售开单 收银 扫描打印一体机

在零售方面也有很好的应用。如在一些高端品牌零售店,营业员可以随身导购&#xff0c;一站式完成了商品销售和收银&#xff0c;很是受消费者追捧&#xff0c;符合了企业对客户体验以及行业领先的追求。 PDA收银系统是一款多功能可以取代专业收银机的收银系统&#xff0c;适合各种…

如何获取投票提交地址_简单实用 | 2019全国医院擂台赛投票攻略(县域版)

作者&#xff1a;用户大当家2019改善医疗服务行动全国医院擂台赛案例征集环节结束。截止8月15日24时&#xff0c;城市组提交案例2196个&#xff0c;县域组提交案例1087个&#xff0c;总计3283个案例&#xff0c;数量再度创纪录。首先为积极改善医疗服务的您点赞。接下来&#x…

java 16 binary_【图片】【困扰】java(tm) platform se binary 已停止工作该如何是好【minecraft吧】_百度贴吧...

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼Completely ignored arguments: [--nativeLauncherVersion, 307][18:26:56] [Client thread/INFO]: Setting user: XXX[18:26:58] [Client thread/WARN]: Skipping bad option: lastServer:[18:26:58] [Client thread/INFO]: LWJGL…

菲尔兹奖数学家丘成桐:人工智能中的数学理论尚无很大突破

来源&#xff1a;机器人10月17日&#xff0c;在2019中关村论坛上&#xff0c;菲尔兹奖首位华人获得者、美国国家科学院院士、哈佛大学教授丘成桐发表主旨演讲。他呼吁国家应重视基础科学和数学的发展。一个国家的强大和长治久安&#xff0c;离不开强大的基础科学&#xff0c;没…

python定义类时括号_为什么在定义类时括号是可选的,而在定义函数时括号是必需的?...

我认为你的问题的答案只是语法。这正是Python的设置方式&#xff0c;但我对它的设置方式的看法是&#xff1a;我认为函数来自数学&#xff0c;比如&#xff1a;f(x) x所以当计算机编程语言被创造出来的时候&#xff0c;从模拟数学到编程语言似乎有某种逻辑上的连续性。另一方面…

java bean set_JavaBean自动生成get和set方法

android计算每个目录剩余空间丶总空间以及SD卡剩余空间ublic class MemorySpaceCheck { /** * 计算剩余空间 * param path * return */ public static String getAvail ...ionic&plus;angularjs开发hybrid App&lpar;环境配置&plus;创建测试项目&rpar;本文使用的…

从地心到宇宙,再到治疗癌症与“赋灵”智能,这届腾讯WE都聊了些啥?

来源&#xff1a;腾讯科学WE大会Hod Lipson这人是谁————哥伦比亚大学创意机器实验室主任&#xff0c;致力于开发机器人的创造力&#xff0c;让机器人拥有自己的思想和情感。说了些啥————大概100年来我们一直试图建造有自我意识的机器人&#xff0c;我们希望这些机器人…

复制文件,并重命名

总体思路&#xff1a;1. 先复制文件到指定目录下&#xff1b; 2. 根据需要&#xff0c;修改文件名称。 &#xff08;1&#xff09;复制文件 实现代码&#xff1a; 例如&#xff1a;把“D:\照片”目录下的文件复制到“D:\姓名”目录下。 /** * 描述&#xff1a;复制文件 到 目标…