大数据之HBase

HBase介绍

  • Apache的三篇论文,GFS谷歌文件系统->HDFS;MR -> MR ; BigTable ->HBase;
  • HBase是hadoop数据库,一种分布式、可扩展的大数据NoSQL数据库之一。
  • 适合对于大量数据进行随机、实时的读写操作

HBase数据模型

  1. Bigtable是一个稀疏的(如果某个列没有值,那么这个列直接不维护,传统的关系型数据库会维护一个null值)、分布式的、持久的多维(维度信息主要保存在key中,value一般是单纯的值)排序map
  2. 改映射由行键、列键和时间戳索引组成;映射的每个值都是一个字节数组。
  3. 用户将数据行存储在带标签的表中,数据行具有可排序的键和任意数量的列。
  4. 数据模型的关键在于稀疏、分布式、多维、排序的映射

HBase逻辑结构

在这里插入图片描述

  • row_key按照字典序排序,数据存储整体有序,存储的数据都是字节数据
  • 所有列必须在列族的内部,没有单独的列
  • 没有数据的部分,对于该行数据来说,直接没有该列,也不存储null值。

在这里插入图片描述

  • 划分列族的好处是为了方便存储,将同一列族的数据存储到一起
  • 每个region每个列族划分的区域称为一个store

HBase物理存储结构

在这里插入图片描述

  • 同一row_key,同一列族,同一列的数据根据时间戳排序
  • 根据时间戳来区分数据的版本,一般保留最新版本

数据模型术语

  • NameSpace命名空间
    • hbase
    • default
  • Table: 定义表时只需要声明列族即可,具体的列可以动态、按需指定
  • Row: 由一个RowKey和多个Column组成,数据是按照rowkey的字典序存储的,查询数据只能根据rowkey检索,所以rowkey的设计十分重要。
  • Column: 列族:列
  • Time Stamp: 用于标识数据的不同版本
  • Cell = rowkey + column family + column qualifier + timestamp 唯一确定的单元

HBase基础架构

在这里插入图片描述

  • Master
    • master通过监控region server是否正常运行
    • master负责所有元数据的变化
    • 监控执行region的故障转移和拆分线程
  • RegionServer
    • 负责数据Cell的处理
    • 在执行区域的拆分和合并时,由RegionServer来实际执行
  • HDFS: 保证数据存储的可靠

HBase的安装

  1. 配置环境变量
  2. vim hbase-env.sh, 126行,改为用外置的zookeeper。
  3. vim hbase-site.xml文件,改为分布式集群,告诉集群zookeeper的地址,数据存储位置,wal(写前日志)
  4. 端口号默认为16010

时间同步问题

  1. 如果RegionServer和Master的时间超过30s,就会触发ClockOutOfSyncException

HBase Shell基本操作

  1. hbase shell, 启动一个hbase shell
  2. help 命令名/ 组名 查看所有命令
  3. ddl命令
    • 查看所有的表:list
    • 建表:create ‘mydb:t1’, {name=>‘cf1’, version=>3}
      • 简写:create t2, ‘col1’, ‘col2’
    • 查看表的详情: describe ‘mydb:t1’ , 可以简写为desc
    • 修改表:
      • alter ‘t2’ , {name=>‘cf1’,version=>3}, ‘cf4’
      • alter ‘t2’ ‘delete’ => ‘cf2’
    • 删除表: drop ‘t2’,删除前需要先禁用表disable ‘t2’, 之后再删除
    • 是否存在exists ‘t1’
    • 查看表的region信息:list_regions ‘t1’
  4. namespace命令
    • 查看所有的namespace: list_namespace
    • 查看指定namespace下面的表:list_namespace_tables ‘hbase’; 里面有meta和namespace两张表
    • 创建一个数据库:create_namespace ‘mydb’
    • 查看数据库详情:descrbe_namespace ‘mydb’
    • 修改namespace: alter_namespace ‘mydb1’ , {method = ‘set’, ‘author’=>‘wyh’}
    • 删除namespace属性: alter_namespace ‘mydb1’ ,{method=‘unset’, name=>‘author’}
  5. dml命令(数据的增删改查 )
    • 插入数据:put ‘t1’ ‘1001’, ‘cf1:name’, ‘zhangsan’
    • 查询数据:get ‘t1’ ‘1001’
    • 扫描数据:san ‘t1’ 扫描表中所有的数据
    • 修改数据: put ‘t1’ ‘1001’ ‘cf1:name’, ‘zhangxiaosan’
    • 删除数据:delete ‘t1’ , ‘1001’, ‘cf1:name’; truncate命令是直接删除文件,不是打标记

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/182064.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

It was migrated from homebrew/core to homebrew/cask.

给mac配置安卓环境时报错: brew install android-platform-tools Warning: No available formula with the name "android-platform-tools". > Searching for similarly named formulae... Error: No similarly named formulae found. It was migrate…

时区处理综述(java技术栈)

文章目录 一、jdbc协议对时间的序列化(不含时区信息)数据库的两个时间类型中国数据库使用的CST时区无法被java正确识别jdbc协议跨时区传输方案 二、数字时间戳(可跨时区传输)定义用途 三、ISO8601(可跨时区传输)java的序列化方法js的序列化方法 四、解析时间字符串(不含时区信息…

【C 语言经典100例】C 练习实例6

题目:用*号输出字母C的图案。 程序分析:可先用’*号在纸上写出字母C,再分行输出。 程序源代码: #include "stdio.h" int main() {printf("用 * 号输出字母 C!\n");printf(" ****\n");printf(&quo…

【傻瓜级JS-DLL-WINCC-PLC交互】8.DLL读写WINCC连接的PLC数据

思路 JS-DLL-WINCC-PLC之间进行交互,思路,先用Visual Studio创建一个C#的DLL控件,然后这个控件里面嵌入浏览器组件,实现JS与DLL通信,然后DLL放入到WINCC里面的图形编辑器中,实现DLL与WINCC的通信。然后PLC与…

Vue实现可拖拽边界布局

Vue实现可拖拽边界布局 在前端开发中,有时需要实现一种可拖拽边界的布局,通过拖动分隔线来调整不同区域大小。例如,下图是一个典型的可拖拽边界布局,它由左右两个区域组成,左边是一个树形菜单,右边是一个上…

expect自动化交互

目录 1. expect作用: 2. expect语言用法: 3. 实例 1. expect作用: 是建立在tcl语言基础上的一个工具,常被用于进行自动化控制和测试,解决shell脚本中交互的相关问题。 2. expect语言用法: spawn开启免…

Spark_spark参数配置优先级

总结 &#xff1a; 优先级低-》优先级高 spark-submit 提交的优先级 < scala/java代码中的配置参数 < spark SQL hint spark submit 中提交参数 #!/usr/bin/env bashsource /home/work/batch_job/product/common/common.sh spark_version"/home/work/opt/spark&q…

Linux线程池

线程池 C版本 C版本 threadpool.h #include <pthread.h>#ifndef _THREADPOOL_H #define _THREADPOOL_Htypedef struct ThreadPool ThreadPool; // 创建线程池并初始化 ThreadPool *threadPoolCreate(int min, int max, int queueSize);// 销毁线程池 int threadPoolDest…

利用VHDL实现一定系数范围内的信号分频电路

实验要求&#xff1a; 采用 3 个开关以二进制形式设定分频系数&#xff08;0-7&#xff09;&#xff0c;实现对已知信号的分频。 实现代码&#xff08;VHDL&#xff09;&#xff1a; library ieee ; use ieee.std_logic_1164.all ; use ieee.numeric_std.all ; use ieee.std_…

ANN人工神经网络:从基础认知到现实理解

什么是神经网络&#xff1f; 神经网络的再认知 前面我们了解过&#xff0c;人工神经网络&#xff08;Artificial Neural Network&#xff0c;ANN&#xff09;是人类为了模仿人大脑的神经网络结构创建出来的一种计算机系统结构。但如果仔细深入到神经网络当中&#xff0c;会慢…

排序算法基本原理及实现1

&#x1f4d1;打牌 &#xff1a; da pai ge的个人主页 &#x1f324;️个人专栏 &#xff1a; da pai ge的博客专栏 ☁️宝剑锋从磨砺出&#xff0c;梅花香自苦寒来 &#x1f4d1;插入排序 &#x1f4…

JAVAEE---多线程线程安全

根本原因&#xff1a;随机调度&#xff0c;抢占式执行 多个线程同时修改同一个变量 修改操作不是原子的 内存可见性 指令重排序 上面这段代码可以正常打印出hello&#xff0c;按照我们前面所学&#xff0c;第一次加锁之后&#xff0c;第二次加锁应该有所冲突啊。这里是因为…

c++ day2

自己封装一个矩形类(Rect)&#xff0c;拥有私有属性:宽度(width)、高度(height)&#xff0c; 定义公有成员函数: 初始化函数:void init(int w, int h) 更改宽度的函数:set_w(int w) 更改高度的函数:set_h(int h) 输出该矩形的周长和面积函数:void show() #ifndef RECT_H …

23.解释不同方式的自动装配,spring 自动装配 bean 有哪些方式?

解释不同方式的自动装配&#xff0c;spring 自动装配 bean 有哪些方式&#xff1f; 在spring中&#xff0c;对象无需自己查找或创建与其关联的其他对象&#xff0c;由容器负责把需要相互协作的对象引用赋予各个对象&#xff0c;使用autowire来配置自动装载模式。 在Spring框架…

量子力学应用:探索科技前沿的奇幻之旅

量子力学应用:探索科技前沿的奇幻之旅 引言 量子力学,这门探讨微观世界规律的学科,自其诞生以来就充满了神秘与奇幻。随着科学技术的不断进步,量子力学已经从纯理论研究走向了实际应用领域,为我们打开了一个全新的科技世界。在本文中,我们将深入探讨量子力学的应用方面,…

JS 绘制半径不一致的环形图进度条

HTML部分: <canvas id"mycanvas" width"100" height"100"></canvas>JS部分&#xff1a; const option {element: "mycanvas", // 元素count: 26, // 高亮数据totalCount: 129, // 总数据progressColor: #3266FB, // 进…

一文详解Python中常用数据类型

文章目录 Python 中常用的数据类型包括&#xff1a;Python 中布尔类型(bool)Python 中的数字类型概述Pyhon中的字符串概述Python 中的List概述Python 中的元组类型(tuple)Python中的字典&#xff08;Dictionary&#xff09;Python中的集合&#xff08;Set&#xff09;Python中的…

入门 PyTorch

要入门 PyTorch&#xff0c;可以按照以下步骤&#xff1a; 安装 PyTorch&#xff1a;在 PyTorch 的官方网站 PyTorch 上可以找到对应的安装方式和教程&#xff0c;选择适合自己的版本进行安装。 学习 PyTorch 基础知识&#xff1a;可以从官方文档中的入门教程开始学习&#xf…

SpringBoot自动装配和自动配置

1. 自动装配 Spring Boot 的自动装配机制允许自动配置第三方组件&#xff0c;这是通过以下几个关键步骤实现的&#xff1a; EnableAutoConfiguration 注解: Spring Boot 应用程序通常在其主类上使用 SpringBootApplication 注解&#xff0c;该注解包含 EnableAutoConfiguratio…

你了解vue的diff算法吗?

​&#x1f308;个人主页&#xff1a;前端青山 &#x1f525;系列专栏&#xff1a;Vue篇 &#x1f516;人终将被年少不可得之物困其一生 依旧青山,本期给大家带来vue篇专栏内容:vue中的diff算法 目录 一、是什么 二、比较方式 三、原理分析 小结 一、是什么 diff 算法是一…