基于hadoop下的hbase安装

简介

        HBase是一个分布式的、面向列的开源数据库,该技术来源于Fay Chang所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

        HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

HBase的特点有:

        稀疏:HBase的列理论上是允许无限扩展的,对于成百万的列来说,会有大量的空值,如果使用null填充的策略,势必会造成大量空间的浪费,因此,稀疏性是HBase无限扩展的一个重要条件。
        排序:构成HBase的kv在同一文件中都是有序的,首先是rowkey(行键)升序排序,rowkey相同则column key(列族和修饰符)升序排序,rowkey、column key相同则timestamp(时间戳)降序排序。
        分布式:构成HBase的map都不在某台机器上,而是分布在整个集群中。

HBase的缺点有:

    HBase不支持条件查询,只支持按照Row key来查询。这意味着用户需要预先知道查询条件,否则无法进行查询。
    HBase暂时不能支持Master server的故障切换,当Master宕机后,整个存储系统就会挂掉。这可能会对系统稳定性造成一定影响。
    HBase的数据类型只有简单的字符类型,所有的类型都是交由用户自己处理,它只保存字符串。相比之下,关系数据库有丰富的类型和存储方式。
    HBase只有很简单的插入、查询、删除、清空等操作,表和表之间是分离的,没有复杂的表和表之间的关系,而传统数据库通常有各式各样的函数和连接操作。

HBase数据模型的核心概念。


(1)表
HBase是一种列式存储的分布式数据库,其核心概念是表(Table)。与传统关系型数据库一样,HBase的表也是由行和列组成,但HBase同一列可以存储不同时刻的值,同时多个列可以组成一个列簇(Column Family),这种组织形式主要基于存取性能。
(2)行键
        RowKey既是HBase表的行键,也是HBase表的主键。HBase表中的记录是按照RowKey的字典顺序进行存储的。在HBase中,为了高效地检索数据,需要设计良好的RowKey来提高查询性能。首先RowKey被冗余存储,所以长度不宜过长,RowKey过长将会占用大量的存储空间,同时会降低检索效率;其次RowKey应该尽量均匀分布,避免产生热点问题(大量用户访问集中在一个或极少数节点,造成单台节点超出自身承受能力);另外需要保证RowKey的唯一性。
(3)列簇
        HBase表中的每个列都归属于某个列簇,一个列簇中的所有列成员有着相同的前缀。比如,列anchor:cnnsi.com和anchor:my.look.ca都是列簇anchor的成员。列簇是表的Schema的一部分,必须在使用表之前定义列簇,但列却不是必需的,写数据时可以动态加入。一般将经常一起查询的列放在一个列簇中,合理划分列簇将减少查询时加载到缓存的数据,提高查询效率,但也不能有太多的列簇,因为跨列簇访问是非常低效的。
(4)单元格
        HBase中通过Row和Column确定的一个存储单元称为单元格(Cell)。每个单元格都保存着同一份数据的多个版本,不同时间版本的数据按照时间顺序倒序排序,最新时间的数据排在最前面,时间戳是64位的整数,可以由客户端在写入数据时赋值,也可以由RegionServer自动赋值。为了避免数据存在过多版本造成的管理(包括存储和索引)负担,HBase提供了两种数据版本回收方式。一是保存数据的最后n个版本;二是保存最近一段时间内的数据版本,比如最近7天。用户可以针对每个列簇进行设置。

安装准备

       zookeeper安装

        Hadoop安装

        Hbase安装

通过官网下载,hbase-2.5.6-bin.tar.gz 包

##可能使用网页下载会更快,然后再上传到虚拟机中
wget https://dlcdn.apache.org/hbase/2.5.6/hbase-2.5.6-bin.tar.gz
##解压缩
tar -zxvf hbase-2.5.6-bin.tar.gz
##挂载软连接
ln -s hbase-2.5.6/   hbase

配置文件设置

        HBase的conf目录下的文件进行配置。通过设置hbase-site.xml配置文件进行个性化配置,从而覆盖默认的hbase-default.xml配置内容;通过设置hbase-en.sh文件,添加HBase启动时使用到的环境变量;通过设置RegionServers文件,使得HBase能启动所有Region服务器进程;通过设置backup-masters文件,可以实现HBase HMaster的高可用。

        hbase-site.xml文件配置

        hbase-site.xml 是 HBase 运行和对外服务的基本环境配置文件。

vim  hbase/conf/hbase-site.xml

        所有节点均采用以下配置内容 

<configuration><!--HBase will refuse to run in such an environment. Setting`hbase.unsafe.stream.capability.enforce` to `false` overrides this behavior,permitting operation. This configuration is for the developer workstationonly and __should not be used in production!__See also https://hbase.apache.org/book.html#standalone_dist--><property><name>hbase.cluster.distributed</name><value>true</value></property><property><name>hbase.tmp.dir</name><value>./tmp</value></property><property><name>hbase.zookeeper.quorum</name><value>vm02,vm03,vm04</value></property> <property><name>hbase.zookeeper.property.dataDir</name><value>/home/hadoop/data/zookeeper</value></property><property><name>hbase.zookeeper.property.clientPort</name><value>2181</value></property>
<property><name>hbase.rootdir</name><value>hdfs://mycluster/hbase</value></property><property><name>hbase.unsafe.stream.capability.enforce</name><value>true</value></property>
</configuration>

参数解释:

  • <property><name>hbase.cluster.distributed</name><value>true</value></property>:设置 HBase 集群模式为分布式模式,即启用分布式功能。
  • <property><name>hbase.tmp.dir</name><value>./tmp</value></property>:设置 HBase 临时数据目录路径,用于存储一些临时数据,如 regionserver 等工作数据。
  • <property><name>hbase.zookeeper.quorum</name><value>vm02,vm03,vm04</value></property>:设置 ZooKeeper 集群的地址,多个地址间使用逗号分隔,默认端口为 2181。
  • <property><name>hbase.zookeeper.property.dataDir</name><value>/home/hadoop/data/zookeeper</value></property>:设置 ZooKeeper 的数据目录路径,用于保存 ZooKeeper 数据信息。
  • <property><name>hbase.zookeeper.property.clientPort</name><value>2181</value></property>:设置客户端连接 ZooKeeper 的端口号。
  • <property><name>hbase.rootdir</name><value>hdfs://mycluster/hbase</value></property>:设置 HBase 的根目录,即数据存储的根目录,本例中设置为 HDFS 上的路径。
  • <property><name>hbase.unsafe.stream.capability.enforce</name><value>true</value></property>:设置是否启用 HBase 流式 API 安全检查,如果设置为 true,HBase 将会禁止使用本地优化器和排序机制,对于非常大的数据量场景可能会影响性能。

      进入HBase根目录下的conf文件夹,修改regionServers配置文件,regionServers配置文件是指定hbase集群的hostname。路径下默认是有一个空内容的该文件。

        所有节点均采用以下配置内容 

vim RegionServers
[hadoop@vm02 conf]$ vim regionServersvm02
vm03
vm04  

backup-masters文件配置

        该文件指定备节点为vm03,所有节点均采用以下配置内容 

[hadoop@vm02 conf]$ vim backup-mastersvm03

hbase-env.sh文件配置

        HBase 的环境变量配置文件是运行的基础运行变量文件。进入HBase根目录下的conf文件夹,修改hbase-env.sh配置文件。
        自带的该文件中有很多变量已做注释,可以通过AI得到对这些变量的理解,本文只设置两个值,其余值采用默认值。
        所有节点均采用以下配置内容 

export JAVA_HOME=/jdk/jdk1.8.0_144/
export HBASE_MANAGES_ZK=false

环境变量配置

        使用root用户编辑/etc/profile文件的环境变量。环境变量的命名中${JAVA_HOME}和$JAVA_HOME等同的,由于博主JDK以前设置的问题,以及安装了和Hadoop无关的postgresql数据库,设置了postgresql的相关变量。这里不做统一标准化处理了。读者了解即可。所有节点均采用以下配置内容

export JAVA_HOME=/jdk/jdk1.8.0_144/
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:/home/postgres/pg/bin:$ZOOKEEPER_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HBASE_HOME/bin:$PATH
export ZOOKEEPER_HOME=/home/hadoop/zookeeper
export PGDATA=/home/postgres/pg/data#HADOOP_HOME
export HADOOP_HOME=/home/hadoop/hadoop
export HBASE_HOME=/home/hadoop/hbase
export JAVA_HOME CLASSPATH PATH HADOOP_HOME ZOOKEEPER_HOME HBASE_HOME
#加载环境变量
source /etc/profile
##切换到hadoop用户下
su  - hadoop 
##编辑本用户环境变量添加source /etc/profile
[hadoop@vm02 ~]$ vim .bash_profile # .bash_profile# Get the aliases and functions
if [ -f ~/.bashrc ]; then. ~/.bashrc
fi# User specific environment and startup programsPATH=$PATH:$HOME/.local/bin:$HOME/bin
source /etc/profile
export PATH
~                                       

 Hbase启动

        所有节点启动zookeeper

 zkServer.sh startzkServer.sh status

 

        主节点vm02启动hdfs,hbase

##打命令的时候使用tab键会有联想功能,如果没有联想成功,说明环境变量配置有问题
start-all.sh
start-hbase.sh

        使用jps在所有节点 

hbase客户端访问 

        客户端访问命令

hbase shell

        

        附加

hbase的性能变量

        hbase是基于jvm上运行的数据库,所以在性能有空间的情况下可以对其运行性能放大(jvm上运行的相关程序多数都有这方面的设置,这里以Hbase举例说明)。

export $HBASE_OPT ="$HBASE_OPT -Xmx9g -Xms8g -Xmn128M -XX:+UseParNewGC -XX:+UseConMarkSweepGC -XX:CMSInitiatingOccupancyFraction=70 --verbose:gc-XLoggc:${HBASE_HOME}/log/gc-hbase.log

各个参数的含义如下:

        -Xmx9g: 这个参数设置JVM的堆内存最大值为9GB。
        -Xms8g: 这个参数设置JVM的堆内存初始值为8GB。
        -Xmn128M: 这个参数设置年轻代(Young Generation)的大小为128MB。年轻代是Java堆内存中的一部分,主要存放新创建的对象。
        -XX:+UseParNewGC: 这个参数启用并行收集器(Parallel GC),并行收集器主要用于服务端,具有高吞吐量,适合后台应用。
        -XX:+UseConcMarkSweepGC: 这个参数启用CMS收集器(CMS GC),CMS收集器主要用于服务端,低停顿,但并发能力比不上并行收集器。
        -XX:CMSInitiatingOccupancyFraction=70: 这个参数设置CMS收集器的初始占有比例为70%。
        --verbose:gc: 这个参数启用GC的详细日志记录。
        -Xloggc:${HBASE_HOME}/log/gc-hbase.log: 这个参数设置GC的日志文件路径,用于记录GC的详细日志信息。
除了以上参数,还有很多其他的参数可以设置,这取决于你的需求和环境。例如,你可以设置其他的JVM参数,如-XX:MaxPermSize、-XX:+UseG1GC等。你也可以设置HBase的特定参数(不推荐),$HBASE_OPT变量重点还是指定JVM相关运行参数。

        注:博主对这个变量不感兴趣,不做举例说明。生产环境中需要根据服务器实际使用情况配置该变量,将其设置在每一个节点的环境变量文件中便可。

端口信息查看

        hadoop中相关组件和中间件比较多,在整个安装过程中都已经忘了哪些是对外服务的端口信息,这里记住两个查看端口号的指令

#查看对外开放的端口号
netstat -tulnss -tulpn

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/189825.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

YOLOv8创新魔改教程(一)如何进行模块创新

YOLOv8创新魔改教程&#xff08;一&#xff09;如何进行模块创新 YOLOv8创新魔改教程 本人研一&#xff0c;最近好多朋友问我要如何修改模型创新模块&#xff0c;就想着不如直接开个专栏歇一歇文章&#xff0c;也算是对自己学习的总结&#xff0c;本专栏以YOLOv8为例&#xf…

「C++」类和对象2

&#x1f387;个人主页&#xff1a;Ice_Sugar_7 &#x1f387;所属专栏&#xff1a;C启航 &#x1f387;欢迎点赞收藏加关注哦&#xff01; 文章目录 &#x1f349;前言&#x1f349;构造函数&#x1f34c;参数&#x1f34c;默认构造函数&#x1f95d;两种类型&#x1f95d;编译…

优化问题,详解静态优化

优化问题&#xff0c;尤其静态优化问题&#xff0c;在控制系统设计中随处可见&#xff0c;例如基于燃油经济性和驾驶体验的多目标优化的汽车发动机 MAP 标定&#xff0c;基于性能指标优化的飞行器结构设计参数优化&#xff0c;以实验数据与模型输出匹配为目标的电池 RC 等效电路…

Python基础学习快速入门

文章目录 Number变量String字符串Def函数Class类List列表Tuple元组Dictionary字典Set集合值与引用类型if条件控制Loop循环 Number变量 python直接赋值&#xff0c;不需要定义变量类型。不需要**,逗号结尾符 使用print**直接进行输出 #赋值 a 1.0 print(a)a 7 print(a)p…

带删除的并查集

Almost Union-Find 支持三种操作 合并 x x x和 y y y所在的集合把 x x x移到 y y y所在的集合求 x x x所在的集合的元素个数和元素之和 操作1和3是基本的并查集的操作. 关键在于操作 2 2 2: 若使用朴素的并查集&#xff0c;把节点 1 1 1合并到 3 3 3所在的集合&#xff0c;会…

ES-ELSER 如何在内网中离线导入ES官方的稀疏向量模型(国内网络环境下操作方法)

ES官方训练了稀疏向量模型&#xff0c;用来支持语义检索。&#xff08;目前该模型只支持英文&#xff09; 最好是以离线的方式安装。在线的方式&#xff0c;在国内下载也麻烦&#xff0c;下载速度也慢。还不如用离线的方式。对于一般的生产环境&#xff0c;基本上也是网络隔离的…

SQL注入漏洞的检测及防御方法

SQL注入&#xff08;SQL Injection&#xff09;是一种广泛存在于Web应用程序中的严重安全漏洞&#xff0c;它允许攻击者在不得到授权的情况下访问、修改或删除数据库中的数据。这是一种常见的攻击方式&#xff0c;因此数据库开发者、Web开发者和安全专业人员需要了解它&#xf…

盘点68个Android游戏Game源码安卓爱好者不容错过

盘点68个Android游戏Game源码安卓爱好者不容错过 学习知识费力气&#xff0c;收集整理更不易。 知识付费甚欢喜&#xff0c;为咱码农谋福利。 Game下载链接&#xff1a;https://pan.baidu.com/s/1hWnuttrqTfwDKYvuVMuSwQ?pwd8888 提取码&#xff1a;8888 项目名称 2048…

混合使用Windows和Linux子系统的工具和命令

文章目录 在Windows中运行Linux命令使用PowerShell混合使用Linux和Windows命令通过power shell在Windows混合使用Linux工具在Linux中混合使用Windows 工具 推荐阅读 Windows和Linux的工具和命令可以通过WSL互换使用。 可以在Linux子系统中运行Windows命令&#xff0c;也可以在W…

LabVIEW在调用image.cpp或drawmgr.cpp因为DAbort而崩溃

LabVIEW在调用image.cpp或drawmgr.cpp因为DAbort而崩溃 出现下列问题&#xff0c;如何解决&#xff1f; 1. LabVIEW 程序因image.cpp或drawmgr.cpp中的错误而崩溃 2. 正在通过cRIO-9034运行独立的LabVIEW应用程序&#xff0c;但它因drawmgr.cpp中的错误而崩溃 …

SSM项目实战-POJO设计

1、schedule_db.sql CREATE DATABASE schedule_db CHARACTER SET utf8 ;USE schedule_db;CREATE TABLE sys_schedule (sid int NOT NULL AUTO_INCREMENT COMMENT 日程id,uid int DEFAULT NULL COMMENT 用户id,title varchar(50) DEFAULT NULL COMMENT 标题,completed int DEFAU…

Python 中的 FileSystem Connector:打通文件系统的便捷通道

更多Python学习内容&#xff1a;ipengtao.com 大家好&#xff0c;我是涛哥&#xff0c;今天为大家分享 Python 中的 FileSystem Connector&#xff1a;打通文件系统的便捷通道&#xff0c;全文4100字&#xff0c;阅读大约11分钟。 在现代软件开发中&#xff0c;文件系统是不可或…

1+x网络系统建设与运维(中级)-练习题

一.给设备重命名 同理可得&#xff0c;所有交换机和路由器都用一下命令配置 <Huawei>sys [Huawei]sysn LSW1 二.配置VLAN LSW1&#xff1a; [LSW1]vlan batch 10 20 [LSW1]int e0/0/1 [LSW1-Ethernet0/0/1]port link-type access [LSW1-Ethernet0/0/1]port default vlan…

Leetcode 剑指 Offer II 055. 二叉搜索树迭代器

题目难度: 中等 原题链接 今天继续更新 Leetcode 的剑指 Offer&#xff08;专项突击版&#xff09;系列, 大家在公众号 算法精选 里回复 剑指offer2 就能看到该系列当前连载的所有文章了, 记得关注哦~ 题目描述 实现一个二叉搜索树迭代器类 BSTIterator &#xff0c;表示一个按…

Linux破解用户密码【基于redhat9】

Linux破解用户密码【基于redhat9】 操作步骤&#xff1a; 重启虚拟机&#xff0c;选择第二行&#xff0c;按下e键在倒数第二行的末尾加入 rd.break,按下ctrlx键&#xff0c;进入终端界面重新挂载/sysroot为读写切换到bash修改用户密码创建 /.autorelabel 文件使SELinux安全策略…

[HTML]Web前端开发技术6(HTML5、CSS3、JavaScript )DIV与SPAN,盒模型,Overflow——喵喵画网页

希望你开心&#xff0c;希望你健康&#xff0c;希望你幸福&#xff0c;希望你点赞&#xff01; 最后的最后&#xff0c;关注喵&#xff0c;关注喵&#xff0c;关注喵&#xff0c;佬佬会看到更多有趣的博客哦&#xff01;&#xff01;&#xff01; 喵喵喵&#xff0c;你对我真的…

深入理解Docker容器核心技术

文章目录 1. Linux命名空间&#xff08;Namespaces&#xff09;1.1 示例&#xff1a;PID命名空间 2. 控制组&#xff08;cgroups&#xff09;2.1 示例&#xff1a;内存控制组 3. 联合文件系统&#xff08;UnionFS&#xff09;3.1 示例&#xff1a;查看镜像的分层结构 4. Docker…

【数电笔记】逻辑代数的基本定律、常用公式

目录 说明&#xff1a; 逻辑代数的基本定律 1. 常量间的运算 2. 逻辑变量与常量的运算 3. 与普通代数相似的定律 4. 摩根定律&#xff08;反演律&#xff09; 5. 等式证明方法例题 逻辑代数的常用公式 1. 吸收律 2. 冗余律 3. 示例应用 4. 关于异或运算的一些公式 …

Leetcode—2661.找出叠涂元素【中等】

2023每日刷题&#xff08;四十六&#xff09; Leetcode—2661.找出叠涂元素 题意解读 题目意思就是&#xff0c;按照arr数组从左到右的顺序遍历各个arr[i]&#xff0c;涂抹这个值在矩阵中对应位置的网格&#xff0c;一旦你发现它所在的行或者列满员了&#xff0c;就返回这个i…

AT89S52单片机------中断系统

目录 单片机的内部结构 中断请求标志寄存器 (1)TCON寄存器 (2)SCON寄存器 (3)定时器2的控制寄存器T2CON 中断允许与中断优先级的控制寄存器 中断允许寄存器IE 中断优先级寄存器IP 响应中断请求的条件 外部中断响应时间 外部中断的触发方式选择 中断请求的撤销 1.定…