java连接hbase_HBase实战 | 05405.15.0Spark2使用HBaseSpark访问HBase

转载自微信公众号Hadoop实操

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。

Fayson的github:

https://github.com/fayson/cdhproject

提示:代码块部分可以左右滑动查看噢

1

文章编写目的

越来越多的用户使用Spark对接HBase,对接HBase的方式有多种,通过HBase-client API实现,也有直接Spark On HBase的方式实现,比较常见的有华为的Spark-SQL-on-HBase,Hortonworks的Apache HBase Connector和Cloudera提供的SparkOnHBase,目前Cloudera的SparkOnHBase已提交的HBase的主干版本。本篇文章Fayson主要在Spark2环境下使用Cloudera的SparkOnHBase访问HBase。

  • 内容概述

1.环境准备

2.SparkOnHBase示例代码

3.示例运行及验证

4.总结

  • 测试环境

1.CM和CDH版本为5.15.0

2.Spark2.2.0.cloudera2

2

环境准备

在CDH5.15.0环境下安装了Spark2后默认是没有与HBase集成的,所以这里我们需要配置Spark2与HBase集成,在Spark环境变量中增加HBase的配置信息。

1.登录CM进入Spark2的配置界面搜索“spark-env.sh”,增加如下配置:

#配置Spark2的Java环境,Spark2要求JDK8或以上版本
export JAVA_HOME=/usr/java/jdk1.8.0_131
#加载该依赖包的主要目的是Spark2的Logging为私有的,Fayson自己重写了Logging类
export SPARK_DIST_CLASSPATH=$SPARK_DIST_CLASSPATH:/opt/cloudera/external-jars/spark2-demo-1.0-SNAPSHOT.jar
#加载HBase的依赖包到Spark2环境变量中
for loop in `ls /opt/cloudera/parcels/CDH/jars/hbase-*.jar`;do
   export SPARK_DIST_CLASSPATH=${loop}:${SPARK_DIST_CLASSPATH}
done
#加载HBase的配置到Spark2的环境变量中
export HADOOP_CONF_DIR=${HADOOP_CONF_DIR}:/etc/hbase/conf/

ce810f682ba8dfd4f1b38233583b61f1.png

2.完成上述配置后,部署Spark2客户端配置

131c522db707bb7689ade1503f322edf.png

完成部署

593c0302faabed8706683c3770420829.png

3.在HBase中创建一个用于测试的表user_info

create 'user_info','info'

83545c265c4d7629bc8331a5aeb2872f.png

3

SparkOnHBase示例代码

1.在Spark2工程中添加SparkOnHBase的Maven依赖


<dependency>
    <groupId>org.apache.kudugroupId>
    <artifactId>kudu-spark2_2.11artifactId>
    <version>1.7.0-cdh5.15.0version>
dependency>

3b200ab26dd8d5a1cd5f35d5d0a2a47e.png

2.在工程中创建ClouderaSparkOnHBase.scala类,内容如下:

package com.cloudera.hbase

import org.apache.hadoop.hbase.client.Put
import org.apache.hadoop.hbase.{HBaseConfiguration, TableName}
import org.apache.hadoop.hbase.spark.HBaseContext
import org.apache.hadoop.hbase.util.Bytes
import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession

/**
  * package: com.cloudera.hbase
  * describe: 使用Cloudera提供的Spark On HBase访问HBase
  * creat_user: Fayson
  * email: htechinfo@163.com
  * creat_date: 2019/1/24
  * creat_time: 上午10:59
  * 公众号:Hadoop实操
  */
object ClouderaSparkOnHBase {

  def main(args: Array[String]): Unit = {
    //Spark Conf配置信息
    val conf = new SparkConf()
      .setAppName("ClouderaSparkOnHBase")
      .set("spark.master", "yarn")
      .set("spark.submit.deployMode", "client")

    //初始化SparkSession对象
    val spark = SparkSession.builder().config(conf).getOrCreate()
    //初始化HBase Configuration
    val hbaseconf = HBaseConfiguration.create()
    //创建HBaseContext对象
    val hbaseContext = new HBaseContext(spark.sparkContext, hbaseconf)
    //准备一个RDD,后面用于向HBase表插入数据
    val rdd = spark.sparkContext.parallelize(Array(
      (Bytes.toBytes("1"), Array((Bytes.toBytes("info"), Bytes.toBytes("a"), Bytes.toBytes("1")))),
      (Bytes.toBytes("2"), Array((Bytes.toBytes("info"), Bytes.toBytes("b"), Bytes.toBytes("2")))),
      (Bytes.toBytes("3"), Array((Bytes.toBytes("info"), Bytes.toBytes("c"), Bytes.toBytes("3")))),
      (Bytes.toBytes("4"), Array((Bytes.toBytes("info"), Bytes.toBytes("d"), Bytes.toBytes("4")))),
      (Bytes.toBytes("5"), Array((Bytes.toBytes("info"), Bytes.toBytes("e"), Bytes.toBytes("5"))))
    ))

    val tableName = TableName.valueOf("user_info")
    //使用HBaseContext.bulkPut向指定的HBase表写数据
    hbaseContext.bulkPut[(Array[Byte], Array[(Array[Byte], Array[Byte], Array[Byte])])](rdd,
      tableName,
      (putRecord) => {
        val put = new Put(putRecord._1)
        putRecord._2.foreach((putValue) =>
          put.addColumn(putValue._1, putValue._2, putValue._3)
        )
        put
      });
  }

}

3.使用Maven命令编译工程

mvn clean scala:compile package

ed95a25674070ba0921150123fa078cd.png

4.将编译好的spark2-demo-1.0-SNAPSHOT.jar上传到集群有Spark2 Gateway的节点上,使用spark2-submit命令提交

kinit fayson
spark2-submit --class com.cloudera.hbase.ClouderaSparkOnHBase \
    --master yarn --num-executors 4 --driver-memory 1g \
    --driver-cores 1 --executor-memory 1g --executor-cores 1 \
    /data/disk1/hbase-spark-demo/spark2-demo-1.0-SNAPSHOT.jar

102fafb195868cb48194c476fbf37266.png

作业执行成功

99829ea203912fb1a61bba945246e6e7.png

5.登录HBase查看user_info表数据

3b3d78abc2e3d92ea61826a6bfeee941.png

4

总结

1.Spark2使用SparkOnHBase开发访问HBase时,代码编译时会报“Could not access type Logging in package org.apache.spark”具体可以参考Fayson前面的文章《HBase-Spark无法在Spark2编译通过问题解决》

2.在进行Spark2与HBase环境集成时,将spark2-demo-1.0-SNAPSHOT.jar包加载至环境变量(确保集群所有节点/opt/cloudera/external目录下均有这个Jar包),是为了HBaseContext能够正常加载org.apche.spark.Logging类,当然可以将该类打包到一个独立的包中,Fayson这里偷懒直接使用示例工程的jar包。

3.使用SparkOnHBase可以方便的访问HBase,在非Kerberos和Kerberos环境下不需要考虑认证问题(Fayson在前面Spark2Streaming系列时使用的hbase-client API访问HBase,Kerberos环境下还需要考Driver和Executor的jaas.conf配置)

4.在代码中创建HBaseConfiguration.create()对象后设置ZK地址在每个Executor上无法正常获取ZK连接,默认加载的还是localhost配置(因为未在Spark2环境变量中指定HBase配置文件地址导致),因此使用SparkOnHBase必须完成Spark2与HBase的集成。

GitHub地址:

https://github.com/fayson/cdhproject/blob/master/spark2demo/src/main/scala/com/cloudera/hbase/ClouderaSparkOnHBase.scala

https://github.com/fayson/cdhproject/blob/master/spark2demo/pom.xml

提示:代码块部分可以左右滑动查看噢

为天地立心,为生民立命,为往圣继绝学,为万世开太平。

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。

推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。

acd7f0b8a6d24eaff529e9656ddec3ac.gif

e1a443bd676d445b62f58a8f8c99aca2.gif

大家工作学习遇到HBase技术问题,把问题发布到HBase技术社区论坛http://hbase.group,欢迎大家论坛上面提问留言讨论。想了解更多HBase技术关注HBase技术社区公众号(微信号:hbasegroup),非常欢迎大家积极投稿。

3c9a074de42cf758bed5c9fe6db09114.png

技术社群

【HBase生态+Spark社区大群】
群福利:群内每周进行群直播技术分享及问答
加入方式1:

https://dwz.cn/Fvqv066s?spm=a2c4e.11153940.blogcont688191.19.1fcd1351nOOPvI

加入方式2:钉钉扫码加入

e8629ddb3a6a82f57cb02c28a3858fb0.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/559436.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

wxpython使用简介_wxpython简介

Python​ Python是一种成功的脚本语言&#xff0c;它最初是由Guido van Rossum开发的。它于1991年首次发布。Python的灵感来自于ABC和Haskell编程语言。Python是一种高级的、通用的、多平台的、解释型的语言。有人更喜欢称它为动态语言。它很容易学习。Python是一种极简主义语言…

电脑4次连续故障音_格力空调电子膨胀阀故障判定与“E6”处理方法

一、电子膨胀阀常见故障原因电器电子膨胀阀是一种利用电子控制器通过电缆向线圈发出脉冲控制信号&#xff0c;控制施加于膨胀阀上的电压或电流&#xff0c;从而控制阀针的动作实现阀口流通面积改变达到流量自动调节目的的节流器件&#xff0c;是空调器的重要部件之一&#xff0…

mysql+性能+计算列_MYSQL性能优化的最佳20+条经验

当你查询表的有些时候&#xff0c;你已经知道结果只会有一条结果&#xff0c;但因为你可能需要去fetch游标&#xff0c;或是你也许会去检查返回的记录数。在这种情况下&#xff0c;加上 LIMIT 1 可以增加性能。这样一样&#xff0c;MySQL数据库引擎会在找到一条数据后停止搜索&…

ClickHouse 入门与实战教程

目录 1. ClickHouse 简介 什么是 ClickHouse&#xff1f; ClickHouse 的优势和特点 适用场景 2. 安装 ClickHouse 3. ClickHouse 的基本概念 4. ClickHouse 的基本操作 创建数据库和表、插入和查询数据 使用 MergeTree 引擎处理时序数据 管理分区 创建带有分区的 Mer…

sid图像数据_实战材料信息学:使用skimage处理扫描电子显微镜(SEM)图像数据

算开个头&#xff0c;不算特别实战扫描电子显微镜&#xff0c;材料开发不可缺少的分析仪器。原理就不详述了。材料的形貌&#xff0c;具体长什么样的都可以看得很清楚。材料表面的形貌很多情况下会和材料的物性产生直接关系&#xff0c;比如说可以从SEM看出粒子的直径分布&…

arcgis制作空间变化图怎么做_听说如果做数据分析不用GIS,会被开?

Q你有没有遇到这样的情况&#xff1f;身边的同事或同学经常说什么高程图、坡向图、坡度图、生态水文图、热力密度图、大数据算法&#xff0c;而自己却一无所知&#xff0c;心里感到特别的慌啊。文末附ArcGIS最新版及超强数据神器 很多人会说&#xff0c;“设计师是感性的&#…

仅完成部分的readprocessmemory或write_王者荣耀:三种李小龙获取方式!无需完成任务、28号即可兑换...

哈喽大家好&#xff01;我是你们的小菜鸡“荣耀急先锋”王者荣耀五周年庆限定皮肤李小龙活动已经开始啦&#xff01;大家有参加了吗&#xff1f;或者说对这个活动不太理解&#xff0c;针对这些小伙伴菜鸡今天就简单的跟大家讲讲李小龙皮肤活动的规则&#xff0c;让我们一起看看…

优秀ppt作品范例_首次公开|锐普的内部PPT配色库

每次发锐普的作品&#xff0c;总会有小伙伴们问&#xff1a;这么漂亮的配色到底是怎么做的呢&#xff1f;今天我在锐普内部的资源库发现一个超级宝贝——锐普内部的PPT配色库&#xff0c;1008张超精彩PPT配色范例。我的天&#xff0c;原来设计部竟然还藏着这种宝贝&#xff01;…

linux rz sz 安装_Windows与Linux文件传输之lrzsz工具

请关注本头条号&#xff0c;每天坚持更新原创干货技术文章如需学习视频&#xff0c;请查看本头条号简介&#xff0c;免费在线观看学习视频1. lrzsz工具简介Windows向Linux传输文件&#xff0c;最简单的方法是使用rz和sz命令。当然用有其他的方法&#xff0c;比如通过ssh(winscp…

java游戏重新开始_问题1:java问题--某局小游戏结束后怎么重新开始?

有个问题&#xff0c;想了好久没解决&#xff0c;上网找了下&#xff0c;貌似也没找到好的解决方法(谷歌暂时没上去)&#xff0c;现在这里写下来吧&#xff1a;最近在写一个五子棋的小游戏&#xff0c;也算是刚刚开始java入门的一个作品了吧&#xff0c;刚刚完成到人人对战(当然…

lua pcall 返回值_Redis和Lua整合

前面我们已经介绍完了Redis相关的理论知识&#xff0c;从本篇开始我们介绍一些Redis相关的时机应用。比如&#xff1a;Redis整合LuaRedis的消息模式Redis实现分布式锁常见的缓存问题我们先从Redis整合Lua的使用开始。lua是一种轻量小巧的脚本语言&#xff0c;用标准C语言编写并…

java 异步调用webapi_Async Await异步调用WebApi

先铺垫一些基础知识 在 .net 4.5中出现了 Async Await关键字&#xff0c;配合之前版本的Task 来使得开发异步程序更为简单易控。 在使用它们之前 我们先关心下 为什么要使用它们。好比 一个人做几件事&#xff0c;那他得一件一件的做完&#xff0c;而如果添加几个人手一起帮着…

百度相关搜索软件_不太热门的办公神器软件篇搜索相关

这次介绍两个windows平台超好用的搜索神器——listary和everything全文阅读约需3分钟在工作中&#xff0c;虽然大部分文件都会分门别类地放在对应的文件夹中&#xff0c;但总有一些放完就忘了在哪或是层级过深打开不便的情况。这两个搜索神器完美地解决了找不到文件且windows自…

mysql 回滚段_MySQL和PostgreSQL比较

1、MySQL相对来说比较年轻&#xff0c;首度出现在1994年。它声称自己是最流行的开源数据库。MySQL就是LAMP(用于Web开发的软件包&#xff0c;包括 Linux、Apache及Perl/PHP/Python)中的M。构建在LAMP栈之上的大多数应用都会使用MySQL&#xff0c;包括那些知名的应用&#xff0c…

dbscan java_DBSCAN算法的Java,C++,Python实现

最近由于要实现‘基于网格的DBSCAN算法’&#xff0c;网上有没有找到现成的代码[如果您有代码&#xff0c;麻烦联系我]&#xff0c;只好参考已有的DBSCAN算法的实现。先从网上随便找了几篇放这儿&#xff0c;之后对比研究。DBSCAN简介&#xff1a;1.简介DBSCAN 算法是一种基于密…

java volatile lock_Java并发学习笔记 -- Java中的Lock、volatile、同步关键字

Java并发一、锁1. 偏向锁1. 思想背景来源&#xff1a;HotSpot的作者经过研究发现&#xff0c;大多数情况下&#xff0c;锁不仅不存在多线程竞争&#xff0c;而且总是由同 一线程多次获得&#xff0c;为了让线程获得锁的代价更低而引入了偏向锁。原理&#xff1a;在对象头和栈帧…

python 数组赋值_pythonamp;numpy的赋值

有点编程基础的童鞋看到这个标题可能会有点懵逼&#xff0c;这还是个问题吗&#xff1f;不就是个等号()解决问题嘛&#xff01;我也希望是如此简单&#xff0c;因为上个星期被这个问题折磨到崩溃&#xff01;一般的python程序需要赋值时的确是通过等号()实现的&#xff0c;不管…

我的世界java 内存_我的世界如何分配内存

如果你在运行Minecraft时出现内存错误等问题&#xff0c;你可能需要给Minecraft分配更多内存来解决运行故障。如果你玩的是新版本的Minecraft&#xff0c;那么你可以从启动器里直接分配内存(RAM)。如果你使用的是旧版本&#xff0c;那么你需要创建一些文件来改变Minecraft内存使…

springbean的生命周期_spring bean生命周期(涵盖spring常用接口的载入)

spring bean生命周期流程图&#xff1a;​​​​其中包含了很多常用的接口&#xff0c;可以参考spring 常用接口&#xff1b;下面写个例子证明下&#xff1a;1.实现InitializingBean以及各个Aware接口public class UserB implements InitializingBean , BeanFactoryAware , Bea…

python中的索引从几开始计数_计算机为什么要从 0 开始计数?

作者&#xff1a;程序喵大人来源&#xff1a;程序喵大人大家好&#xff0c;我是猫哥&#xff01;众所周知&#xff0c;计算机是从0开始计数&#xff0c;而不是我们平时常用的从1开始计数&#xff0c;但你有想过为什么吗&#xff1f;其实不是计算机从0开始计数而是多数编程语言中…