java连接hbase_HBase实战 | 05405.15.0Spark2使用HBaseSpark访问HBase

转载自微信公众号Hadoop实操

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。

Fayson的github:

https://github.com/fayson/cdhproject

提示:代码块部分可以左右滑动查看噢

1

文章编写目的

越来越多的用户使用Spark对接HBase,对接HBase的方式有多种,通过HBase-client API实现,也有直接Spark On HBase的方式实现,比较常见的有华为的Spark-SQL-on-HBase,Hortonworks的Apache HBase Connector和Cloudera提供的SparkOnHBase,目前Cloudera的SparkOnHBase已提交的HBase的主干版本。本篇文章Fayson主要在Spark2环境下使用Cloudera的SparkOnHBase访问HBase。

  • 内容概述

1.环境准备

2.SparkOnHBase示例代码

3.示例运行及验证

4.总结

  • 测试环境

1.CM和CDH版本为5.15.0

2.Spark2.2.0.cloudera2

2

环境准备

在CDH5.15.0环境下安装了Spark2后默认是没有与HBase集成的,所以这里我们需要配置Spark2与HBase集成,在Spark环境变量中增加HBase的配置信息。

1.登录CM进入Spark2的配置界面搜索“spark-env.sh”,增加如下配置:

#配置Spark2的Java环境,Spark2要求JDK8或以上版本
export JAVA_HOME=/usr/java/jdk1.8.0_131
#加载该依赖包的主要目的是Spark2的Logging为私有的,Fayson自己重写了Logging类
export SPARK_DIST_CLASSPATH=$SPARK_DIST_CLASSPATH:/opt/cloudera/external-jars/spark2-demo-1.0-SNAPSHOT.jar
#加载HBase的依赖包到Spark2环境变量中
for loop in `ls /opt/cloudera/parcels/CDH/jars/hbase-*.jar`;do
   export SPARK_DIST_CLASSPATH=${loop}:${SPARK_DIST_CLASSPATH}
done
#加载HBase的配置到Spark2的环境变量中
export HADOOP_CONF_DIR=${HADOOP_CONF_DIR}:/etc/hbase/conf/

ce810f682ba8dfd4f1b38233583b61f1.png

2.完成上述配置后,部署Spark2客户端配置

131c522db707bb7689ade1503f322edf.png

完成部署

593c0302faabed8706683c3770420829.png

3.在HBase中创建一个用于测试的表user_info

create 'user_info','info'

83545c265c4d7629bc8331a5aeb2872f.png

3

SparkOnHBase示例代码

1.在Spark2工程中添加SparkOnHBase的Maven依赖


<dependency>
    <groupId>org.apache.kudugroupId>
    <artifactId>kudu-spark2_2.11artifactId>
    <version>1.7.0-cdh5.15.0version>
dependency>

3b200ab26dd8d5a1cd5f35d5d0a2a47e.png

2.在工程中创建ClouderaSparkOnHBase.scala类,内容如下:

package com.cloudera.hbase

import org.apache.hadoop.hbase.client.Put
import org.apache.hadoop.hbase.{HBaseConfiguration, TableName}
import org.apache.hadoop.hbase.spark.HBaseContext
import org.apache.hadoop.hbase.util.Bytes
import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession

/**
  * package: com.cloudera.hbase
  * describe: 使用Cloudera提供的Spark On HBase访问HBase
  * creat_user: Fayson
  * email: htechinfo@163.com
  * creat_date: 2019/1/24
  * creat_time: 上午10:59
  * 公众号:Hadoop实操
  */
object ClouderaSparkOnHBase {

  def main(args: Array[String]): Unit = {
    //Spark Conf配置信息
    val conf = new SparkConf()
      .setAppName("ClouderaSparkOnHBase")
      .set("spark.master", "yarn")
      .set("spark.submit.deployMode", "client")

    //初始化SparkSession对象
    val spark = SparkSession.builder().config(conf).getOrCreate()
    //初始化HBase Configuration
    val hbaseconf = HBaseConfiguration.create()
    //创建HBaseContext对象
    val hbaseContext = new HBaseContext(spark.sparkContext, hbaseconf)
    //准备一个RDD,后面用于向HBase表插入数据
    val rdd = spark.sparkContext.parallelize(Array(
      (Bytes.toBytes("1"), Array((Bytes.toBytes("info"), Bytes.toBytes("a"), Bytes.toBytes("1")))),
      (Bytes.toBytes("2"), Array((Bytes.toBytes("info"), Bytes.toBytes("b"), Bytes.toBytes("2")))),
      (Bytes.toBytes("3"), Array((Bytes.toBytes("info"), Bytes.toBytes("c"), Bytes.toBytes("3")))),
      (Bytes.toBytes("4"), Array((Bytes.toBytes("info"), Bytes.toBytes("d"), Bytes.toBytes("4")))),
      (Bytes.toBytes("5"), Array((Bytes.toBytes("info"), Bytes.toBytes("e"), Bytes.toBytes("5"))))
    ))

    val tableName = TableName.valueOf("user_info")
    //使用HBaseContext.bulkPut向指定的HBase表写数据
    hbaseContext.bulkPut[(Array[Byte], Array[(Array[Byte], Array[Byte], Array[Byte])])](rdd,
      tableName,
      (putRecord) => {
        val put = new Put(putRecord._1)
        putRecord._2.foreach((putValue) =>
          put.addColumn(putValue._1, putValue._2, putValue._3)
        )
        put
      });
  }

}

3.使用Maven命令编译工程

mvn clean scala:compile package

ed95a25674070ba0921150123fa078cd.png

4.将编译好的spark2-demo-1.0-SNAPSHOT.jar上传到集群有Spark2 Gateway的节点上,使用spark2-submit命令提交

kinit fayson
spark2-submit --class com.cloudera.hbase.ClouderaSparkOnHBase \
    --master yarn --num-executors 4 --driver-memory 1g \
    --driver-cores 1 --executor-memory 1g --executor-cores 1 \
    /data/disk1/hbase-spark-demo/spark2-demo-1.0-SNAPSHOT.jar

102fafb195868cb48194c476fbf37266.png

作业执行成功

99829ea203912fb1a61bba945246e6e7.png

5.登录HBase查看user_info表数据

3b3d78abc2e3d92ea61826a6bfeee941.png

4

总结

1.Spark2使用SparkOnHBase开发访问HBase时,代码编译时会报“Could not access type Logging in package org.apache.spark”具体可以参考Fayson前面的文章《HBase-Spark无法在Spark2编译通过问题解决》

2.在进行Spark2与HBase环境集成时,将spark2-demo-1.0-SNAPSHOT.jar包加载至环境变量(确保集群所有节点/opt/cloudera/external目录下均有这个Jar包),是为了HBaseContext能够正常加载org.apche.spark.Logging类,当然可以将该类打包到一个独立的包中,Fayson这里偷懒直接使用示例工程的jar包。

3.使用SparkOnHBase可以方便的访问HBase,在非Kerberos和Kerberos环境下不需要考虑认证问题(Fayson在前面Spark2Streaming系列时使用的hbase-client API访问HBase,Kerberos环境下还需要考Driver和Executor的jaas.conf配置)

4.在代码中创建HBaseConfiguration.create()对象后设置ZK地址在每个Executor上无法正常获取ZK连接,默认加载的还是localhost配置(因为未在Spark2环境变量中指定HBase配置文件地址导致),因此使用SparkOnHBase必须完成Spark2与HBase的集成。

GitHub地址:

https://github.com/fayson/cdhproject/blob/master/spark2demo/src/main/scala/com/cloudera/hbase/ClouderaSparkOnHBase.scala

https://github.com/fayson/cdhproject/blob/master/spark2demo/pom.xml

提示:代码块部分可以左右滑动查看噢

为天地立心,为生民立命,为往圣继绝学,为万世开太平。

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。

推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。

acd7f0b8a6d24eaff529e9656ddec3ac.gif

e1a443bd676d445b62f58a8f8c99aca2.gif

大家工作学习遇到HBase技术问题,把问题发布到HBase技术社区论坛http://hbase.group,欢迎大家论坛上面提问留言讨论。想了解更多HBase技术关注HBase技术社区公众号(微信号:hbasegroup),非常欢迎大家积极投稿。

3c9a074de42cf758bed5c9fe6db09114.png

技术社群

【HBase生态+Spark社区大群】
群福利:群内每周进行群直播技术分享及问答
加入方式1:

https://dwz.cn/Fvqv066s?spm=a2c4e.11153940.blogcont688191.19.1fcd1351nOOPvI

加入方式2:钉钉扫码加入

e8629ddb3a6a82f57cb02c28a3858fb0.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/559436.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python归并排序算法实现_python算法实现系列-归并排序

效率比较高的归并排序&#xff0c; 有两种方式。1.使用递归def merge(left, right):result []i,j 0, 0while i < len(left) and j < len(right):if left[i] < right[j]:result.append(left[i])i 1else:result.append(right[j])j 1result left[i:]result right[j…

python编程教程交互式联系_Python Koans交互式教程

Python Koans是一个学习Python编程语言的交互式教程&#xff0c;通过解决当中的问题来更深刻地理解Python。本系列文章为在此项目的学习中的问题解决方案及思考Lesson 2 String字符串是 Python 中最常用的数据类型。我们可以使用引号’或”来创建字符串。about_strings.py#!/us…

wxpython使用简介_wxpython简介

Python​ Python是一种成功的脚本语言&#xff0c;它最初是由Guido van Rossum开发的。它于1991年首次发布。Python的灵感来自于ABC和Haskell编程语言。Python是一种高级的、通用的、多平台的、解释型的语言。有人更喜欢称它为动态语言。它很容易学习。Python是一种极简主义语言…

计算机科学与python编程导论_计算机科学入门和使用Python编程

你将学到什么A Notion of computationThe Python programming languageSome simple algorithmsTesting and debuggingAn informal introduction to algorithmic complexityData structures课程概况This course is the first of a two-course sequence: Introduction to Compute…

电脑4次连续故障音_格力空调电子膨胀阀故障判定与“E6”处理方法

一、电子膨胀阀常见故障原因电器电子膨胀阀是一种利用电子控制器通过电缆向线圈发出脉冲控制信号&#xff0c;控制施加于膨胀阀上的电压或电流&#xff0c;从而控制阀针的动作实现阀口流通面积改变达到流量自动调节目的的节流器件&#xff0c;是空调器的重要部件之一&#xff0…

mysql+性能+计算列_MYSQL性能优化的最佳20+条经验

当你查询表的有些时候&#xff0c;你已经知道结果只会有一条结果&#xff0c;但因为你可能需要去fetch游标&#xff0c;或是你也许会去检查返回的记录数。在这种情况下&#xff0c;加上 LIMIT 1 可以增加性能。这样一样&#xff0c;MySQL数据库引擎会在找到一条数据后停止搜索&…

ClickHouse 入门与实战教程

目录 1. ClickHouse 简介 什么是 ClickHouse&#xff1f; ClickHouse 的优势和特点 适用场景 2. 安装 ClickHouse 3. ClickHouse 的基本概念 4. ClickHouse 的基本操作 创建数据库和表、插入和查询数据 使用 MergeTree 引擎处理时序数据 管理分区 创建带有分区的 Mer…

python脚本自动消除安卓版_python脚本中appium的自启动自关闭

前提&#xff1a;已安装appium命令行版本将appium的启动及其关闭直接写在脚本中&#xff0c;运行起来会方便很多创建startAppiumServer.bat 和 stopAppiumServer.bat文件&#xff0c;然后文件存放在运行的包下面注意点&#xff1a;调用startAppiumServer.bat 和stopAppiumServe…

sid图像数据_实战材料信息学:使用skimage处理扫描电子显微镜(SEM)图像数据

算开个头&#xff0c;不算特别实战扫描电子显微镜&#xff0c;材料开发不可缺少的分析仪器。原理就不详述了。材料的形貌&#xff0c;具体长什么样的都可以看得很清楚。材料表面的形貌很多情况下会和材料的物性产生直接关系&#xff0c;比如说可以从SEM看出粒子的直径分布&…

python生成器 图片分类_Python内置类型(6)——生成器

上节内容说到Python的for语句循环本质上就是通过调用Iterable可迭代对象的__iter()__方法获得一个Iterator迭代器对象,然后不断调用Iterator迭代器对象__next()__方法实现的。Iterator迭代器对象则是一个需要实现__iter__()和__next__()两个迭代器协议方法的对象。python中生成…

java 把方法当参数传递_java 中 如何将“一个类的方法 ”作为参数传到“另一个类的方法”中...

展开全部在java中这是没有办法做到的&#xff0c;因e5a48de588b662616964757a686964616f31333337396336为java不是函数式编程语言&#xff0c;不过可以通过传递一个接口来实现。下面解说java如何模拟&#xff1a;先定义一个接口:interface MethodInterface{//这个方法假如就是你…

轮询数据库 java_谁做过定时任务,轮询查询数据。

一、增加所依赖的JAR包1、增加Spring的Maven依赖org.springframeworkspring-webmvc3.0.5.RELEASE2、增加Quartz的Maven依赖org.quartz-schedulerquartz1.8.4二、增加定时业务逻辑类public class ExpireJobTask {/** Logger */private static final Logger logger LoggerFactor…

arcgis制作空间变化图怎么做_听说如果做数据分析不用GIS,会被开?

Q你有没有遇到这样的情况&#xff1f;身边的同事或同学经常说什么高程图、坡向图、坡度图、生态水文图、热力密度图、大数据算法&#xff0c;而自己却一无所知&#xff0c;心里感到特别的慌啊。文末附ArcGIS最新版及超强数据神器 很多人会说&#xff0c;“设计师是感性的&#…

仅完成部分的readprocessmemory或write_王者荣耀:三种李小龙获取方式!无需完成任务、28号即可兑换...

哈喽大家好&#xff01;我是你们的小菜鸡“荣耀急先锋”王者荣耀五周年庆限定皮肤李小龙活动已经开始啦&#xff01;大家有参加了吗&#xff1f;或者说对这个活动不太理解&#xff0c;针对这些小伙伴菜鸡今天就简单的跟大家讲讲李小龙皮肤活动的规则&#xff0c;让我们一起看看…

uuid java 重复_Java中使用UUID工具类生成唯一标志防止重复

import java.security.MessageDigest;import java.security.NoSuchAlgorithmException;import java.security.SecureRandom;import java.util.Random;import java.util.concurrent.ThreadLocalRandom;/*** 提供通用唯一识别码(universally unique identifier)(UUID)实现**/publ…

优秀ppt作品范例_首次公开|锐普的内部PPT配色库

每次发锐普的作品&#xff0c;总会有小伙伴们问&#xff1a;这么漂亮的配色到底是怎么做的呢&#xff1f;今天我在锐普内部的资源库发现一个超级宝贝——锐普内部的PPT配色库&#xff0c;1008张超精彩PPT配色范例。我的天&#xff0c;原来设计部竟然还藏着这种宝贝&#xff01;…

java get null_java 获取对象中为null的字段实例代码

下面一段简单的代码给大家分享java 获取对象中为null的字段&#xff0c;具体代码如下所述&#xff1a;private static String[] getNullPropertyNames(Object source) {final BeanWrapper src new BeanWrapperImpl(source);java.beans.PropertyDescriptor[] pds src.getPrope…

linux rz sz 安装_Windows与Linux文件传输之lrzsz工具

请关注本头条号&#xff0c;每天坚持更新原创干货技术文章如需学习视频&#xff0c;请查看本头条号简介&#xff0c;免费在线观看学习视频1. lrzsz工具简介Windows向Linux传输文件&#xff0c;最简单的方法是使用rz和sz命令。当然用有其他的方法&#xff0c;比如通过ssh(winscp…

java游戏重新开始_问题1:java问题--某局小游戏结束后怎么重新开始?

有个问题&#xff0c;想了好久没解决&#xff0c;上网找了下&#xff0c;貌似也没找到好的解决方法(谷歌暂时没上去)&#xff0c;现在这里写下来吧&#xff1a;最近在写一个五子棋的小游戏&#xff0c;也算是刚刚开始java入门的一个作品了吧&#xff0c;刚刚完成到人人对战(当然…

python编码器下载_Python Code128编码器

这是一个可以接受的答案&#xff0c;所以我将原始代码留在下面。但我更喜欢这种精致。在def list_join(seq): Join a sequence of lists into a single list, much like str.joinwill join a sequence of strings into a single string.return [x for sub in seq for x in sub]…