通过Sqoop实现Mysql / Oracle 与HDFS / Hbase互导数据

下文将重点说明通过Sqoop实现Mysql与HDFS互导数据,Mysql与Hbase,Oracle与Hbase的互导最后给出命令。
一、Mysql与HDFS互导数据

环境:

宿主机器操作系统为Win7,Mysql安装在宿主机上,宿主机地址为192.168.66.96
3台虚拟机操作系统为Ubuntu-12.04.1-32位
三台虚拟机已成功安装Hadoop,并实现免密钥互访,配hosts为:
192.168.66.91 masternode
192.168.66.92 slavenode1
192.168.66.93 slavenode2
/etc/profile已配置好必备环境变量HADOOP_HOME,JAVA_HOME
实验在masternode上进行,已成功连接mysql
 
步骤一,下载安装包:
我安装的Hadoop版本是原生hadoop-0.20.203.0,SQOOP不支持此版本,可使用CDH3版本hadoop,也可以通过拷贝相应的包到sqoop-1.2.0-CDH3B4/lib下,依然可以使用。
下载相关文件:
http://archive.cloudera.com/cdh/3/hadoop-0.20.2-CDH3B4.tar.gz
http://archive.cloudera.com/cdh/3/sqoop-1.2.0-CDH3B4.tar.gz
sqoop-1.2.0-CDH3B4依赖hadoop-core-0.20.2-CDH3B4.jar,所以你需要下载hadoop- 0.20.2-CDH3B4.tar.gz,解压缩后将hadoop-0.20.2-CDH3B4/hadoop-core-0.20.2- CDH3B4.jar复制到sqoop-1.2.0-CDH3B4/lib中。
另外,sqoop导入mysql数据运行过程中依赖mysql-connector-java-*.jar,所以你需要下载mysql-connector-java-*.jar并复制到sqoop-1.2.0-CDH3B4/lib中。
 
步骤二,相关配置:
修改SQOOP的文件configure-sqoop,注释掉hbase和zookeeper检查(除非你准备使用HABASE等HADOOP上的组件) #if [ ! -d "${HBASE_HOME}" ]; then
# echo “Error: $HBASE_HOME does not exist!”
# echo ‘Please set $HBASE_HOME to the root of your HBase installation.’
# exit 1
#fi
#if [ ! -d "${ZOOKEEPER_HOME}" ]; then
# echo “Error: $ZOOKEEPER_HOME does not exist!”
# echo ‘Please set $ZOOKEEPER_HOME to the root of your ZooKeeper installation.’
# exit 1
#fi
修改/etc/profile环境变量文件(su root之后,sudo gedit /etc/profile):
添加 export SQOOP_HOME=/home/grid/sqoop
在原有PATH后添加 :$SQOOP_HOME/bin
步骤三,在mysql中建立测试用户,测试表和数据,并测试sqoop连接mysql:
创建用户sqoop并授权:
grant all privileges on *.* to 'sqoop'@'%' identified by 'sqoop' with grant option;
创建表空间(schema)sqoop,并创建测试表:
create table students (
id int not null primary key,
name varchar(20),
age int)
插入测试数据:
insert into students values('10001','liyang',29);
insert into students values('10002','lion',28);
insert into students values('10003','leon',26);
在masternode测试sqoop能否成功连接宿主机器上的mysql:
sqoop list-tables --connect jdbc:mysql://192.168.66.96:3306/sqoop --username sqoop --password sqoop
如果能正确显示出sqoop表空间中的students表,就说明sqoop已经可以成功连接mysql!
步骤四,将mysql中sqoop表空间的students表的三行数据导入HDFS:
启动hadoop
start-all.sh
用jps验证启动是否成功
显示正在运行以下进程即为启动成功:
2820 SecondaryNameNode
4539 Jps
2887 JobTracker
2595 NameNode
 
从mysql导入数据,运行如下命令
sqoop import --connect jdbc:mysql://192.168.66.96:3306/sqoop --username sqoop --password sqoop --table students -m 1
验证导入数据是否成功:
若导入成功,运行 hadoop dfs -ls 将能看到根目录/user/grid/下有以表名命名的文件夹students
运行 hadoop dfs -ls /user/grid/students 能看到该文件夹中包含文件:/user/grid/students/part-m-00000
运行 hadoop dfs -cat /user/grid/students/part-m-00000 就能看到该文件已经包含mysql中students表的三行数据:
10001,liyang,29
10002,lion,28
10003,leon,26
 
步骤五,将HDFS中的数据导入Mysql的students表中:
首先将mysql的students表数据清空:
delete from students;
然后在masternode上执行导出数据命令:
sqoop export --connect jdbc:mysql://192.168.66.96:3306/sqoop --username sqoop --password sqoop --table students --export-dir hdfs://masternode:9000/user/grid/students/part-m-00000
 
若成功,在mysql中会看到students表中的数据恢复了!
 
注意过程中可能会因为slavenode的50010端口没打开而报错,需用root用户通过sudo ufw allow 50010命令打开端口!
二、Mysql与Hbase互导数据
将mysql的数据导入hbase的命令格式为:
sqoop import --connect jdbc:mysql://mysqlserver_IP/databaseName --username --password password --table datatable --hbase-create-table --hbase-table hbase_tablename --column-family col_fam_name --hbase-row-key key_col_name
其中 ,databaseName 和datatable 是mysql的数据库和表名,hbase_tablename是要导成hbase的表名,key_col_name可以指定datatable中哪一列作为hbase新表的rowkey,col_fam_name是除rowkey之外的所有列的列族名
例如:可通过如下命令将Mysql中的students表导入到Hbase中:
/home/grid/sqoop/bin/sqoop import --connect jdbc:mysql://192.168.66.96/sqoop --username sqoop --password liyang16 --table students --hbase-create-table --hbase-table students --column-family stuinfo --hbase-row-key id
成功执行后,可在hbase中用以下命令查看结果:
hbase(main):011:0> scan 'students'
ROW COLUMN+CELL
10001 column=stuinfo:age, timestamp=1356759994058, value=29
10001 column=stuinfo:name, timestamp=1356759994058, value=liyang
10002 column=stuinfo:age, timestamp=1356760044478, value=28
10002 column=stuinfo:name, timestamp=1356760044478, value=lion
10003 column=stuinfo:age, timestamp=1356760044478, value=26
10003 column=stuinfo:name, timestamp=1356760044478, value=leon
3 row(s) in 0.0900 seconds
三、Oracle与Hbase互导数据
将Oracle中的dept表(列为id,name,addr)导出至hbase中的dept表(行键为id,列族为deptinfo)
sqoop import --append --connect jdbc:oracle:thin:@192.168.66.90:1521:orcl --username test --password test --m 1 --table dept --columns id,name,addr --hbase-create-table --hbase-table dept --hbase-row-key id --column-family deptinfo
 
-------------------------------------------------------------------------------------
注:以上所有命令均实测通过,只需修改参数即可执行!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/539484.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android5.0新控件

谷歌在推出Android5.0的同时推出了一些新控件,Android5.0中最常用的新控件有下面5种。 1. CardView(卡片视图) CardView顾名思义是卡片视图,它继承FrameLayout。它是一个带圆角的背景和阴影FrameLayout。CardView被包装为一种布局…

python中要使用导入全部的是什么符号-在python格式字符串中使用标点符号

这是因为您可以使用格式迷你语言来访问对象的属性.例如,我经常在自己的自定义类工作中使用它.假设我为每台需要处理的计算机定义了一个类. class Computer(object): def __init__(self,IP): self.IP IP 而现在我想对整个计算机做一些事情 list_comps [Computer(name,"19…

oracle 读懂10046视频,10046、10053、实操记录

10046是一个Oracle的内部事件(event),通过设置这个事件可以得到Oracle内部执行系统解析、调用、等待、绑定变量等详细的trace信息,即帮助我们解析一条/多条SQL、PL/SQL语句的运行状态,这些状态包括:Parse/Fetch/Execute三个阶段中…

linux重定向文件被修改后,Linux服务器修改.htaccess文件实现301重定向

出于 SEO、PR 值传递、网址转换的目的,在网站初建和网站迁移时我们都需要使用 301 重定向,通常包括域名对域名,目录对目录和一个独立网址对另一个独立网址的重定向。在虚拟主机上作 301 重定向,最常用的方法有2种:第一…

Druid使用起步—在javaWeb项目中配置监控

原文章:http://my.oschina.net/u/568779/blog/152813 ---------------------------------------------------- druid wiki 当我们在javaWEB项目中使用到druid来作为我们的连接池的时候,一定不会忘了添加监控功能。下面我们就来看一下,在一个…

[译] 想帮助用户做决定?你的APP可以这样设计!

原文地址:Design your app for decision-making原文作者:Jeni译文出自:掘金翻译计划本文永久链接:github.com/xitu/gold-m…译者:PTHFLY校对者:ryouaki想帮助用户做决定?你的APP可以这样设计&am…

ip地址管理系统_门禁监控管理系统项目总结

门禁监控管理系统项目总结1、门禁管理设备(IFACE802) 16台 ,都有独立的网线到控制的房间。IP地址从 192.168.1.101--192.168.1.116。(地下一层 新家的最后一间是在附近的一个房间接的网线。一层的大门 有1台控制器和IFACE802 部署了2根网线)2、门禁控制的IP地址 192.168.1.1173…

linux mount命令衔接,Linux mount命令详解:挂载Linux系统外的文件

Linux mount命令详解:挂载Linux系统外的文件《Linux挂载》一节讲到,所有的硬件设备必须挂载之后才能使用,只不过,有些硬件设备(比如硬盘分区)在每次系统启动时会自动挂载,而有些(比如 U 盘、光盘)则需要手动进行挂载。…

targetFilterLifecycle的作用

targetFilterLifecycle的作用&#xff0c;有需要的朋友可以参考下。 在web.xml中进行配置&#xff0c;对所有的URL请求进行过滤&#xff0c;就像"击鼓传花"一样&#xff0c;链式处理。 配置分为两种A和B。 A:普通配置 在web.xml中增加如下内容&#xff1a;<fi…

平板电脑可以插u盘吗_有手机还需要平板电脑吗 酷比魔方iplay30平板电脑评测

原标题&#xff1a;有手机还需要平板电脑吗 酷比魔方iplay30平板电脑评测一、前言&#xff1a;前段时间我们一帮60岁左右的退休老头、老太太到农家乐去玩&#xff0c;玩累了就开始喝茶&#xff0c;一坐下来&#xff0c;人人都把手机掏出来&#xff0c;看着他们看手机的姿势&…

[8086汇编]利用栈翻转内存数据

assume cs:codesegcodeseg segmentdw 1h, 2h, 3h, 4h, 5h, 6h, 7h, 8h, 9hdw 9 dup(?)start:; 设置栈段mov ax, csmov ss, ax; 36 9 * 2 * 2mov sp, 36sub bx, bxmov cx, 9 s_push:mov ax, cs:[bx]push axadd bx, 2loop s_pushsub bx, bxmov cx, 9 s_pop:pop cs:[bx]add bx, …

面向多媒体 linux 版本,基于MX Linux 的 AV Linux 新版发布,此AV非彼AV

原标题&#xff1a;基于MX Linux 的 AV Linux 新版发布&#xff0c;此AV非彼AV作者&#xff1a;Linux迷链接&#xff1a;https://www.linuxmi.com/av-linux-2020-11-23-mx-linux-19-3.html经过六个多月的开发&#xff0c;面向多媒体的AV Linux发行版已发行了新版本&#xff0c;…

Spring的PropertyPlaceholderConfigurer应用

1. PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现&#xff0c;也就是 BeanFactoryPostProcessor接口的一个实现。PropertyPlaceholderConfigurer可以将上下文&#xff08;配置文 件&#xff09;中的属性值放在另一个单独的标准java Properties文件中去。在XML文件…

safari浏览器_吹爆苹果自带浏览器Safari,没有比它更贴心的浏览器了!!

大家一定觉得苹果的很多自带软件很难用对不对&#xff1f;嘻嘻&#xff0c;我觉得这正是苹果的魅力所在&#xff0c;它的很多产品与我们的正常使用习惯思维之间存在着一堵看不见的墙&#xff0c;只有当你你花点时间去研究、去驾驭它&#xff0c;把那堵墙给它推倒&#xff0c;然…

正则表达式知识详解(转自晴天碧日)

一、什么是正则表达式&#xff1f; 1.定义&#xff1a; 正则表达式(regular expression)描述了一种字符串匹配的模式&#xff0c;可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。构造正则表达式的方法和创建数学表达式的方法…

Spring tx:advice/

<tx:advice/> 有关的设置 这一节里将描述通过 <tx:advice/> 标签来指定不同的事务性设置。默认的 <tx:advice/> 设置如下&#xff1a; 事务传播设置是 REQUIRED 隔离级别是 DEFAULT 事务是 读/写 事务超时默认是依赖于事务系统的&#xff0c;或者事务超…

drcom linux怎么运行,linux下使用drcom登录认证

下载首先感谢开发者:https://github.com/drcoms/drcom-generic这个项目基于python实现了d,p,x版drcom认证,请到上述链接查看相关信息,项目的wiki简单介绍了各版本的使用方法.首先下载上面的drcom-generic,我将其下载到了家目录~/下,完整目录:~/drcom-generic取得必要信息下面启…

升级浏览器_星愿浏览器升级至6.3.2000.2001

玩懂手机网资讯&#xff0c;星愿浏览器升级至6.3.2000.2001&#xff0c;可能很多玩友都不熟悉这款浏览器&#xff0c;星愿浏览器(Twinkstar Browser)是一款使用chromium内核来自一首英文歌曲《 Twinkle, twinkle, little star》&#xff0c;选twinkle的名词twink&#xff0c;组…

js定时刷新时间

<p id"currentTime"> </p><script> document.getElementById("currentTime").innerHTML new Date();//初始化时间 var timing setInterval(function(){changeTime()},1000);//设置定时执行方法和执行频率 function changeTime(){ docu…

mybatis3 添加ehcache支持

为了提高MyBatis的性能,有时候我们需要加入缓存支持,目前用的比较多的缓存莫过于ehcache缓存了,ehcache性能强大,而且位各种应用都提供了解决方案,在此我们主要是做查询缓存,提高查询的效率. 在Mybatis的官网上把集成ehcache的文档下载下来看了看,说的太简单了,对于新手很难理解…