apache sgoop 导入数据到 oracle、导出数据到 oracle 实现

前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到教程。

业务场景：是在oracle 数据库和 hive 数据库中，有多个相同结构的表，要求数据从2个库定时双向同步。

（导出时可以只导出部分字段，则此时 hive 库和 oracle 库中表结构可以并非完全一致）

1. 写一个文本文档，把要导入的表名和库名先编辑好，格式如 oracle_table_list_append.txt ：

wate.BUSI_xxx
wate.xxx_xxx_INFO
wate.xxx_USER_xxx
... # wate 是 oracle 数据库名， BUSI_xxx 是表名。
# 可写多行，脚本执行时读取每个一行，循环导入每个表的数据。

编写sgoop import 脚本并执行即可把数据从 oracle 数据库导入到 hive 数据库中。

current=`date -d "yesterday" +%Y-%m-%d`     #获取当前时间
#current=`date -d "yesterday 20190110" +%Y-%m-%d`     #获取指定日期的前一天begin=${current}" 00:00:00"sed -i '/^$/d' /opt/xxx/sqoop/conf/oracle_table_list_append.txt
cat /opt/xxx/sqoop/conf/oracle_table_list_append.txt|while read line
doOLD_IFS="$IFS"IFS="."arr=($line)db_name=${arr[0]}table_name=${arr[1]}echo "####begin to sqoop from oracle "${db_name}.${table_name} "......"sqoop import \--connect jdbc:oracle:thin:@192.168.xx.xx:1521/${db_name} \--username 数据库名 \--password 数据库密码 \--table ${table_name} \--where "creationtime >=to_date('${begin}','yyyy-mm-dd hh24:mi:ss') or xxxtime>=to_date('${begin}','yyyy-mm-dd hh24:mi:ss') or dxxtime>=to_date('${begin}','yyyy-mm-dd hh24:mi:ss') " \--hive-drop-import-delims \--null-string '\\N' \--null-non-string '\\N' \--fields-terminated-by '\007' \--lines-terminated-by '\n' \--hive-import \--hive-table hive数据库名.${table_name} \-m 10rc=$?if [ $rc -ne 0 ]thenecho "#### sqoop from oracle "${db_name}.${table_name} " failed......"# echo "#### sqoop from oracle "${db_name}.${table_name} " failed......"|mail -s "failed crontab_${current}" xxx@163.comelseecho "####sqoop from oracle "${db_name}.${table_name} " successed......"fidone
current=`date "+%Y-%m-%d %H:%M:%S"`     #获取当前时间
end_timeStamp=`date -d "$current" +%s`
du_time=$[end_timeStamp-begin_timeStamp]
echo "sqoop total time used:" $du_time "s"

--where 此参数是条件过滤，全表导入，可不加此参数。

2. 编写sgoop export 脚本并执行，则可把数据从 hive 库导出到 oracle 数据库。

current_datetime=`date "+%Y-%m-%d %H:%M:%S"`
echo "Start Timing Task:"$current_datetime
current=`date "+%Y-%m-%d %H:%M:%S"`     #获取当前时间
begin_timeStamp=`date -d "$current" +%s`table_name="cxx_xxx_day"
day=`date -d -1days "+%Y%m%d"` #昨天（此表以天分区，每次只导一天的数据）echo "####开始导出"${day}"的数据 into oracle oracle数据库名."${table_name} "......"sqoop export \--connect "jdbc:oracle:thin:@192.168.xxx.xxx:1521/oracle数据库连接名" \--username oracle数据库名 \--password oracle数据库密码 \--table ${table_name} \--export-dir "/user/hive/xxx/hivexxx.db/xxx_xxx_day/day=${day}" \--columns xxx_no,datatime,xxx_value,xxx_status,xxx_voage,staxx_str,stxxxs_hex,fy_id \--input-fields-terminated-by '\007' \--input-lines-terminated-by '\n' \--input-null-string '\\N' \--input-null-non-string '\\N' \--m 4rc=$?if [ $rc -ne 0 ]thenecho "Timing Task Error:"echo "####sqoop from hive into oracle "${table_name} " failed......"elseecho "####sqoop from hive into oracle "${table_name} " successed......"fi
current=`date "+%Y-%m-%d %H:%M:%S"`     #获取当前时间
end_timeStamp=`date -d "$current" +%s`
du_time=$[end_timeStamp-begin_timeStamp]
echo "sqoop total time used:" $du_time "s"

--export-dir 指定HDFS上的文件路径
--columns 指定要导出的列，可以只导出部分列

3. 官网说明文档：http://sqoop.apache.org/docs/1.4.7/SqoopUserGuide.html

要查更多参数和用法可以直接查询官方文档。

import说明文档地址：http://sqoop.apache.org/docs/1.4.7/SqoopUserGuide.html#_literal_sqoop_import_literal

export说明文档地址：http://sqoop.apache.org/docs/1.4.7/SqoopUserGuide.html#_literal_sqoop_export_literal

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/447409.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

apache sgoop 导入数据到 oracle、导出数据到 oracle 实现

相关文章

最佳的开源云项目有哪些？

我们正处在“后开源”时代？

解决：-source 1.6 中不支持 diamond 运算符 [ERROR] (请使用 -source 7 或更高版本以启用 diamond 运算符)

是什么摧毁了程序员的工作效率

解决：single failed: For artifact {null:null:null:jar}: The groupId cannot be empty. 把工程依赖的jar包打到入jar中

解决：Exception in thread main java.lang.NoSuchMethodError: com.google.common.util.concurrent.MoreExe

云计算技术背后的天才程序员：Open VSwitch鼻祖Martin Casado

Maven Helper 安装使用（jar 包管理工具）

云计算技术背后的那些天才程序员：KVM之父Avi Kivity

解决：Unable to access jarfile xxx-0.0.1-SNAPSHOT.jar

与Linus Torvalds“并列”，虚拟化天才程序员法布里斯贝拉

工具类：获取 spring 容器中 bean

数据vs.算法，究竟谁更重要

JDK8 集合排序 xxxList.stream.sorted(...)

云数据中心选址PK：微软第一，IBM第二，谷歌最少

解决：Unexpected token (START_OBJECT), expected START_ARRAY: need JSON Array to contain As.WRAPPER_ARRA

用户暴增下的收入降低，AWS面临尴尬

解决：Caused by: redis.clients.jedis.exceptions.JedisDataException: WRONGTYPE Operation against a key

为什么软件测试需要变革？

websocke 在线测试地址