使用Sqoop命令从Oracle同步数据到Hive，修复数据乱码 %0A的问题

一、创建一张Hive测试表

create table test_oracle_hive(id_code      string,phone_code    string,status    string,create_time    string
) partitioned by(partition_date string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

创建分区字段partition_date，指定分隔符“，”

二、编写Sqoop数据同步命令

我这里使用的是shell脚本的方式：

#!/bin/bash
export LANG="en_US.UTF-8"
part_date=etl_date=`date "-d +0 day" "+%Y%m%d"`
echo "当前分区时间为: $part_date"
sqoop import -D mapred.job.queue.name=root.realtime_queue --connect jdbc:oracle:thin:@//xxx.xxx.xxx.xxx:1521/testdb --username test --password test01 --table APP.TEST_ORACLE_HIVE_TWO --hive-import --hive-partition-key partition_date --hive-partition-value $part_date --hive-table xxx.test_data_oracle_hive --fields-terminated-by ',' --null-string '\\N' --null-non-string '\\N' --hive-overwrite -m 1
if [ $? -eq 0 ]; thenecho ">>>>>>>>>>>>>Oracle同步Hive数据库-执行成功！" 
elseecho ">>>>>>>>>>>>>Oracle同步Hive数据库-执行失败！"
fi

命令相关属性说明：

--connect：连接Oracle数据库的URL，例如jdbc:oracle:thin:@219.216.110.120:1521:orcl。
--username：连接Oracle数据库的用户名，例如TEST1。
--password：连接Oracle数据库的密码，例如test1。
--table：要导入的Oracle表名，例如TEST1。
--hive-table：在Hive中要创建或覆盖的表名，例如test1_test1。
--fields-terminated-by：指定字段分隔符，例如'\t'（制表符）。
--hive-import：启用Hive导入。
--hive-overwrite：在导入数据时覆盖已存在的Hive表。
--null-string：指定空值对应的字符串，例如'NULL'。
--null-non-string：指定非空值对应的字符串，例如'NULL'。

三，执行脚本命令

我这里是使用的azkaban做的任务执行，也可以根据自己所需，sh xxx.sh执行脚本，如图：

任务执行完成，发现数据有乱码：

分区时间是这样取值的：

在服务器单独执行命令，发现是文件生成的时候乱码的：

四、问题修改

然后，检查命令没问题后，发现我使用的文本编辑器 NotePad++ 在编写命令时，

是在Windows(CR LF) 模式下的，转换为 Unix(LF) ，如图：

然后，重新执行脚本，数据就恢复正常了

五、Sqoop常用命令

导入数据：

sqoop import --connect jdbc:mysql://localhost:3306/test --username root --password root --table users --target-dir /user/hadoop/data

导出数据：

sqoop export --connect jdbc:mysql://localhost:3306/test --username root --password root --table users --export-dir /user/hadoop/data

查询Job列表：

sqoop job --list

查询Job详细信息：

sqoop job --show jobname

执行Job

sqoop job --exec jobname

删除Job

sqoop job --delete jobname

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/149220.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

使用Sqoop命令从Oracle同步数据到Hive，修复数据乱码 %0A的问题

相关文章

C语言基础篇4：变量、存储、库函数

应用软件安全编程--21避免使用不安全的哈希算法

Docker部署MinIO对象存储服务器结合Cpolar实现远程访问

YB506AB是一款理电池充、放电管理专用芯片，集成锂电池充电管理和降压DC-DC电路。

【shell】 1、bash语法超详细介绍

数据存储模型

Nodejs--Express框架使用

Pytest自动化测试框架：mark用法---测试用例分组执行

辅助笔记-Jupyter Notebook的安装和使用

在Oracle 11g 数据库上设置透明数据加密（TDE）

学习教授LLM逻辑推理11.19

设置pdb自动启动

LeetCode 面试题 16.25. LRU 缓存

音频录制实现绘制频谱

国外客户发开发信怎么发？写外贸邮件方法？

python3:split()分割字符串为字符/字符串列表 2023-11-20

2023大厂高频面试题之CSS篇(2)

金融市场数据至上：QuestDB 为您的数据提供最优解 | 开源日报 No.81

MR素数测试及 pycryptodome库下已知MR伪素数以及强伪证生成指定伪随机数生成器绕过素性检测

Leetcode—3.无重复字符的最长子串【中等】