sqoop 导入到hive字段全是null

sqoop 导入到hive字段全是null_Sqoop 一点通

sqoop 是什么？

sqoop 主要用于异构数据：

1. 将数据从hadoop，hive 导入、导出到关系型数据库mysql 等;

2. 将关系型数据库 mysql 中数据导入、导出到 hadoop 、hve 。

sqoop 版本说明

sqoop 1 版本主要从1.4.0 到 1.4.7；sqoop 2 版本主要从1.99.1 到1.99.7。

sqoop1 和 sqoop2 的主要区别

sqoop2 对 sqoop 1 主要在性能、安全方面做了优化升级，并新增了服务端，sqoop2 可以通过编程 rest api 的方式进行数据同步，不过目前 sqoop 2 没有实现将 mysql 数据直接导入到 hive，可以用 sqoop 1 版本通过 shell 客户端脚本方式实现 mysql 同步 hive 功能。

sqoop 基本原理

sqoop 1 主要通过 hadoop 的分布式计算 mapreduce 任务进行数据的同步。

(sqoop1 架构)

(sqoop 2 架构)

sqoop 命令

将 mysql 中数据导入到 hive 为例，包括全量、增量导入：

$ sqoop import

--connect jdbc:mysql://ip:3306/db 数据库连接串

--username root 用户名

--password root 密码

--split-by id 执行并行分批字段，一般主健，配合 -m 使用

-m 2 mapper 数

--fields-terminated-by "" 导出字段分隔符，此次为制表符为分隔符

--lines-terminated-by "" 换行符

--hive-import

--create-hive-table 创建 hive 表，如果目标表已经存在了，那么创建任务会失败

--hive-table pas_med_info hive 表名

--null-string 'N' 将mysql 中的NULL数据转换为hive 的 NULL

--target-dir /apps/hive/warehouse/db/dt='日期' hive 在 hdfs 存储路径，dt='日期' 可以分区导入，当写成脚本时可以将日期做为变量，每天定时同步导入。

-- query where [可选] 增量导入方式一，推荐使用，直接可以用shell 脚本定时跑数据，方便简单

--incremental append或lastmodify [可选] 增量导入方式二，操作一

--append [可选] 如果选择lastmodify 则需要添加此命令，配合操作一使用

–check-column createtime [可选] 用于检查增量数据的列，必须是 timestamp 列，配合操作一使用

Sqoop2 代码示例

以 java 语言，将 mysql 中数据导入到 hdfs 为例：

1. 添加依赖

org.apache.sqoop    sqoop-client    1.99.7

2. 创建 sqoop 客户端

String url = "http://ip:12000/sqoop/";SqoopClient client = new SqoopClient(url);client.setServerUrl(url);

3. 创建 mysql link

4. 创建 hdfs link

5. 创建 job 并提交同步数据任务

限于篇幅，就不大量贴代码了，请关注公众号，私信我，我会将完整实例发你。

请关注公众号：媛道，sqoop

或长按二维码，识别关注

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/349427.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

sqoop 导入到hive字段全是null_Sqoop 一点通

相关文章

php使用pdo操作mysql数据库实例_php使用PDO操作MySQL数据库实例_PHP

雅虎yql_从RSS Feed和YQL创建数据表

python入门之函数调用第二关_Python基础语法学习笔记之风变第九关函数

流与装饰器

流线动态图python_Node.js Stream(流)

gacutil不是内部或外部命令_Win7命令提示符输入taskkill提示不是内部或外部命令...

mysql两台服务器怎么做数据同步_两台mysql服务器实现双机互备配置并测试数据同步...

excel 复制数据 sql server 粘贴_win32 实现 excel 快速复制粘贴

什么是JAX-RS注释？

oracle 查询过去一个星期的数据_过去一星期，最懂我的居然是一个表情包

mysql的count报错_Mysql报错注入原理分析(count()、rand()、group by)

1.0jpa 2.0_EasyCriteria 2.0 – JPA标准应该很容易

python 从入门到实践_Python编程从入门到实践日记Day15

mysql创建文章表_创建表--文章表article

什么是JavaServer Faces（JSF）

python地图散点图_在地图上叠加散点图（img）

mysql创建表时添加范式_MySql三大范式与数据库设计和表创建常用语句

asp listview 单元格文字颜色_如何替换CAD表格中特定区域单元格中的文字？

jvm 方法内联_方法内联在JVM中有多积极？

php ssh 连接mysql_通过PHP中的SSH连接到MySQL服务器?mysql-问答-阿里云开发者社区-阿里云...