sqoop 导入到hive字段全是null_Sqoop 一点通

sqoop 是什么?

sqoop 主要用于异构数据:

1. 将数据从hadoop,hive 导入、导出到关系型数据库mysql 等;

2. 将关系型数据库 mysql 中数据导入、导出到 hadoop 、hve 。

sqoop 版本说明

sqoop 1 版本主要从1.4.0 到 1.4.7;sqoop 2 版本主要从1.99.1 到1.99.7。

sqoop1 和 sqoop2 的主要区别

sqoop2 对 sqoop 1 主要在性能、安全方面做了优化升级,并新增了服务端,sqoop2 可以通过编程 rest api 的方式进行数据同步,不过目前 sqoop 2 没有实现将 mysql 数据直接导入到 hive,可以用 sqoop 1 版本通过 shell 客户端脚本方式实现 mysql 同步 hive 功能。

sqoop 基本原理

sqoop 1 主要通过 hadoop 的分布式计算 mapreduce 任务进行数据的同步。

8f7a78301eb54302b91c02c0294f15d6

(sqoop1 架构)

b4019d03e8874d17801ee8b658ab5c2c

(sqoop 2 架构)

sqoop 命令

将 mysql 中数据导入到 hive 为例,包括全量、增量导入:

$ sqoop import

--connect jdbc:mysql://ip:3306/db 数据库连接串

--username root 用户名

--password root 密码

--split-by id 执行并行分批字段,一般主健,配合 -m 使用

-m 2 mapper 数

--fields-terminated-by "" 导出字段分隔符,此次为制表符为分隔符

--lines-terminated-by "" 换行符

--hive-import

--create-hive-table 创建 hive 表,如果目标表已经存在了,那么创建任务会失败

--hive-table pas_med_info hive 表名

--null-string 'N' 将mysql 中的NULL数据转换为hive 的 NULL

--target-dir /apps/hive/warehouse/db/dt='日期' hive 在 hdfs 存储路径,dt='日期' 可以分区导入,当写成脚本时可以将日期做为变量,每天定时同步导入。

-- query where [可选] 增量导入方式一 ,推荐使用,直接可以用shell 脚本定时跑数据,方便简单

--incremental append或lastmodify [可选] 增量导入方式二,操作一

--append [可选] 如果选择lastmodify 则需要添加此命令,配合操作一使用

–check-column createtime [可选] 用于检查增量数据的列 ,必须是 timestamp 列,配合操作一使用

Sqoop2 代码示例

以 java 语言,将 mysql 中数据导入到 hdfs 为例:

1. 添加依赖

org.apache.sqoop    sqoop-client    1.99.7

2. 创建 sqoop 客户端

String url = "http://ip:12000/sqoop/";SqoopClient client = new SqoopClient(url);client.setServerUrl(url);

3. 创建 mysql link

4. 创建 hdfs link

5. 创建 job 并提交同步数据任务

限于篇幅,就不大量贴代码了,请关注公众号,私信我,我会将完整实例发你。

请关注公众号:媛道,sqoop

或长按二维码,识别关注

1b787e978bc343959adc2b10b5343349

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/349427.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

php使用pdo操作mysql数据库实例_php使用PDO操作MySQL数据库实例_PHP

本文实例讲述了php使用PDO操作MySQL数据库的方法。分享给大家供大家参考。具体分析如下:PDO是mysql数据库操作的一个公用类,我们不需要进行自定类就可以直接使用pdo来操作数据库,但是在php默认配置中pdo是未开启所以我们必须先在php.ini中开启它才可以使用,这里来详…

雅虎yql_从RSS Feed和YQL创建数据表

雅虎yqlYahoo Query Language( YQL )是一种查询语言,例如SQL。 使用YQL,我们可以跨Web服务 查询 , 过滤和联接数据。 YQL也可以阅读RSS feed。 响应可以是JSON或XML。 雅虎提供了一个YQL控制台,用于调试…

python入门之函数调用第二关_Python基础语法学习笔记之风变第九关函数

一、初识函数 1、函数的作用 2、函数的组成 函数(Function)能实现的功能从简单到复杂,各式各样,但其本质是相通的,我们可以看作成三个部分。 3、定义和调用函数 def math(x): y 3*x 5 return y 第1行:def…

流与装饰器

几年前, Streams API随lambda表达式一起在Java 8中引入。 作为一个熟练的Java专家,我尝试在我的一些项目中使用此新功能,例如here和here 。 我不是很喜欢它,然后又回到了好的老房子里。 此外,我创建了装饰库Cactoos来取…

流线动态图python_Node.js Stream(流)

Node.js Stream(流) Stream 是一个抽象接口,Node 中有很多对象实现了这个接口。例如,对http 服务器发起请求的request 对象就是一个 Stream,还有stdout(标准输出)。 Node.js,Stream 有四种流类型&#xff1…

gacutil不是内部或外部命令_Win7命令提示符输入taskkill提示不是内部或外部命令...

使用win7系统的用户,想在命令提示符下使用taskkill命令删掉进程的时候,却提示taskkill不是内部或外部命令,也不是可运行的程序,遇到这样的问题,这位用户不知道怎么解决。所以给大家带来了解决方法教程,希望…

mysql两台服务器怎么做数据同步_两台mysql服务器实现双机互备配置并测试数据同步...

对于实现两台机子的互备配置,本文作出了详细的介绍,之后的测试数据同步,在10.168.1.44服务器数据库里修改一条数据, 可以看到数据已经同步过来了。反过来,修改10.168.0.126的数据,也可以看到10.168.1.44数据…

excel 复制数据 sql server 粘贴_win32 实现 excel 快速复制粘贴

直接简明说:该方法可以直接将一张代码的区域内容直接 copy 到另一张表上,并且字体颜色、背景、格式都不变,另外还可以 copy 公式(相当于 excel 下拉公式)from win32com.client import Dispatchimport win32com.clientdef writeCol(filename):…

什么是JAX-RS注释?

JAX-RS概述(第1部分) JAX-RS API构成Java EE平台承诺提供标准驱动技术的重要组成部分。 互联网无处不在的性质以及对微服务体系结构的日益增长的兴趣已将更多的精力放在小型可扩展的自治服务及其互操作性上。 允许微服务彼此之间以及“外部世界”之间进行…

oracle 查询过去一个星期的数据_过去一星期,最懂我的居然是一个表情包

文/黄亚男编辑/大风微信表情包上新快一周了,除了各个聊天对话框、朋友圈,蔓延到了其它社交平台。小黄脸表情伴随着微信的诞生和升级,迄今在微信上已经四次更新。每一次几乎有一个出圈的表情:第一次是“笑哭”;第二次则…

mysql的count报错_Mysql报错注入原理分析(count()、rand()、group by)

报错需要count(*),rand()、group by,三者缺一不可前提:当行数大于等于3行时才会报错。原链接:https://www.cnblogs.com/xdans/p/5412468.html几个fool()原理解释:selectcount(*),floor(rand(0)*2) from test group by …

1.0jpa 2.0_EasyCriteria 2.0 – JPA标准应该很容易

1.0jpa 2.0在今天的帖子中,我们将看到名为EasyCriteria的框架的新版本。 在这篇文章的结尾,我们将在博客中看到这里的内容。 不幸的是,JPA标准存在一个巨大的问题,即冗长。 为什么不变得更容易? 像这样认为EasyCriteri…

python 从入门到实践_Python编程从入门到实践日记Day15

Python编程从入门到实践日记Day15第5章 字典(三)1.使用字典(三)—由类似对象组成的字典在前面的示例中,字典存储的是一个对象(游戏中的一个外星人)的多种信息,但你也可以使用字典来存储众多对象的同一种信息。例如,假设你要调查很多人&#x…

mysql创建文章表_创建表--文章表article

建MySQL数据表需要以下信息:表名表字段名定义每个表字段字段名 数据类型 数据属性数据属性:1. 无符号 unsigned(非负限定 ,即不能取负值) 取值范围 0–255;2. 主键索引 primary key(唯一,一张表推荐一个主键) ;3. 自增 auto_increment &…

什么是JavaServer Faces(JSF)

这是一个分为两部分的系列,其中我介绍了JSF 2及其如何适合Java EE生态系统。 在第1部分中,我将介绍JavaServer Pages(JSF)背后的基本思想 ,在第2部分中,将介绍Facelets声明语言 。 在构建Web应用程序时&a…

python地图散点图_在地图上叠加散点图(img)

好吧,这个问题是老问题,但我有一个不同的答案,可能会有人感兴趣。。。在 我一直在研究同一个问题。GitHub(https://github.com/ageron/handson-ml.git)上提供的代码可以满足您的需要(请参见02“端到端机器学…

mysql创建表时添加范式_MySql三大范式与数据库设计和表创建常用语句

【数据库设计的三大范式】1.第一范式(1NF First Normal Fromate):数据表中的每一列(字段),必须是不可拆分的最小单元。也就是确保每一列的原子性。例如: userInfo: ‘山东省烟台市 13181621008’> userAds:’山东省烟台市’tel:’13181621…

asp listview 单元格文字颜色_如何替换CAD表格中特定区域单元格中的文字?

下面是本公众号文章分类目录,点击标题文字可打开分类文章列表:安装卸载 异常、退出 文件及输入输出 基本操作技巧 各种设置及相关问题 界面和显示相关问题 快捷键 视图设置和调整 图层 颜色 线型 字体、文字样式和文字输入 标注、引线和标注…

jvm 方法内联_方法内联在JVM中有多积极?

jvm 方法内联在IntelliJ IDEA中使用Ctrl Alt M 提取方法 。 Ctrl Alt M。 这就像选择一段代码并按此组合一样简单。 Eclipse也有它 。 我讨厌冗长的方法。 对于我来说,闻起来太久了: public void processOnEndOfDay(Contract c) {if (DateUtils.add…

php ssh 连接mysql_通过PHP中的SSH连接到MySQL服务器?mysql-问答-阿里云开发者社区-阿里云...

SSH隧道解决方案 设置到MySQL数据库服务器的SSH隧道(最好是通过Jumpbox以获得安全性)。(A)GUI工具 根据您的要求,您可以使用具有内置SSH隧道支持的GUI MySQL客户端(例如SequelPro),使用Visual Studio代码 转发端口/创建SSH隧道或使用PuTTY设置端口转发。…