sqoop动态分区导入mysql,使用sqoop import从mysql往hive含分区表中导入数据的一些注意事项...

sqoop动态分区导入mysql,使用sqoop import从mysql往hive含分区表中导入数据的一些注意事项...

news/2025/4/21 6:12:09/文章来源:https://blog.csdn.net/weixin_33304613/article/details/116214662

先看下面这条语句，它实现的功能是将特定日期的数据从mysql表中直接导入hive

$ sqoop import \

--connect jdbc:mysql://192.168.xx.xx:3306/db_name?useSSL=false \

--username xxx --password xxxxxx \

--query "select d.id, d.callsign, d.sobt from t_flight_baseinfo d where d.id is not null and d.sobt >= '2020-12-27' and \$CONDITIONS" \

--target-dir /user/hive/warehouse/datapros.db/t_flight_baseinfo/dt=2020-12-27 \

--delete-target-dir --fields-terminated-by '\t' --split-by d.id \

--hive-import --hive-overwrite --m 2 --direct \

--hive-database datapros --hive-table t_flight_baseinfo \

--hive-partition-key dt --hive-partition-value 2020-12-27

以下对命令中的参数作简单说明：

--connect /--username / --password

很明显，这是mysql数据库的连接字符串

--query

这是选取数据的查询语句。这里需要注意的是：

每条查询语句必须要添加where条件；

末尾还要加上'$CONDITIONS'这个占位符；

当使用双引号包裹住这个查询语句时，'$CONDITIONS'前要加上转义符变为'\$CONDITIONS'，而如果使用单引号来包裹，就不用加转义符！

--target-dir

mysql数据导入HDFS后的目标路径(也即hive表的“数据文件”地址)

--delete-target-dir

导入前是否先删除target-dir中定义的目录(如果存在的话)

说明：这个参数比较重要！一般情况下，同一条导入语句，第一次执行时，要不要这个参数没有关系，但如果是多次执行同一条导入语句，而又没有提前手工删除目标目录时，就出出现“Output directory hdfs://hadoop:9820/somepath/${target_dir} already exists”，因此，这个参数一定要加上

--direct

使用直接导入模式，可以提高导入速度

--m 2

指定并行执行导入数据任务的map进程个数

--hive-database / --hive-table t_flight_baseinfo

指定导入到hive中的目标数据库与数据表名称

--hive-partition-key / --hive-partition-value

指定hive数据表的分区信息

--hive-overwrite

指定hive中的目标表可以被多次覆盖写入

--hive-import / --create-hive-table

1、create-hive-table：在hive中创建目标表(不管它是不是已经存在)，如果目标表已经存在，就会给出“AlreadyExistsException(message:Table XXX already exists”出错信息；

2、hive-import ： hive-import在执行时，会自动生成一个建表的sql语句，当hive中不存在表时，它即自动创建目标表与存储目录，然后再导入数据；

mysql往hive带分区表中导入实践

1、在实践中发现，当需要创建带分区的表时，如果使用--create-hive-table参数，则每次都会提示表已存在错误(这个表确实是存在)；不过，这个错误提示不影响命令的正确执行；

2、但是，如果不带上这个参数，如果之前这个分区已存在，则会出现在hive表中能查到这个分区，但是它实际的存储目录已经被删除(delete-target-dir参数的效果)， hive-import会认为此分区已存在，就停止从mysql中往hdfs中导入数据，最后提示导入的数据numFiles=0，相当于分区表被清空；

3、如果不想每次都看到表已存在的错误提示，可以在执行导入命令之前，先执行一下 hive -e "alter table db_name.tb_name drop partition(partition_key='partition_value');"),先删除这个分区，这样hive-import就会创建hive表分区与重建存储目录。当然，这时候就不用加--create-hive-table参数了。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/393925.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

leetcode面试题 08.04. 幂集（递归）

leetcode面试题 08.04. 幂集（递归）

幂集。编写一种方法，返回某集合的所有子集。集合中不包含重复的元素。说明：解集不能包含重复的子集。示例: 输入： nums [1,2,3] 输出： [ [3], [1], [2], [1,2,3], [1,3], [2,3], [1,2], [] ] 代码 class Solution {List&l…

阅读更多...

gatsby_我如何使用Gatsby和Netlify建立博客

gatsby_我如何使用Gatsby和Netlify建立博客

gatsbyby Pav Sidhu通过帕夫西杜(Pav Sidhu) 我如何使用Gatsby和Netlify建立博客 (How I Built My Blog Using Gatsby and Netlify) 您能说出更具标志性的二人组合吗？ ？ (Can you name a more iconic duo? ?) Years ago, whenever I built a stat…

阅读更多...

交叉熵与相对熵

交叉熵与相对熵

熵的本质是香农信息量()的期望。现有关于样本集的2个概率分布p和q，其中p为真实分布，q非真实分布。按照真实分布p来衡量识别一个样本的所需要的编码长度的期望(即平均编码长度)为：H(p)。如果使用错误分布q来表示来自真实分布p的平均编码长度…

阅读更多...

menustrip

menustrip

在对应菜单上点击鼠标右键，插入，SEPARATOR 就可以了，然后可以选中拖动位置。转载于:https://www.cnblogs.com/Echo529/p/6382302.html

阅读更多...

直接排序

直接排序

题目：使用直接排序法将下列数组（从小到大排序）思路：第一次：使用索引值为0的元素与其他位置的元素挨个比较一次，如果发现比0号索引值的元素小的，那么交换位置，第一轮下来最小值被放在…

阅读更多...

leetcode78. 子集（回溯）

leetcode78. 子集（回溯）

给定一组不含重复元素的整数数组 nums，返回该数组所有可能的子集（幂集）。说明：解集不能包含重复的子集。示例: 输入: nums [1,2,3] 输出: [ [3], [1], [2], [1,2,3], [1,3], [2,3], [1,2], [] ] 代码 class Solution {pub…

阅读更多...

php字符串综合作业,0418php字符串的操作

php字符串综合作业,0418php字符串的操作

实例字符串函数(一):长度计算$siteName php中文网;//获取内部字符编码集$encoding mb_internal_encoding();//1、strlen($str):获取字节表示的字符串长度//utf8模式下，一个中文字符用三个字节表示echo strlen($siteName),; //12//2、mb_strlen($str,$encoding)&…

阅读更多...

如何处理JavaScript中的事件处理（示例和全部）

如何处理JavaScript中的事件处理（示例和全部）

In this blog, I will try to make clear the fundamentals of the event handling mechanism in JavaScript, without the help of any external library like Jquery/React/Vue.在此博客中，我将尝试在没有任何外部库(例如Jquery / React / Vue)的帮助下阐明JavaSc…

阅读更多...

js 图片预览

js 图片预览

//显示选择的图片缩略图function showImage(inputId,imageConfirmId,imageConfi){var imagedocument.getElementById(inputId).value.toLowerCase();if(!image){return;}var fileExtendimage.substr(image.lastIndexOf(".", image.length)1);if(!(fileExtend"jp…

阅读更多...

什么是copyonwrite容器

什么是copyonwrite容器

2019独角兽企业重金招聘Python工程师标准>>> CopyOnWrite容器即写时复制的容器。通俗的理解是当往一个容器添加元素的时候，不直接往当前容器添加，而是先将当前容器进行Copy，复制出一个新的容器，然后新的容器里添加元素…

阅读更多...

hystrix 源码线程池隔离_Hystrix源码学习--线程池隔离

hystrix 源码线程池隔离_Hystrix源码学习--线程池隔离

分析你的系统你所认识的分布式系统，哪些是可以进行垂直拆分的？拆分之后系统之间的依赖如何梳理？系统异构之后的稳定性调用如何保证？这些都是可能在分布式场景中面临的问题。说个比较常见的问题，大家都知道秒杀系统&…

阅读更多...

P2341 [HAOI2006]受欢迎的牛强连通

P2341 [HAOI2006]受欢迎的牛强连通

题目背景本题测试数据已修复。题目描述每头奶牛都梦想成为牛棚里的明星。被所有奶牛喜欢的奶牛就是一头明星奶牛。所有奶牛都是自恋狂，每头奶牛总是喜欢自己的。奶牛之间的“喜欢”是可以传递的——如果A喜欢B，B喜欢C，那么A也喜欢C。牛栏…

阅读更多...

oracle em agent,ORACLE 11G EM 配置命令及问题处理

oracle em agent,ORACLE 11G EM 配置命令及问题处理

11g装好以后，一直未用EM,昨天晚上和今天晚上终于抽时间把EM启动起来了，还遇到一点小问题，1.EM配置的一些命令创建一个EM资料库emca -repos create重建一个EM资料库emca -reposrecreate--------这个很主要，一般第一次不成功创建的时…

阅读更多...

leetcode89. 格雷编码

leetcode89. 格雷编码

格雷编码是一个二进制数字系统，在该系统中，两个连续的数值仅有一个位数的差异。给定一个代表编码总位数的非负整数 n，打印其格雷编码序列。即使有多个不同答案，你也只需要返回其中一种。格雷编码序列必须以 0 开头。示例 1:…

阅读更多...

注重代码效率_如何提升质量：注重态度

注重代码效率_如何提升质量：注重态度

注重代码效率by Harshdeep S Jawanda通过Harshdeep S Jawanda 如何提升质量：注重态度 (How to skyrocket quality: focus on attitude) When it comes to discussing quality and how we can improve, the most common things that come to peoples minds are test…

阅读更多...

spark mllib推荐算法使用

spark mllib推荐算法使用

2019独角兽企业重金招聘Python工程师标准>>> 一、pom.xml <dependency><groupId>org.apache.spark</groupId><artifactId>spark-mllib_2.10</artifactId><version>${spark.version}</version>&…

阅读更多...

Android仿QQ复制昵称效果2

Android仿QQ复制昵称效果2

本文同步自http://javaexception.com/archives/77 背景: 在上一篇文章中，给出了一种复制QQ效果的方案，今天就来讲讲换一种方式实现。主要依赖的是一个开源项目https://github.com/shangmingchao/PopupList。解决办法: PopupList.java的代码封装的比较完…

阅读更多...

R语言的自定义函数—字符组合

R语言的自定义函数—字符组合

前两天写了几个函数，对里面收获到的一些东西做一些记录。函数str_comb，用于输入一个字符串或数值向量，返回由向量中元素组成的不重复的长度小于向量长度的所有组合，结果用矩阵形式输出。函数使用结果如下： 思路很简单…

阅读更多...

oracle group by 两项,Oracle中group by 的扩展函数rollup、cube、grouping sets

oracle group by 两项,Oracle中group by 的扩展函数rollup、cube、grouping sets

Oracle的group by除了基本使用方法以外，还有3种扩展使用方法，各自是rollup、cube、grouping sets。分别介绍例如以下：1、rollup对数据库表emp。如果当中两个字段名为a，b,c。假设使用group by rollup(a,b)，首先会对(a,b…

阅读更多...

leetcode1079. 活字印刷（回溯）

leetcode1079. 活字印刷（回溯）

你有一套活字字模 tiles，其中每个字模上都刻有一个字母 tiles[i]。返回你可以印出的非空字母序列的数目。注意：本题中，每个活字字模只能使用一次。示例 1： 输入：“AAB” 输出：8 解释：可能的…

阅读更多...

最新文章