imp命令导入指定表_Sqoop 使用shell命令的各种参数的配置及使用方法

点击上方蓝色字体,选择“设为星标

回复”资源“获取更多资源

3e518efcf46beb7231cfc2dd4565a3a6.png

本文作者:Sheep Sun本文链接:https://www.cnblogs.com/yangxusun9/p/12558683.html

ec8966907bce936488e80770507fd187.png

大数据技术与架构点击右侧关注,大数据开发领域最强公众号!04d04c9d06f6dda1b24c0d240c05afd6.png

e051dc473ebddcd23aefe37ca2ef5795.png

暴走大数据点击右侧关注,暴走大数据!053968b83a866816579838e7e984e5be.png一、Sqoop简介Sqoop将用户编写的Sqoop命令翻译为MR程序,MR程序读取关系型数据库中的数据,写入到HDFS或读取HDFS上的数据,写入到关系型数据库!在MR程序中如果要读取关系型数据库中的数据,必须指定输入格式为DBInputformat!在MR程序中如果要向关系型数据库写入数据,必须指定输出格式为DBOutputformat!Sqoop命令运行的MR程序,只有Map阶段,没有Reduce阶段!只需要做数据传输,不需要对数据进行合并和排序!二、sqoop导入数据(将关系型数据库的数据导入到 HDFS)数据如下1503cabdff0fb6506fd519d6b8943135.png2.1 直接导入HDFS

2.1.1 全表导入(部分导入)

bin/sqoop import \##连接的关系型数据库的url,用户名,密码--connect jdbc:mysql://hadoop102:3306/test \--username root \--password 123 \##连接的表--table t_emp \##导出数据在hdfs上存放路径--target-dir /sqoopTest \##如果路径已存在则先删除--delete-target-dir \##导入到Hdfs上后,每个字段使用什么参数进行分割--fields-terminated-by "\t" \##要启动几个MapTask,默认4个--num-mappers 2 \##数据集根据哪个字段进行切分,切分后每个MapTask负责一部分--split-by id \##要实现部分导入,加入下面的参数,表示导入哪些列##columns中如果涉及到多列,用逗号分隔,分隔时不要添加空格--columns id,name,age

2.1.2 使用sqoop关键字筛选查询导入数据

bin/sqoop import \--connect jdbc:mysql://hadoop102:3306/test \--username root \--password 123 \--table t_emp \##指定过滤的where语句,where语句最好使用引号包裹--where 'id>6' \--target-dir /sqoopTest \--delete-target-dir \--fields-terminated-by "\t" \--num-mappers 1 \--split-by id 

2.1.3 使用查询语句导入

bin/sqoop import \--connect jdbc:mysql://hadoop102:3306/test \--username root \--password 123 \##查询语句最好使用单引号##如果query后使用的是双引号,则$CONDITIONS前必须加转移符,防止shell识别为自己的变量--query 'select * from t_emp where id>3 and $CONDITIONS' \--target-dir /sqoopTest \--delete-target-dir \--fields-terminated-by "\t" \--num-mappers 1 \--split-by id 
注意:1、如果使用了--query,就不能指定--table,和--columns和--where  --query 和 --table一定不能同时存在!  --where和--query同时存在时,--where失效  --columns和--query同时存在时,还有效!2、--query 必须跟--target-dir2.2 导入到Hive
bin/sqoop import \--connect jdbc:mysql://hadoop102:3306/test \--username root \--password 123 \--query 'select * from t_emp where id>3 and $CONDITIONS' \--target-dir /sqoopTest \##如果不限定分隔符,那么hive存储的数据将不带分隔符,之后再想操作很麻烦,所以建议加上--fields-terminated-by "\t" \--delete-target-dir \##导入到hive--hive-import \##是否覆盖写,不加这个参数就是追加写--hive-overwrite \##指定要导入的hive的表名--hive-table t_emp \--num-mappers 1 \--split-by id
原理还是分俩步:先把数据从关系数据库里导到hdfs中,然后再从hdfs中导到hive中,此时hdfs中的文件会被删除注意:如果hive中没表会自动创建表,但是类型是自动生成的,所以还是建议手动创建 也可以分俩步走:先导入hdfs
#!/bin/bashimport_data(){$sqoop import \--connect jdbc:mysql://hadoop102:3306/gmall \--username root \--password 123 \--target-dir /origin_data/gmall/db/$1/$do_date \--delete-target-dir \--query "$2 and  \$CONDITIONS" \--num-mappers 1 \--fields-terminated-by '\t' \# 使用压缩,和指定压缩格式为lzop--compress \--compression-codec lzop \#将String类型和非String类型的空值替换为\N,方便Hive读取--null-string '\\N' \--null-non-string '\\N'}
然后利用  load data  命令导入hive注意:这里使用到了空值处理 ——Hive中的Null在底层是以“\N”来存储,而MySQL中的Null在底层就是Null,为了保证数据两端的一致性。在导出数据时采用--input-null-string和--input-null-non-string两个参数。导入数据时采用--null-string和--null-non-string。2.3 导入到 Hbase
bin/sqoop import \--connect jdbc:mysql://hadoop102:3306/test \--username root \--password 123 \--query 'select * from t_emp where id>3 and $CONDITIONS' \--target-dir /sqoopTest \--delete-target-dir \##表不存在是否创建--hbase-create-table \##hbase中的表名--hbase-table "t_emp" \##将导入数据的哪一列作为rowkey--hbase-row-key "id" \##导入的列族--column-family "info" \--num-mappers 2 \--split-by id
1、当选用自动创建表时,如果版本不兼容会报错:20/03/24 13:51:24 INFO mapreduce.HBaseImportJob: Creating missing HBase table t_emp
Exception in thread "main" java.lang.NoSuchMethodError: org.apache.hadoop.hbase.HTableDescriptor.addFamily(Lorg/apache/hadoop/hbase/HColumnDescriptor;)V1c73122ad2ebf7d4f491b2df746b1917.png 此时只能自己手动创建或者可以重新编译sqoop源码2、如果要多列族导入,只能多次运行命令,一次导入一个列族三、导出将Hdfs上的数据导出到关系型数据库中3.1 SQL中表为空表时
bin/sqoop export \--connect 'jdbc:mysql://hadoop102:3306/test?useUnicode=true&characterEncoding=utf-8' \--username root \--password 123 \##导出的表名,需要自己提前创建好--table t_emp2 \--num-mappers 1 \##hdfs上导出的数据的路径--export-dir /user/hive/warehouse/t_emp \##hdfs上数据的分隔符--input-fields-terminated-by "\t"
3.2 表不为空表时如果插入的数据的主键和表中已有数据的主键冲突,那么会报错Duplicate entry '5' for key 'PRIMARY'如果在SQL下,可以使用
INSERT INTO t_emp2 VALUE(5,'jack',30,3,1111) ON DUPLICATE KEY UPDATE NAME=VALUES(NAME),deptid=VALUES(deptid),empno=VALUES(empno);
意为指定当插入时,主键重复时时,对于重复的记录,只做更新,不做插入!而用sqoop时,则可以启用以下俩种模式

3.2.1updateonly模式

bin/sqoop export \--connect 'jdbc:mysql://hadoop103:3306/mydb?useUnicode=true&characterEncoding=utf-8' \--username root \--password 123456 \--table t_emp2 \--num-mappers 1 \--export-dir /hive/t_emp \--input-fields-terminated-by "\t" \--update-key id
利用 --update-key 字段  ,表示主键重复时会进行更新,但是主键不重复的时候,数据不会插入进来

3.2.2allowinsert模式

bin/sqoop export \--connect 'jdbc:mysql://hadoop103:3306/mydb?useUnicode=true&characterEncoding=utf-8' \--username root \--password 123456 \--table t_emp2 \--num-mappers 1 \--export-dir /hive/t_emp \--input-fields-terminated-by "\t" \--update-key id \--update-mode  allowinsert
表示主键重复时会进行更新,主键不重复的时候,数据也会插入进来3.3 如何查看导出命令的具体实现

3.3.1配置/etc/my.cnf

bin/sqoop export \--connect 'jdbc:mysql://hadoop103:3306/mydb?useUnicode=true&characterEncoding=utf-8' \--username root \--password 123456 \--table t_emp2 \--num-mappers 1 \--export-dir /hive/t_emp \--input-fields-terminated-by "\t" \--update-key id \--update-mode  allowinsert

3.3.2重启mysql服务

3.3.3进入/var/lib/mysql,调用方法

sudo mysqlbinlog mysql-bin.000001
欢迎点赞+收藏+转发朋友圈素质三连

f64478d89930cbe0a12cc15635f2d30a.png

文章不错?点个【在看】吧! ?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/393795.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ik分词和jieba分词哪个好_Pubseg:一种单双字串的BiLSTM中文分词工具

中文分词是中文自然语言处理中的重要的步骤,有一个更高精度的中文分词模型会显著提升文档分类、情感预测、社交媒体处理等任务的效果[1]。Pubseg是基于BiLSTM中文分词工具,基于ICWS2005PKU语料训练集训练而成,其优点在于在ICWS2005-PKU语料下…

小白做淘客店铺新玩法

微信淘客在朋友圈刷了将近两个月。有些大咖赚得盆满钵满,有些小白交了不少学费。有人日入几千几万,也有入不敷出。在此咖妹并没有褒贬之意,只是提醒大家,不光淘客如此,其他项目亦是如此,别人能做成功的项目…

python sum函数numpy_如何用numba加速python?

我把写好的markdown导入进来,但是没想到知乎的排版如此感人。如果对知乎排版不满想要看高清清爽版,请移步微信公众号原文 如何用numba加速python?同时欢迎关注前言说道现在最流行的语言,就不得不提python。可是python虽然容易上手…

[ZJOI2019]麻将

Luogu5279 , LOJ3042题意&#xff1a;给出初始13张手牌&#xff0c;求理论可以和牌的最小轮数的期望&#xff0e;定义和牌为&#xff1a;4句话1对乱将&#xff0c;不能有杠&#xff1b;七对 原始题解-shadowice 写得很好的题解 首先分析期望&#xff1a;\(<--\)所有和牌的步…

采样次数不同平均值不一样_不同的真石漆装饰效果也是不一样的

外墙真石漆真的是一件很好的产品&#xff0c;具有防火性、防水性、安全且环保、粘力强、永不褪色等特点&#xff0c;无疑是人们较好的选择&#xff0c;在很早之前就已经逐渐的取代了瓷砖和其他石材在人们心中的位置。真石漆的品种不止一种&#xff0c;按照装饰效果我们可以分为…

android项目方法数超过65536的解决办法

2019独角兽企业重金招聘Python工程师标准>>> 当项目的总方法数超过65536个&#xff0c;运行在手机上&#xff0c;指不定会报找不到哪个文件的错。 我把项目的PullRefresh框架切换为SmartRefresh框架出现了方法数超过65536。 此文只是做一下笔记&#xff0c;不多做解…

python快乐数字怎么表达_Python经典面试题:这些面试题你会了吗?

前言什么&#xff1f;你要去找工作&#xff1f;先别急着找工作&#xff0c;先把下面的python面试题先给看了吧&#xff0c;不然你就只是去面试而不是找工作。话说不打没准备的仗&#xff0c;下面这些基本的面试题都不会你怎么可能找到工作呢&#xff1f;还是先把下面的东西1、P…

【swift学习笔记】三.使用xib自定义UITableViewCell

使用xib自定义tableviewCell看一下效果图 1.自定义列 新建一个xib文件 carTblCell&#xff0c;拖放一个UITableViewCell,再拖放一个图片和一个文本框到tableviewcell上 并给我们的xib一个标识 为了学习&#xff0c;我这里的xib和后台的class是分开建的。我们再建一个cocoa touc…

命令模式(Command Pattern)

1命令模式是一个高内聚的模式。定义如下&#xff1a;将一个请求封装成一个对象&#xff0c;从而让你使用不同的请求把客户端参数化&#xff0c;对请求排队或者记录请求日志&#xff0c;可以提供命令的撤销和恢复功能。 2.角色说明&#xff1a; ● Receive接收者角色 该角色就…

graphpad7.04多组比较p值_同是折线图为何你却这么优秀,这才是多组数据作图应该有的样子...

相信大家对Excel做折线图应该不陌生&#xff0c;在展示数据的时候&#xff0c;图表是一种最好的展示方法。但是经常会碰到一种尴尬的事情就是&#xff0c;当数据维多比较多的时候&#xff0c;做出的图表就会显得非常难看。今天我们就来学习一下&#xff0c;多组数据怎么做折线图…

linux 运行 chom,Hadoop安装-单节点/伪分布(2.7.3)

1&#xff0c;下载Hadoop目前在Ubuntu的软件库里面 没有发现Hadoop的压缩包&#xff0c;没猜错Hadoop不是可执行文件 只是一个压缩包吧&#xff01;所以我们只能自己到官网下载(http://hadoop.apache.org/releases.html)&#xff1b;在Apache社区中&#xff0c;下载软件的时候…

app之---豆果美食

1.抓包 2.代码 抓取&#xff1a; #!/usr/bin/env python # -*- coding: utf-8 -*- #author tom import requests from multiprocessing import Queue from handle_pymongo import mongo from concurrent.futures import ThreadPoolExecutorclass Douguo():def __init__(self):s…

语言坐标度分秒的换算_测量位置度说明

测量位置度说明位置度是限制被测要素的实际位置对理想位置变动量的指标。它的定位尺寸为理论正确尺寸。位置度公差在评定实际要素位置的正确性, 是依据图样上给定的理想位置。位置度包括点的位置度、线的位置度和面的位置度。[1] 点的位置度:如公差带前加S&#xffe0;&#xf…

OpenStack创建win7实例遇到的问题(尚未解决,求帮助)

原地址在这里&#xff1a;&#xff08;作者也是我&#xff0c;害羞&#xff09;http://www.aboutyun.com/forum.php?modviewthread&tid22898 小白经过两天尝试&#xff0c;用fuel部署好了OpenStack的云平台&#xff0c;接下来想在Compute节点上创建一个win7 实例&#xff…

VMware使两台windows虚拟机能够互相ping通

如果以下内容测试无效&#xff0c;可参考另一篇&#xff1a;VMware虚拟机配置内网电脑能访问 1.关闭防火墙 cmd命令行里输入&#xff1a;netsh firewall set opmode disable 2.测试如果还不能ping通&#xff0c;就把网络类型选nat类型 3.测试&#xff1a;vmware网关默认是.2 转…

linux账号前有个base,安装 aconda 后Linux的终端界面前部出现(base)字样

aconda 是做什么用的这里就不说了&#xff0c;一般玩Python的都知道这东西&#xff0c;最早接触这东西是因为它把NVIDIA中cuda计算和Python互连的一个库拿下了&#xff0c;是买下来了还是专业&#xff0c;还是唯一合作的也就记不清了&#xff0c;那就是 numba , 那些年头Python…

Spring 学习教程(一): 认识 Spring 框架

Spring 框架是 Java 应用最广的框架&#xff0c;它的成功来源于理念&#xff0c;而不是技术本身&#xff0c;它的理念包括 IoC (Inversion of Control&#xff0c;控制反转) 和 AOP(Aspect Oriented Programming&#xff0c;面向切面编程)。 Spring 的框架结构 Data Access/Int…

小米网关控制空调伴侣_小米有品上架移动空调,支持语音控制

近日小米有品商城上架了一款互联网可移动空调&#xff0c;机身仅有小米空气净化器一般大小&#xff0c;底部安装了万向轮&#xff0c;支持多方位自由移动&#xff0c;拥有三大功能&#xff0c;兼顾去暑除湿能力&#xff0c;产品售价1599元&#xff0c;有需求的用户可以在小米有…

转载 JDK + Android-SDK + Python + MonkeyRunner 的安装

转载来自&#xff1a; 小海豚的博客 http://blog.sina.com.cn/u/1295334083 我只是搬运工。。。 JDK Android-SDK Python MonkeyRunner 的安装 1. Android-SDK介绍2. 安装 JDK, Android-SDK&#xff08;包含MonkeyRunner) , Python 3. 设置环境变量4. 验证是否安装成功1. …

模块怎么用_Android 组件化/模块化 的理解!

作者&#xff1a;前行的乌龟到现在组件化真的不是什么新鲜东西了&#xff0c;大公司都用的滚瓜烂熟&#xff0c;龙飞凤舞了&#xff0c;也就是现在部分中型项目和小项目在组件化的路上努力。所以同志们&#xff0c;组件化没玩过的&#xff0c;不熟悉的赶紧搞起来&#xff0c;说…