hadoop学习---sqoop学习记录

在本地数据库创建数据库表:

create database sqoop_test default character set utf8;
use sqoop_test;
CREATE TABLE `emp` (
`EMPNO` int(4) NOT NULL,
`ENAME` varchar(10),
`JOB` varchar(9),
`MGR` int(4),
`HIREDATE` date,
`SAL` int(7),
`COMM` int(7),
`DEPTNO` int(2),
PRIMARY KEY (`EMPNO`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;
INSERT INTO `emp` VALUES ('7369', 'SMITH', 'CLERK', '7902', '1980-12-17', '800', null, '20');
INSERT INTO `emp` VALUES ('7499', 'ALLEN', 'SALESMAN', '7698', '1981-02-20', '1600', '300', '30');
INSERT INTO `emp` VALUES ('7521', 'WARD', 'SALESMAN', '7698', '1981-02-22', '1250', '500', '30');
INSERT INTO `emp` VALUES ('7566', 'JONES', 'MANAGER', '7839', '1981-04-02', '2975', null, '20');
INSERT INTO `emp` VALUES ('7654', 'MARTIN', 'SALESMAN', '7698', '1981-09-28', '1250', '1400', '30');
INSERT INTO `emp` VALUES ('7698', 'BLAKE', 'MANAGER', '7839', '1981-05-01', '2850', null, '30');
INSERT INTO `emp` VALUES ('7782', 'CLARK', 'MANAGER', '7839', '1981-06-09', '2450', null, '10');
INSERT INTO `emp` VALUES ('7788', 'SCOTT', 'ANALYST', '7566', '1987-04-19', '3000', null, '20');
INSERT INTO `emp` VALUES ('7839', 'KING', 'PRESIDENT', null, '1981-11-17', '5000', null, '10');
INSERT INTO `emp` VALUES ('7844', 'TURNER', 'SALESMAN','7698', '1981-09-08', '1500', '0', '30');
INSERT INTO `emp` VALUES ('7876', 'ADAMS', 'CLERK', '7788', '1987-05-23', '1100', null, '20');
INSERT INTO `emp` VALUES ('7900', 'JAMES', 'CLERK', '7698', '1981-12-03', '950', null, '30');
INSERT INTO `emp` VALUES ('7902', 'FORD', 'ANALYST', '7566', '1981-12-03', '3000', null, '20');
INSERT INTO `emp` VALUES ('7934', 'MILLER', 'CLERK', '7782', '1982-01-23', '1300', null, '10');

命令:

MySQL--》HDFS

sqoop import --connect jdbc:mysql://192.168.88.101:3306/sqoop_test\--username root \
--password root \
--query 'select empno,mgr,job from emp where empno>7800 and $CONDITIONS' \
--target-dir /sqoopdata/emp --delete-target-dir -split-by empno -m 2

 1. 导出时,mysql中的表必须提前创建。
2. 导出时,字段之间的切分符号默认是逗号。如果hdfs上的文件不是逗号分隔符,需要使用--fields-terminated-by或--input-fields-terminated-by参数指定分隔符
3. 导出时,是按照hdfs上文件从左到右的顺序给mysql表的字段赋值
4. 导出时,mysql的表的字段数与hdfs上的列数可以不相同
5. 导出时,字段类型要一致
6. 带有主键约束的mysql表,要注意导出的数据的主键约束的情况,不能重复 
7. 使用--columns给mysql中的某些字段赋值时,没有包含在参数中的字段要么有默认值,要么不能设置not null
8. 在sqoop1.4.7中,hdfs上的字符串'null'是可以转成mysql中字符串类型字段的null值,
                  也可以转成mysql中非字符串类型字段的null值。

Sqoop导入原理:
Sqoop默认是并行的从数据库源导入数据。您可以使用-m或--num-mappers参数指定用于执行导入的map任务(并行进程)的数量。每个参数都取一个整数值,该整数值对应于要使用的并行度。默认情况下,使用四个任务。一些数据库可以通过将这个值增加到8或16来改善性能。


默认情况下,Sqoop将标识表中的主键id列用作拆分列。从数据库中检索分割列的高值和低值,map任务操作整个范围的大小均匀的组件。譬如ID的范围是0-800,那么Sqoop默认运行4个进程,通过执行ISELECTMIN(id),MAX(id) FROM emp找出id的范围,然后把4个任务的id设置范围是(0-200),(200-400)(400-600).(600-800)


但是当一个表没有主键时,上面的切分就无法进行,Sqoop导入时就会出错,这时候可以通过-m把mapper的数量设为1,只有一个Mapper在运行,这时候就不需要切分,也可以避免主键不存在时候报错的问题.或者还有个办法就是手工指定要拆分的列,通过--split-by来指定

 

 MySQL--》Hive

sqoop import --connect jdbc:mysql://node1:3306/sqoop_test \
--username root --password root \
--table emp \
--hive-import \
--hive-overwrite \
-- hive-table 'emp3' \
-- hive-database db2

HDFS--》MySQL

sqoop export --connect jdbc:mysql://192.168.88.101:3306/sqoop_test \
--username root \
--password root \
--table emp_1 \
--export-dir /sqoop/hdfs-emp/part-m-00000 \
--input-fields-terminated-by '\t'  \
--input-null-string '\\N' \
--input-null-non-string '0' -m 1
sqoop export \
--connect jdbc:mysql://192.168.88.101:3306/sqoop_test \
--username root \
--password root \
--table emp_4 \
--export-dir /test11.txt \
--input-fields-terminated-by ','  \
--input-null-string '\\N' \
--input-null-non-string '0' \
-m 1

在Sqoop中,直接使用通配符(如*)在--export-dir后面来指定多个文件进行导出是不被支持的。Sqoop期望一个确切的目录路径,它会自动处理该目录下的所有part文件(由MapReduce任务生成)。因此,如果你想从一个目录下导出所有文件到MySQL表,你应该只指定到目录层级,而不是尝试包含通配符。

不过,如果你确实需要从一个目录下包含多个文件的场景下导出数据,通常的做法是先用Hadoop的文件系统操作命令(如hadoop fs -cathadoop fs -getmerge)来合并这些文件成一个,然后再用Sqoop进行导出。但请注意,这样做的前提是这些文件的结构和内容必须是一致的,即它们应该都是同一份数据的切片或者是完全相同结构的数据。

一个简化的流程可以是:

  1. 合并HDFS目录下的文件: 可以使用Hadoop的getmerge工具将多个part文件合并成一个临时文件。例如:

    1hadoop fs -getmerge /sqoop/hdfs-emp/part-m-* /tmp/merged_emp_data.txt

    这里假设你的part文件名为part-m-00000, part-m-00001, 等等。

  2. 使用Sqoop导出合并后的文件: 然后你可以使用这个合并后的文件作为--export-dir的输入。

    1sqoop export \
    2  --connect jdbc:mysql://192.168.88.101:3306/sqoop_test \
    3  --username root \
    4  --password root \
    5  --table emp_1 \
    6  --export-dir file:///tmp/merged_emp_data.txt \
    7  --input-fields-terminated-by '\t' \
    8  --input-null-string '\\N' \
    9  --input-null-non-string '0' \
    10  -m 1

    注意这里--export-dir现在指向的是本地文件系统上的合并文件路径。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/7272.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一个简单的仓库出入库管理软件的流程是什么样的?有哪些功能?

身为仓库文员,我深知仓库管理对于公司运营的重要性。仓库是公司物资的中转站,其管理的好坏直接关系到公司的运营效率和成本控制。然而,传统的仓库管理方式往往存在着效率低下、易出错等问题,为了解决这些问题,我们需要…

iOS——SDWebImage源码学习

什么是SDWebImage SDWebImage是一个流行的iOS和macOS平台上的开源库,用于异步加载和缓存网络图片。它提供了一套简单易用的API,使得在应用中加载网络图片变得更加方便和高效。 主要特点和功能: 异步加载:SDWebImage通过异步方式…

视频剪辑:视频文件元数据修改工具,批量操作提升效率和准确性

在视频剪辑和后期处理的过程中,除了对视频本身的编辑和修改,元数据的管理和修改同样重要。元数据,如标题、艺术家、专辑封面等,不仅提供了视频文件的基本信息,还有助于更好地组织、搜索和共享视频内容。而针对视频文件…

2024年上半年软考准考证打印时间汇总(全国各省)

2024上半年计算机软考准考证打印5月20日陆续开始,小编整理了2024上半年软考准考证打印时间汇总,请考生务必按当地规定的时间完成准 考证打印工作。 全国软考准考证打印时间 北京 :2024年5月21日至24日 上海: 2024年5月22日10:0…

transfarm详解

在CSS中是允许我们旋转,缩放,倾斜,甚至平移元素的,使用transform属性修改CSS视觉格式化模型的坐标空间实现。 它的属性有: translate(平移)rotate(旋转)scale(缩放) 1.平移 translate函数是 CSS3 中的一个 transfor…

MTK的软件下载

第一章:简介 MTK Download是指通过工具把Images从PC下载到手机/平板的memory(NAND/EMMC/UFS...)中。 1.MTK提供两种下载方式: 1. SP MDT和SP Flashtool 1.1. SMT后,通过MDT或Flashtool把Image下载到手机/平板memory中。 1.2. SP MDT是多路下载工具,支持多线程下载多台…

子集(力扣78)

解题思路&#xff1a;把每一个遍历过的节点都收集下来就可以了 具体代码如下&#xff1a; class Solution { public: vector<vector<int>>result; vector<int>path; void travelBack(vector<int>&nums,int startIndex){ result.push_back(path)…

秋招后端开发面试题 - MySQL索引

目录 MySQL索引前言面试题MySQL 索引篇什么是索引&#xff1f;索引分别有哪些优点和缺点&#xff1f;MySQL 索引的注意事项为什么 MySQL 官方建议使用自增主键作为表的主键&#xff1f;索引有几种类型&#xff1f;分别如何创建&#xff1f;什么叫回表查询&#xff1f;在 InnDB …

SpringMVC简介和体验

一、SpringMVC简介和体验 1.1 介绍 Spring Web MVC :: Spring Framework Spring Web MVC是基于Servlet API构建的原始Web框架&#xff0c;从一开始就包含在Spring Framework中。正式名称“Spring Web MVC”来自其源模块的名称&#xff08; spring-webmvc &#xff09;&#…

分享几个副业,一天搞100~200不成问题,一不小心收益比你主业还多

每次家庭聚会&#xff0c;总是那些老掉牙的话题在耳边萦绕&#xff1a;“孩子&#xff0c;你工资多少啊&#xff1f;买车买房了吗&#xff1f;”仿佛只有按部就班地上班、结婚生子&#xff0c;才是人生的唯一出路。 然而&#xff0c;在这个充满机遇的时代&#xff0c;谁说“不上…

torch.flatten(x, 1)”和“x.view(x.size(0), -1)”有什么区别?

这两个操作在 PyTorch 中都用于将张量展平为一维。它们的主要区别在于实现方式和适用情况&#xff1a; torch.flatten(x, 1)&#xff1a; 这是一个函数调用&#xff0c;其中 x 是输入张量&#xff0c;1 是指定要展平的起始维度。此函数会将张量 x 从指定的起始维度开始展平&…

2.5W字 一文读懂汽车智能座舱的FLASH 存储市场、技术

吃瓜群众&#xff1a;机哥&#xff0c;存储是什么玩意&#xff0c;我买手机、电脑的时候导购员都说买内存大的&#xff0c;三星的好&#xff0c;品牌大&#xff0c;问题少&#xff0c;我也只有看哪个内存大就买那个。 机哥&#xff1a;额&#xff0c;这个嘛&#xff0c;说来话长…

微信一键登录怎么做的?流程是什么?

实现方法&#xff1a;三种方法 点击【登录】按钮 》(系统框)绑定手机号》如果绑定:登录成功点击【登录】按钮》直接登录成功了 >后续可以在设置中【绑定手机号】点击【登录】按钮 -》 打开一个新的页面(绑定手机号):自己的表单 -》进行手机号绑定的验证 方式一:业务流程)用…

Leetcode 3128. Right Triangles

Leetcode 3128. Right Triangles 1. 解题思路2. 代码实现 题目链接&#xff1a;3128. Right Triangles 1. 解题思路 这一题的话对于任意一个位置&#xff0c;如果该位置为1&#xff0c;假设其所在行中1的个数 r i r_i ri​&#xff0c;所在列中1的个数为 c j c_j cj​&#…

数据库大作业——基于qt开发的图书管理系统(二) 相关表结构的设计

前言 在上一篇文章中。我们完成了Qt环境的安装&#xff0c;同时完成了有关项目需求的分析并绘制了整体的项目架构图&#xff0c;而在图书管理系统中&#xff0c;其实我们主要完成的就是对数据的增删改查&#xff0c;并将这些功能通过信号与槽机制和可视化界面绑定在一起&#…

VmWare 虚拟机没有网络解决办法

由于最近需要&#xff0c;装了个VM虚拟机&#xff0c;但是突然发现本机有网络&#xff0c;虚拟机却没有网络&#xff0c;更换了虚拟机的网络设置&#xff0c;都尝试过了 都不管用&#xff0c; 最后尝试了这种方法完美解决 还原网络默认设置 首先还原虚拟网络编辑器设置 启动V…

一些可用于研究的GIS数据资源

国内的情况就不用说了&#xff0c;基本上是很难找到可以用于研究的GIS数据资源的。要么就是收费&#xff0c;免费的即使能找到&#xff0c;能否合法合规的进行使用也是一个问题。地理信息数据还是国外比较开放一些&#xff0c;相当多的政府组织或者公益机构对公众开放了下载渠道…

ASP.NET网上图书订阅系统的设计

摘 要 网上图书订阅系统基于 Microsoft SQL Server 2000和ASP.NET平台&#xff0c;以C#为编程语言开发,实现了网上图书预订和借阅&#xff0c;订阅信息查询&#xff0c;图书和用户信息的修改&#xff0c;借阅排行和新到图书的查询等功能&#xff0c;这样不但可将管理员从繁重…

springboot 打成的jar包为什么能直接运行?

Spring Boot 应用程序被打包成的jar包之所以可以直接通过 java -jar 命令运行&#xff0c;是因为Spring Boot在构建过程中做了一些特殊的设计和配置。具体原因&#xff1a; Fat/Uber JAR: Spring Boot使用maven插件spring-boot-maven-plugin&#xff08;或Gradle对应的插件&…

【Elasticsearch<四>✈️✈️】SpringBoot 项目整合 Elasticsearch

目录 &#x1f378;前言 &#x1f37b;一、Elasticsearch 本地环境启动 &#x1f37a;二、SpringBoot 项目整合 Elasticsearch 2.1 引入 ES 依赖 2.2 配置 ES 属性 2.3 创建实体类 2.4 操作 ES 的工具类 2.5 操作 ES 的业务层 &#x1f379;三、接口测试 3.1 编写测试类 3…