普通表的加载
1.load方式
load data [local] inpath [源文件路径] into table 目标表名;
从HDFS上加载数据,本质上是移动文件所在的路径
load data inpath '/user/student.txt' into table student;
从本地加载数据,本质上是复制本地的文件到HDFS上
load data local inpath '/user/student.txt' into table student;
2.insert方式
插入一条数据(单重,先生成临时表再拷贝到student中,效率低)
insert into table student values(00011,黄海霞,18);
插入多条数据(单重,查询结果导入student中,效率低)
insert into table student select * from stu where age >=18;
多重插入(只扫描一次源表,将结果插入到多个新表中,效率高,常用)
from stu insert into table student01 select * where age >=18 insert into table student02 select * where age <18;
分区表的加载(常用)
- 一般不使用load方式,因为这种方式不会自动检验原表与目标表的列是否对应,数据易出错;
- 一般也不建议使用insert方式单条插入;
静态分区,即分区个数较少,可列举:
1)手动添加分区
ALTER TABLE student ADD if not exists PARTITION(city='beijing');
ALTER TABLE student ADD if not exists PARTITION(city='shanghai');
2)添加数据
from stu insert into table student01 partition(city='beijing') select id, sname, age where city='beijing' insert into table student02 partition(city='shanghai') select id, sname, age where city='shanghai';
动态分区,即分区个数较多,比如日期、年龄:
1)修改分区模式为非严格模式
set hive.exec.dynamic.partition.mode = nonstrict;#hive2版本,默认是strict
set hive.exec.dynamic.partition = true;#hive1版本,先开启动态分区
set hive.exec.dynamic.partition.mode = nonstrict;#hive1版本,再开启非严格模式
2)添加数据
- 若city是指定的自动分区字段,则select中必须包含city,且在最后一个;
- 若分区字段是两个,city和age,则partition(city,age),city为主,age为次,select中city,age在最后且顺序不能变;
from stu
insert into table student01 partition(city) select id, sname, age, city
insert into table student02 partition(city) select id, sname, age, city ;
分桶表的加载
- 不允许使用load方式;
1)先建一个分桶表student;
CREATE TABLE if not exists student(id int ,sname string ,age int, city string) clustered BY (age) sorted BY (city) INTO 3 buckets ROW FORMAT delimited FIELDS terminated BY ','
2)添加数据
insert into table student select * from stu;
- 添加数据的时候,reducetask 实际运行个数,默认值是1,但是因为分3个桶,因此此时reducetask 实际运行个数=3;
- reducetask 最大运行个数是1009;
- 每一个reduce的吞吐量是256M;
=================================================================
数据的导出
单重
insert overwrite directory '/user/stu01.txt' select * from student where age >=18; #到HDFS
insert overwrite local directory '/user/stu01.txt' select * from student where age >=18; #到本地
多重
from student insert overwrite local directory '/user/stu01.txt' select * where age >=18 insert overwrite local directory '/user/stu01.txt' select * where age >=18;
到HDFS的话,去掉local即可