Hive-分区分桶操作

在大数据中，最常用的一种思想就是分治，我们可以把大的文件切割划分成一个个的小的文件，这样每次操作一个小的文件就会很容易了，同样的道理，在hive当中也是支持这种思想的，就是我们可以把大的数据，按照每天，或者每小时进行切分成一个个的小的文件，这样去操作小的文件就会容易得多了。

一、分区表操作

企业常见的分区规则：按天进行分区（一天一个分区）

1、创建分区表语法

create table score(s_id string,c_id string, s_score int) partitioned by (month string) row format delimited fields terminated by '\t';

2、创建一个表带多个分区

create table score2 (s_id string,c_id string, s_score int) partitioned by (year string,month string,day string) row format delimited fields terminated by '\t';

3、加载数据到分区表中

load data local inpath '/export/servers/hivedatas/score.csv' into table score partition (month='201806');

4、加载数据到一个多分区的表中去

load data local inpath '/export/servers/hivedatas/score.csv' into table score2 partition(year='2018',month='06',day='01');

5、多分区联合查询使用union all来实现

select * from score where month = '201806' union all select * from score where month = '201806';
1

6、查看分区

show  partitions  score;

7、添加一个分区

alter table score add partition(month='201805');

8、同时添加多个分区

alter table score add partition(month='201804') partition(month = '201803');

注意：添加分区之后就可以在hdfs文件系统当中看到表下面多了一个文件夹

9、删除分区

alter table score drop partition(month = '201806');

特别强调:
分区字段绝对不能出现在数据库表已有的字段中!

作用:
将数据按区域划分开，查询时不用扫描无关的数据，加快查询速度。

二、分桶表操作

是在已有的表结构之上新添加了特殊的结构。

将数据按照指定的字段进行分成多个桶中去，说白了就是将数据按照字段进行划分，可以将数据按照字段划分到多个文件当中去

1、开启hive的桶表功能

set hive.enforce.bucketing=true;

2、设置reduce的个数

set mapreduce.job.reduces=3;

3、创建桶表

create table course (c_id string,c_name string,t_id string) clustered by(c_id) into 3 buckets row format delimited fields terminated by '\t';

桶表的数据加载，由于通标的数据加载通过hdfs dfs -put文件或者通过load data均不好使，只能通过insert overwrite

创建普通表，并通过insert overwrite的方式将普通表的数据通过查询的方式加载到桶表当中去

4、创建普通表

create table course_common (c_id string,c_name string,t_id string) row format delimited fields terminated by '\t';

5、普通表中加载数据

load data local inpath '/export/servers/hivedatas/course.csv' into table course_common;

6、通过insert overwrite给桶表中加载数据

insert overwrite table course select * from course_common cluster by(c_id);

特别强调:
分桶字段必须是表中的字段。

分桶逻辑:
对分桶字段求哈希值,用哈希值与分桶的数量取余,余几,这个数据就放在哪个桶内。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/535692.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

Hive-分区分桶操作

一、分区表操作

1、创建分区表语法

2、创建一个表带多个分区

3、加载数据到分区表中

4、加载数据到一个多分区的表中去

5、多分区联合查询使用union all来实现

6、查看分区

7、添加一个分区

8、同时添加多个分区

9、删除分区

二、分桶表操作

1、开启hive的桶表功能

2、设置reduce的个数

3、创建桶表

4、创建普通表

5、普通表中加载数据

6、通过insert overwrite给桶表中加载数据

相关文章

ubuntu好文收集

Flume简单介绍

linux系统优化篇之---top

Flume安装部署

ubuntu学习摘要－ubuntu root用户

Elasticsearch 简介入门

Elasticsearch 7.x 安装及配置

Ubuntu下面apache2安装

Java并发篇_乐观锁与悲观锁

Redhat与ubuntu配置网卡

SSH软件包：Sftp,scp和ssh-agent

JAVA并发篇_公平锁与非公平锁

Java并发篇_进程线程

Real提示“作为受限用户，您无足够的windows操作权限”的解决办法

Java并发篇_线程详解

修改MYSQL最大连接数的3种方法

可扩展的编程语言——Scala

ubuntu7.10 apache+php+mysql配置

Spark-大规模数据处理计算引擎

MySQL Replace INTO的使用

Hive-分区分桶操作

一、分区表操作

1、创建分区表语法

2、创建一个表带多个分区

3、加载数据到分区表中

4、加载数据到一个多分区的表中去

5、多分区联合查询使用union all来实现

6、查看分区

7、添加一个分区

8、同时添加多个分区

9、删除分区

二、分桶表操作

1、开启hive的桶表功能

2、设置reduce的个数

3、创建桶表

4、 创建普通表

5、 普通表中加载数据

6、通过insert overwrite给桶表中加载数据

相关文章

4、创建普通表

5、普通表中加载数据