hive分区用2个字段有何限制_[特性]Hive动态分区功能使用

[特性]Hive动态分区功能使用

2016-01-31 21:40

说明

Hive有两种分区，一种是静态分区，也就是普通的分区。另一种是动态分区。动态分区在数据导入时，会根据具体的字段值自行决定导入，并创建相应的分区。使用上更为方面。

举例

准备工作

创建一个表，并导入相关数据，作为源数据。

3CREATE TABLE student_data(id STRING, name STRING, year INT, major INT)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY ',';

该表有如下数据：

SELECT * FROM student_data;

+------------------+--------------------+--------------------+---------------------+--+

+------------------+--------------------+--------------------+---------------------+--+

| 2001810081 | cheyo | 2001 | 810 |

| 2001810082 | pku | 2001 | 810 |

| 2001810083 | rocky | 2001 | 810 |

| 2001810084 | stephen | 2001 | 810 |

| 2001810086 | rongqi | 2001 | 810 |

| 2001810087 | hauaa | 2001 | 810 |

| 2001810088 | file | 2001 | 810 |

| 2001810089 | note | 2001 | 810 |

| 2001820081 | hello | 2001 | 820 |

| 2001820082 | jaccy | 2001 | 820 |

| 2001820083 | micky | 2001 | 820 |

| 2001820084 | lucy | 2001 | 820 |

| 2002810081 | cindy | 2002 | 810 |

| 2002810082 | lemon | 2002 | 810 |

| 2002820081 | jacky | 2002 | 820 |

| 2002820082 | cindy | 2002 | 820 |

| 2002820083 | happy | 2002 | 820 |

| 2002820084 | snow | 2002 | 820 |

+------------------+--------------------+--------------------+---------------------+--+

使用静态分区

创建一个表，准备用静态分区方式将数据导入此表。

4CREATE TABLE student_static_partition(id STRING, name STRING)

PARTITIONED BY (year INT, major INT)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY ',';

使用静态分区方式，将源表中的所有数据导入此表：

11INSERT INTO TABLE student_static_partition PARTITION(year=2001,major=810)

SELECT id,name FROM student_data WHERE year=2001 AND major=810;

INSERT INTO TABLE student_static_partition PARTITION(year=2001,major=820)

SELECT id,name FROM student_data WHERE year=2001 AND major=820;

INSERT INTO TABLE student_static_partition PARTITION(year=2002,major=810)

SELECT id,name FROM student_data WHERE year=2002 AND major=810;

INSERT INTO TABLE student_static_partition PARTITION(year=2002,major=820)

SELECT id,name FROM student_data WHERE year=2002 AND major=820;

导完后，查询该表的分区信息：

9SHOW PARTITIONS student_static_partition;

+----------------------+--+

| partition |

+----------------------+--+

| year=2001/major=810 |

| year=2001/major=820 |

| year=2002/major=810 |

| year=2002/major=820 |

+----------------------+--+

使用动态分区

然后再创建一个相同表结构的表，准备以动态分区的方式导入数据。

4CREATE TABLE student_dynamic_partition(id STRING, name STRING)

PARTITIONED BY (year INT, major INT)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY ',';

使用动态分区前，需要先配置相同的Hive参数，其中最重要的两个参数是：

2set hive.exec.dynamic.partition=true;

set hive.exec.dynamic.partition.mode=nonstrict;

更多参数请参考下文中的参考文档。

然后以动态分区方式导入数据：

3INSERT OVERWRITE TABLE student_dynamic_partition PARTITION (year, major)

SELECT id,name,year,major

FROM student_data;

注意：在SELECT子句的各个字段应刚好与INSERT中的字段以及最后的PARTITION中的字段完全一致,包括顺序。

这里，我们无需指定数据导入到哪一个分区。该语句会自动创建相应分区，并将数据导入相应的分区。

导入完成后，查看该表的分区信息：

9SHOW PARTITIONS student_dynamic_partition

+----------------------+--+

| partition |

+----------------------+--+

| year=2001/major=810 |

| year=2001/major=820 |

| year=2002/major=810 |

| year=2002/major=820 |

+----------------------+--+

两种方式对比

通过上述实例，我们可以看到：通过动态分区方式，我们无法手工指定数据导入的具体分区，而是由SELECT中的相关字段的值自行决定导入到哪一个分区中，并自动创建相应的分区。使用上更加方便。

参考文档

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/542218.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

hive分区用2个字段有何限制_[特性]Hive动态分区功能使用

相关文章

Linux系统中输出输入的管理

find 命令示例_数组find（）方法以及JavaScript中的示例

统计Apache或Nginx访问日志里的独立IP访问数量的Shell

ggplot2箱式图两两比较_R绘图第四篇：绘制箱图（ggplot2）

Linux系统中用户的管理

c# 命名空间命名规范_C＃命名空间能力问题和解答套装3

shell 查出文件并复制到另一个文件夹

correl函数相关系数大小意义_用Correl函数返回相关系数,以确定属性关系

Java之类的构造器（反射）

java 系统自动检测_如何在Java中检测OS（操作系统）名称？

shell中返回值是1为真还是假_shell脚本中判断上一个命令是否执行成功

Linux中对进程的管理

带C＃示例的String.Equality（==）运算符

jQuery 倒计时

Linux远程连接与sshd服务安全设定

rabbitmq 同步策略_RabbitMQ高可用方案总结

一个简单的封ip规则

c程序预处理器的设计与实现_C预处理器-能力问题与解答

系统日志管理

pythonassertbug_还在 Bug 不断？不妨试试这 2 个装X技巧