Hive 外部表关联分区数据

0. 说明

已经安装好Hadoop和hive环境,hive把元数据存储在mysql数据库。这里仅讨论外部表和HDFS的关联,并且删掉外部表之后,对HDFS上的文件没有影响。


1. 在HDFS创建分区,并存有文件

手工创建或者由程序在HDFS上生成了分区目录,每个分区目录下有相应的文件。本例中根据day分了两个分区,如下所示:

/test/in/day=20/20.txt
/test/in/day=21/21.txt

文件里面的内容格式如下:

2;Lily;1991;Shanghai
3;Jack;1992;Guangxi
4;Jenny;1999;Xinjiang
5;Jay;1995;Xizang
6;Tom;1990;Beijing
7;Lily;1991;Shanghai
8;Jack;1992;Guangxi
9;Jenny;1999;Xinjiang
10;Jay;1995;Xizang

2. 创建hive外部表(建表语句没有用location直接关联HDFS文件)

根据HDFS上的源文件里面的数据格式,创建hive外部表。

hive> create external table t3 (seq int,name string,year int, city string)> partitioned by (day int)> row format delimited> fields terminated by '\073'> stored as textfile;
OK
Time taken: 0.207 seconds

源文件里面列之间的分隔符是分号,hive里面分号是特殊符号(命令执行结束符),如果建表语句里面用分号则会出错,使用分号的ascii码'\073'(这里用了八进制码)则正常。

查看t3的表结构:

hive> desc t3;
OK
seq                     int
name                    string
year                    int
city                    string
day                     int# Partition Information
# col_name              data_type               comment
day                     int
Time taken: 0.079 seconds, Fetched: 10 row(s)

表格已经成功创建。


3.关联HDFS文件

hive并不会自动关联hdfs中指定目录的partitions目录,需要手工操作。
通过给已经创建的表增加分区数据的方式,与HDFS上的文件相互关联起来。
语法格式:

alter table 表名称 add partition (分区名1=分区值1,...) location 'HDFS上的文件的路径';

关联day=20的分区:

hive> alter table t3 add partition (day=20) location '/test/in/day=20/20.txt';
OK

关联day=21的分区:

hive> alter table t3 add partition (day=21) location '/test/in/day=21/21.txt';
OK

执行下面命令,查看表格可以发现数据已经导入。

hive> select * from t3;

4.之后HDFS分区添加新文件,hive会自动关联

如果这个时候往HDFS上面的分区增加一个文件(符合t3表格式),hive表也可以自动读取到并添加数据。

如新建一个文件b.txt,内容是:1101;JayFEF;2095;BBBB

上传到HDFS的day=21分区:

hadoop fs -put /jaydisk/b.txt /test/in/day=21

直接查看表格,可以看到新的数据也已经添加进去。

hive> select * from t3;
OK
2   Lily    1991    Shanghai    20
3   Jack    1992    Guangxi 20
4   Jenny   1999    Xinjiang    20
5   Jay 1995    Xizang  20
6   Tom 1990    Beijing 20
7   Lily    1991    Shanghai    20
8   Jack    1992    Guangxi 20
9   Jenny   1999    Xinjiang    20
10  Jay 1995    Xizang  20
1101    JayFEF  2095    BBBB    21
Time taken: 1.549 seconds, Fetched: 19 row(s)

5. 内部表和外部表相互转化

可以通过如下语句转换外部表和内部表

alter table tablePartition set TBLPROPERTIES ('EXTERNAL'='TRUE');  //内部表转外部表alter table tablePartition set TBLPROPERTIES ('EXTERNAL'='FALSE');  //外部表转内部表

6. 建外部表时指定HDFS路径(建表语句没有用location直接关联HDFS文件)

6.1 建表

create external table t1 (seq int,name string,year int, city string)
partitioned by (day int)
row format delimited
fields terminated by '\073'
stored as textfile
location '/test/in';

6.2 添加分区day=20

alter table t1 add partition (day=20);

6.3 查看成功

hive> select * from t1;
OK
2   Lily    1991    Shanghai    20
3   Jack    1992    Guangxi 20
4   Jenny   1999    Xinjiang    20
5   Jay 1995    Xizang  20
6   Tom 1990    Beijing 20
7   Lily    1991    Shanghai    20
8   Jack    1992    Guangxi 20
9   Jenny   1999    Xinjiang    20
10  Jay 1995    Xizang  20
Time taken: 0.108 seconds, Fetched: 9 row(s)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/510102.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

日期选择器date、week、time、datetime、datetime-local类型

下面只写两个类型的代码案例&#xff0c;其他都大同小异 date类型&#xff1a; <!DOCTYPE html> <html><head><meta charset"utf-8" /><title>hello</title></head><body><form action"demo_form.php"…

野生程序员的故事

野生程序员是指仅凭对计算机开发的兴趣进入这个行业&#xff0c;从前端到后台一手包揽&#xff0c;但各方面能力都不精通的人。野生程序员有很强大的单兵作战能力&#xff0c;但是在编入“正规军”之后&#xff0c;可能会不适应新的做事方法。 遭遇“野生程序员” 腾讯公司内部…

ros(5)service client实现

&#xff11;.创建功能包 cd ~/testROS_ws/src catkin_create_pkg service_example roscpp rospy std_msgs geometry_msgs turtlesim 创建cpp文件  /*** 该例程将请求/spawn服务&#xff0c;服务数据类型turtlesim::Spawn*/#include <ros/ros.h> #include <turtle…

output.properties data exceeds its limit [2048] HUE执行脚本异常

Hue执行Shell脚本报错 java.io.IOException: output.properties data exceeds its limit [2048]at org.apache.oozie.action.hadoop.LocalFsOperations.getLocalFileContentAsString(LocalFsOperations.java:86)at org.apache.oozie.action.hadoop.LauncherAM.processActionDa…

5种类型的程序员

在我的代码旅程和编程冒险中&#xff0c;我遇到过很多奇怪的敌人&#xff0c;以及陌生的盟友。我发现至少有五种不同类型的代码战士&#xff0c;有的人能成为并肩合作的战友&#xff0c;而有些人似乎只能衬托我的每一个计划。 不过&#xff0c;他们在软件开发这个万神殿中也有着…

html中怎么定义搜索框?html中search类型?

<!DOCTYPE html> <html><head><meta charset"utf-8" /><title>hello</title></head><body><form action"demo_form.php"method"get">请输入搜索关键字: <input type"search"…

ros(6) service server编程实现

创建代码 turtle_command_server.cpp /*** 该例程将执行/turtle_command服务&#xff0c;服务数据类型std_srvs/Trigger*/#include <ros/ros.h> #include <geometry_msgs/Twist.h> #include <std_srvs/Trigger.h>ros::Publisher turtle_vel_pub; bool pubC…

程序员要如何学英语?

一般来说&#xff0c;程序员可算是英语水平比较好的群体&#xff0c;因为在这个行业&#xff0c;英文资料是最全面、最及时&#xff0c;对英文资料的需求也最迫切的。就我观察&#xff0c;刚入门不久的程序员一般都能查阅英文文档&#xff0c;找到需要的信息。但是另一方面&…

Impala 查询导出到文本,本地系统

Hive查询导出到文本使用 insert overwrite local directory 在Impala中不支持&#xff0c;Impala使用&#xff0c;注意--output_delimiter与-B 一同使用&#xff0c;否则不生效 impala-shell -q "select birthday,b.uid from dw_crawler.bsl_weibo_article a,ods_xxx.…

html怎么设计自动出现提示的数据列表?怎么设计数据列表像百度一样怎么随用户输入而更新

<!DOCTYPE html> <html><head><meta charset"utf-8" /><title>hello</title></head><body><h2>输入查询的城市</h2><form autocomplete"on"><input type"text" id"s…

程序员从优秀到卓越的几点建议

和其他技术一样&#xff0c;编程也有层次阶段之分——业余爱好者、普通级别和专家级别。关于这个问题我问过很多很多次—— 如何从优秀到卓越&#xff1f;这是一个程序员应该扪心自问的最重要的问题。至少&#xff0c;在他们职业生涯的某些时候。 为了给出一个令人满意的答案&a…

ros(7)自定义service数据

创建Persom.srv 新建srv文件夹 在srv文件夹中创建Persom.srv&#xff0c;编辑文件 string name uint8 age uint8 sexuint8 unknown 0 uint8 male 1 uint8 female 2--- string result 修改package,xml add_service_files(FILESPerson.srv )generate_messages(DEPE…

Hive表 Parquet压缩 , Gzip,Snappy,uncompressed 效果对比

创建两张表&#xff0c;通过一种是parquet &#xff0c; 一种使用parquet snappy压缩 创建表 使用snappy CREATE EXTERNAL TABLE IF NOT EXISTS tableName(xxx string) partitioned by (pt_xvc string) ROW FORMAT DELIMITED FIELDS TERMINATED BY \001 STORED AS PARQUET TB…

html中怎么自动获得搜索文本框的光标焦点

<!DOCTYPE html> <html> <head> <meta charset"utf-8" /> <title>hello</title> </head> <body> <form action"demo_form.php"method"get"> <!--一个页面只能指定一个autofo…

ubuntu16.04 + kinetic +turtlebot2配置

安装ros-kinetic请参考ubuntu 16.0安装ros-kinetic 配置turtlebot2 1.更新 sudo apt-get update2.安装turtlebot相应的源 sudo apt-get install ros-kinetic-turtlebot ros-kinetic-turtlebot-apps ros-kinetic-turtlebot-interactions ros-kinetic-kobuki-ftdi ros-kineti…

Impala UDF - Impala调用Hive UDF函数

Impala 中运行 Hive UDF 场景&#xff1a;部分查询需要快速返回&#xff0c;使用Impala进行快速、复杂的查询 1.简单的UDF函数过滤&#xff0c;判断是否包含“好”字&#xff0c;返回boolean类型 import org.apache.hadoop.hive.ql.exec.UDF;/*** ClassName: UdfTest* Descri…

想要成为真正优秀的程序员是不是真的很难?

很多人认为要想成为一名优秀的程序员&#xff0c;那就需要一天24小时每天不断地编程——睁开眼睛要编程&#xff0c;闭上眼睛睡觉的时候还要梦到编程——我认为这是一种矫枉过正的方法。沿着这条路走&#xff0c;只会让你精疲力尽&#xff0c;犹如夸父逐日一般&#xff0c;死在…

Impala查询 - HDFS缓存数据

HDFS缓存数据命令 查看缓存池信息 hdfs cacheadmin -listPools -stats 查看已缓存的数据信息 hdfs cacheadmin -listDirectives -stats Impala表卸载缓存数据 alter table dw_crawler.bsl_zhongda_weibo_article_hive set uncached; 创建缓存池 hdfs cacheadmin -addPool a…

Turtlebot入门-配置网络

配置网络 在工作站和Turtlebot都要同步时钟 输入如下命令&#xff1a; sudo apt-get install chrony ntpdate sudo ntpdate ntp.ubuntu.com 2.获取Turtlebot和工作站的IP地址&#xff0c;在终端执行&#xff1a; ifconfig sudo service ssh status 如果显示ssh: unrecogn…

RTTI-运行时类型识别

RTTI 编辑RTTI&#xff08;Run-Time Type Information)&#xff0c;通过运行时类型信息程序能够使用基类的指针或引用来检查这些指针或引用所指的对象的实际派生类型。中文名RTTI外文名Run-Time Type Information属 于程序函 数typeid目录 1 RTTI介绍 ▪ typeid函数 ▪ …