1. background
已建好了 hive parquet 格式的表, 需要从服务器的csv导入数据至该hive表
2. step
-
提前上传csv至服务器 /path/temp.csv
-
创建 textfile 格式的中转表(这里使用内部表,方便删除) ,源表名
dw_procurement.dwd_tc_comm_plant
,这里中转表加上了csv后缀
CREATE TABLE IF NOT EXISTS dw_procurement.dwd_tc_comm_plant_csv (`city` string, `plant_address` string
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;
- 导入 csv 数据至中转表 ,在hive命令行下输入命令
load data local inpath '/path/temp.csv' into table dw_procurement.dwd_tc_comm_plant_csv;
- 中转表数据转移至目标表,在hive命令行下输入命令
insert into dw_procurement.dwd_tc_comm_plant select * from dw_procurement.dwd_tc_comm_plant_csv;
附
1.你基于 a.csv 创建了外部表 A。
2.然后你执行了 DROP TABLE A。
3.接着你重新创建了一个表 A,但这次是基于 b.csv,而这两个文件的列结构相同,但数据内容不同。
你想确认重新创建的表 A 是否仍然使用的 a.csv 里的数据。
情况 1:重新创建表时指定了新的 LOCATION
如果你在重新创建表 A 时指定了新文件 b.csv 的路径,
例如:
CREATE EXTERNAL TABLE A (id INT,name STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LOCATION '/path/to/b.csv';
那么,表 A 将会使用 b.csv 中的数据。Hive 只会读取你在创建表时指定的文件路径的数据,并不会保留之前的 a.csv 数据。
情况 2:重新创建表时未指定 LOCATION
如果你在重新创建表 A 时没有指定新的 LOCATION,而 Hive 默认的 LOCATION 是原来 a.csv 的路径(例如 /user/hive/warehouse/<table_name>/),那么 Hive 将会再次使用原来的路径,表 A 仍然会读取 a.csv 中的数据。
CREATE EXTERNAL TABLE A (id INT,name STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';
在这种情况下,表 A 的数据仍然会是 a.csv 中的数据。