Hive 导入CSV文件


SerDe 介绍

Hive 使用如下FileFormat 类读写 HDFS files:

TextInputFormat/HiveIgnoreKeyTextOutputFormat: 读写普通HDFS文本文件.
SequenceFileInputFormat/SequenceFileOutputFormat: 读写SequenceFile格式的HDFS文件.

Hive 使用如下SerDe 类(反)序列化数据:
MetadataTypedColumnsetSerDe: 读写csv、tsv文件和默认格式文件
ThriftSerDe: 读写Thrift 序列化后的对象.

DynamicSerDe: 读写Thrift序列化后的对象, 不过不需要解读schema中的ddl.


hive通过java写入csv文件:http://blog.csdn.net/zengmingen/article/details/52637483


CSV Serde

CSV格式的文件也称为逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号。在本文中的CSV格式的数据就不是简单的逗号分割的),其文件以纯文本形式存储表格数据(数字和文本)。CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其它字符或字符串,最常见的是逗号或制表符。通常,所有记录都有完全相同的字段序列。


默认的分隔符:

DEFAULT_ESCAPE_CHARACTER \
DEFAULT_QUOTE_CHARACTER  "     //如果没有,则不需要指定
DEFAULT_SEPARATOR        ,

建表语句:

CREATE TABLE csv_table(a string, b string) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde' WITH SERDEPROPERTIES (   "separatorChar" = "\t",   "quoteChar"     = "'",   "escapeChar"    = "\\")  STORED AS TEXTFILE;
separatorChar:分隔符
quoteChar:引号符
escapeChar:转意符


实验操作

准备数据

从数据库导出。

文件1:user1.csv



文件2:user2.csv



文件3:user3.csv




创建表

hive (zmgdb)> create table csv_t1(a string,b string,c string)
            > row format serde
            > 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
            > with
            > SERDEPROPERTIES
            > ("separatorChar"=",")  
            > STORED AS TEXTFILE;


引号符“

hive (zmgdb)> create table csv_t2(a string,b string,c string)
            >  row format serde
            > 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
            > with
            > SERDEPROPERTIES
            >  ("separatorChar"=",","quotechar"="\"")
            >  STORED AS TEXTFILE;
OK
Time taken: 0.072 seconds


转义符\

hive (zmgdb)> create table csv_t3(a string,b string,c string)
            >  row format serde
            > 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
            > with
            > SERDEPROPERTIES
            >  ("separatorChar"=",","escapeChar"    = "\\" )
            >  STORED AS TEXTFILE;
OK
Time taken: 0.088 seconds


导入

hive (zmgdb)> load data local inpath '/data/user1.csv' into table csv_t1;
Loading data to table zmgdb.csv_t1
OK
Time taken: 0.536 seconds


hive (zmgdb)> load data local inpath '/data/user2.csv' into table csv_t2;
Loading data to table zmgdb.csv_t2
OK
Time taken: 0.181 seconds


hive (zmgdb)> load data local inpath '/data/user3.csv' into table csv_t3;
Loading data to table zmgdb.csv_t3


查询

hive (zmgdb)> select * from csv_t1;
OK
csv_t1.a        csv_t1.b        csv_t1.c
%       root    Y
hello110        root    Y
127.0.0.1       root    Y
::1     root    Y
localhost       hive    N
%       hive    Y
Time taken: 0.74 seconds, Fetched: 6 row(s)


hive (zmgdb)> select * from csv_t2;
OK
csv_t2.a        csv_t2.b        csv_t2.c
%       root    Y
hello110        root    Y
127.0.0.1       root    Y
::1     root    Y
localhost       hive    N
%       hive    Y
Time taken: 0.068 seconds, Fetched: 6 row(s)


hive (zmgdb)> select * from csv_t3;
OK
csv_t3.a        csv_t3.b        csv_t3.c
%       root    Y
hello110        'root'  Y
127.0.0.1       NULL    NULL

::1     root    Y
localhost       hive    N
%       hive    Y
Time taken: 0.07 seconds, Fetched: 6 row(s)


补充

如果文件内容的引号符,分隔符,转义符,不是默认的,也不是建表语句指定的,则原样导入。

文件user4.csv:引号符是中文单引号



导入csv_t1表

hive (zmgdb)> load data local inpath '/data/user4.csv' into table csv_t1;
Loading data to table zmgdb.csv_t1

OK
Time taken: 0.191 seconds


hive (zmgdb)> select * from csv_t1;
OK
csv_t1.a        csv_t1.b        csv_t1.c
%       root    Y
hello110        root    Y
127.0.0.1       root    Y
::1     root    Y
localhost       hive    N
%       hive    Y
‘111111’        ‘root’  ‘Y’
‘112222’        ‘r2222’ ‘Y’

Time taken: 0.06 seconds, Fetched: 14 row(s)
hive (zmgdb)> 





本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/539142.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

腾讯云mysql架构_一个数据库存储架构的独白

本文由云社区发表本文作者:许中清,腾讯云自研数据库CynosDB的分布式存储CynosStore负责人。从事数据库内核开发、数据库产品架构和规划。曾就职于华为,2015年加入腾讯,参与过TBase(PGXZ)、CynosDB等数据库产品研发。专注于关系数据…

groupby索引有效吗_SQL IN 一定走索引吗?

摘要IN 一定走索引吗?那当然了,不走索引还能全部扫描吗?好像之前有看到过什么Exist,IN走不走索引的讨论。但是好像看的太久了,又忘记了。哈哈,如果你也忘记了MySQL中IN是如何查询的,就来复习下吧。问题问题…

推荐系统之 BPR 算法及 Librec的BPR算法实现【1】

【推荐系统之 BPR 算法】 1、关于BPR的论文原文: BPR: Bayesian Personalized Ranking from Implicit Feedback 2、参考1:论文快读 - BPR: Bayesian Personalized Ranking from Implicit Feedback (该博主的网站不错,尤其论文快…

ios 筛选_万千网友让quot;低调使用quot;的软件!居然还支持iOS

点击蓝字关注我们昨天的耳朵神器大家感觉怎么样?享受了耳朵今天我们享受一下眼睛~可能很多同学对漫画是情有独钟但是,之前小黑一直介绍的都是安卓端的软件今天要给大家介绍的这款软件是IOS安卓都有终于可以不被IOS的同学吐槽了而且经过测试小黑真的想说一…

CentOS7:JDK1.7.0_80安装

一、安装前检查 执行以下命令: rpm -qa | grep jdk 查看系统是否已经自带openjdk,如果存在 执行以下命令: yum -y remove files files为查出的、系统自带的openjdk相关文件,运行以上命令将相关文件卸载 执行命令 java -version[rootlocalhost…

spring+mybatis 多数据源整合

原文&#xff1a;http://blog.csdn.net/fhx007/article/details/12530735 ---------------------------------------------------------------------------------- 直接看spring的配置吧 <!-- 数据源配置 --> <bean id"ds1" class"org.apache.commo…

四管前级怎么去掉高低音音调_一些歌曲音调太高怎么才能唱上去??

展开全部首先得提高肺活量 然后就是练声&#xff01;怎 样 练 声&#xff1a;练声的目的1&#xff0c;使歌唱发声系统各器官的肌肉更e68a84e8a2ad62616964757a686964616f31333236373231有力&#xff0c;并能协调一致。2&#xff0c;建立正确的声音概念。3&#xff0c;扩展音域&…

java元数据是什么_用存储过程和 JAVA 写报表数据源有什么弊端?

用存储过程和 JAVA 写报表数据源有什么弊端&#xff1f;跟着小编一起来一看一下吧&#xff01;我们在报表开发中经常会使用存储过程准备数据&#xff0c;存储过程支持分步计算&#xff0c;可以实现非常复杂的计算逻辑&#xff0c;为报表开发带来便利。所以&#xff0c;报表开发…

mysql多实例安装启动_MySQL多实例安装启动

Tips&#xff1a;之前我们的一个实例是mysql3306&#xff0c;我们现在再安装一个mysql33071。和之前一样&#xff0c;创建需要的目录文件夹mkdir -p /data/mysql/mysql3307/{data,logs,tmp}创建完 就给文件授权chown -R mysql:mysql /data/mysql/mysql3307/2.进入mysql3307cd /…

用vhdl实现4位加减法计数器_32位加减法器设计

功能特性设计思路基于一位全加器&#xff0c;设计32位并行加法器。并行加法器中全加器的位数与操作数相同&#xff0c;影响速度&#xff08;延时&#xff09;的主要因素是进位信号的传递。主要的高速加法器【1】有基本上都是在超前进位加法器&#xff08;CLA&#xff09;的基础…

绿色背景配什么颜色文字_灰色裤子配什么颜色上衣好看

我们许多人都喜欢灰色。灰色是一种很酷的自然色。灰色大气而沉稳。它介于黑白之间&#xff0c;是一种多用途的颜色&#xff0c;与其他颜色搭配将变得时尚而优雅。那么秋冬季节灰色裤子配什么颜色的上衣好看呢&#xff1f;接下来就来看一组时尚大人的灰色裤子穿搭吧。look1 保温…

浮栅场效应管 符号_场效应管主要参数与特点,场效应管与其他管子的对比

场效应晶体管(Field Effect Transistor缩写(FET))简称场效应管。主要有两种类型&#xff1a;结型场效应管(junction FET—JFET)和金属-氧化物半导体场效应管(metal-oxide semiconductor FET&#xff0c;简称MOS-FET)。场效应管由多数载流子参与导电&#xff0c;也称为单极型晶体…

super go_Go 简单性的价值:来自对 Go 倍加青睐的谷歌软件工程师的自述

点击上方蓝色“Go语言中文网”关注我们&#xff0c;领全套Go资料&#xff0c;每天学习 Go 语言Go 语言最近几年逐渐获得越来越多的开发者的喜欢。在 Go 社区前不久刚刚庆祝Go诞生10周年生日之际&#xff0c;谷歌云软件工程师 Benjamin Congdon 发表个人博客(11 月 11 日发表)&a…

判断鼠标是否在元素上_是否清扫保洁、是否雾撒降尘?江城环卫车装上了北斗,动动鼠标就知道了...

楚天都市报12月1日讯(记者卢成汉 通讯员金婵 潘婷)环卫车装上北斗定位系统&#xff0c;它是否上路进行清扫保洁&#xff0c;是否雾撒降尘。城管队员通过手机或电脑&#xff0c;就可以查到它的运行状态。1日&#xff0c;东湖高新区城管执法局称&#xff0c;该区运行的北斗智能环…

Object 对象详解

2019独角兽企业重金招聘Python工程师标准>>> 面向对象的核心思想:“找合适的对象&#xff0c;做适合的事情”。 合适的对象&#xff1a; 1. 自己描述类&#xff0c;自己创建对象。 2. sun已经描述了好多常用的类&#xff0c;可以使用这些类创建对象。 API&#xff0…

vi/vim命令

概述 vi: Visual Interface vim: VI iMproved vim模式 有三种&#xff1a; 编辑模式(命令模式) 如&#xff1a;通过命令新增一行&#xff0c;删除一行&#xff0c;复制一行&#xff0c;光标移动等 输入模式 输入模式在屏幕末尾一定有这个“-- INSERT --” 末行模式 ESC&…

主mysql删除从服务不同步_MySQL主从不同步解决

由于binlog日志带多删除了几个后发现MySQL主从不同步1、由于binlog日志带多删除了几个后发现MySQL主从不同步mysql> show slave status\G;Slave_IO_Running: NoSlave_SQL_Running: Yes查看报错日志为[ERROR] Slave I/O: Got fatal error 1236 from master when reading data…

机器学习(一)梯度下降算法的实现及过程分析

机器学习&#xff08;一&#xff09;梯度下降算法 因为算法最好能应用到实际问题中才会让读者感到它的真实的用处&#xff0c;因此首先我来描述一个实际问题&#xff08;梯度下降算法用以帮助解决该问题&#xff09;&#xff1a;给定一个指定的数据集&#xff0c;比如由若干某一…

quick time不可用_那些校园中“不可言说”的鄙视链

原标题&#xff1a;那些校园中“不可言说”的鄙视链俗话说&#xff0c;有人的地方就有江湖&#xff0c;有江湖的地方总有人喜欢论论剑&#xff0c;分个高低&#xff0c;更何况是聚集了五湖四海人群的大学呢&#xff01;今天小U总结出了一篇高校鄙视链大全&#xff0c;快来看看符…

select怎么设置默认值_20200817:详细说下数据倾斜怎么解决?

福哥答案2020-08-17&#xff1a;数据倾斜是大数据领域绕不开的拦路虎&#xff0c;当你所需处理的数据量到达了上亿甚至是千亿条的时候&#xff0c;数据倾斜将是横在你面前一道巨大的坎。很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。数据倾斜是指&#xff1a;…