Hadoop Hive概念学习系列之hive的数据压缩(七)

Hive文件存储格式包括以下几类:
1、TEXTFILE
2、SEQUENCEFILE
3、RCFILE
4、ORCFILE
其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理。
SEQUENCEFILE,RCFILE,ORCFILE格式的表不能直接从本地文件导入数据,数据要先导入到textfile格式的表中, 然后再从表中用insert导入SequenceFile,RCFile,ORCFile表中。

 

更多用法,一定要去看官网啊!!! 
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL

 

 

一、TEXTFILE 格式
默认格式,数据不做压缩,磁盘开销大,数据解析开销大。 可结合Gzip、Bzip2使用(系统自动检查,执行查询时自动解压),但使用这种方式,Hive不会对数据进行切分, 从而无法对数据进行并行操作。

  

  示例:

复制代码
create table if not exists textfile_table(
site string,
url string,
pv bigint,
label string)
row format delimited fields terminated by '\t'
stored as textfile;
复制代码

 


插入数据操作:

Hive> Hive.exec.compress.output=true; 
Hive> set mapred.output.compress=true; 
Hive> set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec; 
Hive> set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec; 
Hive> insert overwrite table textfile_table select * from textfile_table;

 

 

 


二、SEQUENCEFILE 格式
SequenceFile是Hadoop API提供的一种二进制文件支持,其具有使用方便、可分割、可压缩的特点。 
SequenceFile支持三种压缩选择:NONE,RECORD,BLOCK。Record压缩率低,一般建议使用BLOCK压缩。
示例:

复制代码
create table if not exists seqfile_table(
site string,
url string,
pv bigint,
label string)
row format delimited
fields terminated by '\t'
stored as sequencefile;
复制代码

 


插入数据操作:

复制代码
Hive> set Hive.exec.compress.output=true; 
Hive> set mapred.output.compress=true; 
Hive> set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec; 
Hive> set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec; 
Hive> SET mapred.output.compression.type=BLOCK;
Hive> insert overwrite table seqfile_table select * from textfile_table;
复制代码

 

 

 


三、RCFILE 文件格式
RCFILE是一种行列存储相结合的存储方式。首先,其将数据按行分块,保证同一个record在一个块上,避免读一个记录需要读取多个block。
其次,块数据列式存储,有利于数据压缩和快速的列存取。
RCFILE文件示例:

复制代码
create table if not exists rcfile_table(
site string,
url string,
pv bigint,
label string)
row format delimited
fields terminated by '\t'
stored as rcfile;
复制代码

 


插入数据操作:

Hive> set Hive.exec.compress.output=true; 
Hive> set mapred.output.compress=true; 
Hive> set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec; 
Hive> set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec; 
Hive> insert overwrite table rcfile_table select * from textfile_table;

 

 

 


四、ORCFILE()
以后补充

 

 


五、再看TEXTFILE、SEQUENCEFILE、RCFILE三种文件的存储情况:
[hadoop@master ~]$ hadoop dfs -dus /user/Hive/warehouse/*
hdfs://master :9000/user/Hive/warehouse/hbase_table_1 0
hdfs://master :9000/user/Hive/warehouse/hbase_table_2 0
hdfs://master :9000/user/Hive/warehouse/orcfile_table 0
hdfs://master :9000/user/Hive/warehouse/rcfile_table 102638073
hdfs://master :9000/user/Hive/warehouse/seqfile_table 112497695
hdfs://master :9000/user/Hive/warehouse/testfile_table 536799616
hdfs://master :9000/user/Hive/warehouse/textfile_table 107308067
[hadoop@singlehadoop ~]$ hadoop dfs -ls /user/Hive/warehouse/*/
-rw-r--r-- 2 hadoop supergroup 51328177 2014-03-20 00:42 /user/Hive/warehouse/rcfile_table/000000_0
-rw-r--r-- 2 hadoop supergroup 51309896 2014-03-20 00:43 /user/Hive/warehouse/rcfile_table/000001_0
-rw-r--r-- 2 hadoop supergroup 56263711 2014-03-20 01:20 /user/Hive/warehouse/seqfile_table/000000_0
-rw-r--r-- 2 hadoop supergroup 56233984 2014-03-20 01:21 /user/Hive/warehouse/seqfile_table/000001_0
-rw-r--r-- 2 hadoop supergroup 536799616 2014-03-19 23:15 /user/Hive/warehouse/testfile_table/weibo.txt
-rw-r--r-- 2 hadoop supergroup 53659758 2014-03-19 23:24 /user/Hive/warehouse/textfile_table/000000_0.gz
-rw-r--r-- 2 hadoop supergroup 53648309 2014-03-19 23:26 /user/Hive/warehouse/textfile_table/000001_1.gz


总结: 相比TEXTFILE和SEQUENCEFILE,RCFILE由于列式存储方式,数据加载时性能消耗较大,但是具有较好的压缩比和查询响应。
数据仓库的特点是一次写入、多次读取,因此,整体来看,RCFILE相比其余两种格式具有较明显的优势。

 

 

 

以下,本文转自于。http://blog.csdn.net/cnbird2008/article/details/9182869

Hive数据压缩

本文介绍Hadoop系统中Hive数据压缩方案的比较结果及具体压缩方法。

一、压缩方案比较

关于Hadoop HDFS文件的压缩格式选择,我们通过多个真实的Track数据做测试,得出结论如下:

1.  系统的默认压缩编码方式 DefaultCodec 无论在压缩性能上还是压缩比上,都优于GZIP 压缩编码。这一点与网上的一些观点不大一致,网上不少人认为GZIP的压缩比要高一些,估计和Cloudera的封装及我们Track的数据类型有关。

2.  Hive文件的RCFile 的在压缩比,压缩效率,及查询效率上都优于SEQENCE FILE (包括RECORD, BLOCK 级别) 。

3.  所有压缩文件均可以正常解压为TEXT 文件,但比原始文件略大,可能是行列重组造成的。

 

 

 

关于压缩文件对于其他组件是适用性如下:

1.  Pig 不支持任何形式的压缩文件。

2.  Impala 目前支持SequenceFile的压缩格式,但还不支持RCFile的压缩格式。

 

 

综上所述

  从压缩及查询的空间和时间性能上来说,DefaultCodeC + RCFile的压缩方式均为最优,但使用该方式,会使得Pig 和Impala 无法使用(Impala的不兼容不确定是否是暂时的)。

  而DefaultCodeC+ SequenceFile 在压缩比,查询性能上略差于RCFile (压缩比约 6:5), 但可以支持 Impala实时查询。

 

推荐方案

 采用RCFile 方式压缩历史数据。FackBook全部hive表都用RCFile存数据。

 

 

 

二、局部压缩方法

只需要两步:

1.      创建表时指定压缩方式,默认不压缩,以下为示例:

create external table track_hist(

id bigint, url string, referer string, keyword string, type int, gu_idstring,

…/*此处省略中间部分字段*/ …, string,ext_field10 string)

partitioned by (ds string) stored as RCFile location '/data/share/track_histk' ;

 

2.  插入数据是设定立即压缩

SET hive.exec.compress.output=true;

insert overwrite table track_histpartition(ds='2013-01-01')

select id,url, …/*此处省略中间部分字段*/ …, ext_field10 fromtrackinfo

where ds='2013-01-01';

 

 

 

 

 

三、全局方式,修改属性文件

在hive-site.xml中设置:

<property>

 <name>hive.default.fileformat</name>

 <value>RCFile</value>

 <description>Default file format for CREATE TABLE statement.Options are TextFile and SequenceFile. Users can explicitly say CREAT

E TABLE ... STORED AS&lt;TEXTFILE|SEQUENCEFILE&gt; to override</description>

</property>

<property>

 <name>hive.exec.compress.output</name>

 <value>true</value>

 <description> This controls whether the final outputs of a query(to a local/hdfs file or a hive table) is compressed. The compres

sion codec and other options are determinedfrom hadoop config variables mapred.output.compress* </description>

 

 

 

 

四、注意事项

1、Map阶段输出不进行压缩

2、对输出文本进行处理时不压缩

 


本文转自大数据躺过的坑博客园博客,原文链接:http://www.cnblogs.com/zlslch/p/6103760.html,如需转载请自行联系原作者

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/454280.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java 加锁_Java并发之synchronized深入

一句话总结synchronized&#xff1a;JVM会自动通过使用monitor来加锁和解锁&#xff0c;保证了同时只有一个线程可以执行指定代码&#xff0c;从而保证了线程安全&#xff0c;同时具有可重入和不可中断的性质。一.synchronized的作用使用synchronized修饰方法或者代码块时&…

激活函数之 Sigmoid、tanh、ReLU、ReLU变形和Maxout

Sigmoid函数 Sigmoid函数计算公式 sigmoid&#xff1a;x取值范围(-∞&#xff0c;∞)&#xff0c;值域是(0, 1)。 sigmoid函数求导 这是sigmoid函数的一个重要性质。 图像 代码 # -*- coding: utf-8 -*- """ author: tom """import numpy im…

Python查看、修改pip install 默认使用的pip库

一、更改 Python 的 pip install 默认使用的pip库 【方法】只需要将对应python脚本的路径添加到系统环境变量Path中较前的位置即可&#xff0c;这样就可以获得优先级。 1、打开终端&#xff0c;可以通过指令 pip show pip 查看默认使用的pip包&#xff1a; 2、现在&#xff…

cmd 找到8080对应进程_多进程概括

多进程图像操作系统记录进程&#xff0c;并按照合理的次序交替推进(分配资源&#xff0c;不断调度)&#xff0c;提高CPU利用率和程序执行速度&#xff0c;这就是操作系统的多进程图像。当操作系统启动时&#xff0c;多进程图像就出现了。 在linux内核源码main.c文件中&#xff…

机器学习接口和代码之 KNN

官网地址&#xff1a;https://scikit-learn.org/stable/modules/classes.html#module-sklearn.neighbors class sklearn.neighbors.KNeighborsClassifier(n_neighbors5, weights’uniform’, algorithm’auto’, leaf_size30, p2, metric’minkowski’, metric_paramsNone, n…

Eclipse中安装Ext插件(Spket IDE)

在网上找了很多资料&#xff0c;这里重新整理一下。 Spket IDE是目前支持Ext 2.0最为出色的IDE。 它采用.jsb project file 文件并将继承于基类和所有文档的内容嵌入到生成代码提示的. doc中。由于Spket只是一个单纯的编辑器&#xff0c;没有其它格式的支持&#xff08;如CSS&a…

职业程序员培养之道

作者&#xff1a;粘新育 任甲林 来源&#xff1a;希赛网  http://www.csai.cn 2004年06月28日软件开发是以人为核心的过程&#xff0c;对人的依赖性远高于传统的硬件生产企业&#xff0c;为了保持开发能力的稳定性&#xff0c;一方面需要定义软件过程&#xff0c;以过程为枢纽…

MongoDB启动

详细见大神链接 链接: https://blog.csdn.net/chenpuzhen/article/details/90642147.

Go 语言编程规范

1. gofmt 命令 大部分的格式问题可以通过 gofmt 来解决&#xff0c;gofmt 自动格式化代码&#xff0c;保证所有的 go 代码与官方推荐的格式保持一致&#xff0c;所有格式有关问题&#xff0c;都以gofmt的结果为准。所以&#xff0c;建议在提交代码库之前先运行一下这个命令。 2…

python去噪音_python中的噪声是什么意思

你的序列均值为零吗? 方差随时间变化吗? 值与延迟值相关吗? 你可以用一些工具来检查你的时间序列是否为白噪音: 创建一个折线图。检查总体特征&#xff0c;如变化的平均值&#xff0c;方差或延迟变量之间的明显关系。 计算汇总统计。对照序列中有意义的连续块的均值和方差&a…

pycharm 离线安装插件

插件离线下载地址&#xff1a; http://plugins.jetbrains.com/ 1、下载插件&#xff1a;http://plugins.jetbrains.com/ 2、安装插件&#xff1a; settings -> plugins -> install plugin from disk&#xff0c;然后重启IDEA即可。

为机器学习占地16

是将若干个学习器(分类器&回归器)组合之后产生一个新学习器。弱分类器(weak learner)指那些分类准确率只稍微好于随机猜测的分类器(errorrate < 0.5)。 集成算法的成功在于保证弱分类器的多样性(Diversity)。而且集成不稳定的算法也能够得到一个比较明显的性能提升。 …

VC DLL学习

1 用VC创建DLL动态链接库1.1 创建dll项目1.2 为dll项目编写源文件头文件dllDemo.hextern"C"_declspec(dllexport) intSum(inta,intb);//加法函数。extern"C"_declspec(dllexport) intMax(inta, intb);//取较大值函数extern"C"_declspec(dllexpor…

mciSendString 多线程播放多首音乐 注意事项

昨天晚上遇到一个问题&#xff1a; 使用 mciSendString 控制播放多首音乐的时候&#xff0c;出现最后一次播放的音乐无法通过 mciSendString ("close mp3") 关闭音乐的播放。 mciSendString 在多个线程中调用。 到23点&#xff0c;问题依然没解决&#xff0c;只好先…

python代码比例_Python如何输出百分比

Python 输出百分比的两种方式 注&#xff1a; 在python3环境下测试。 方式1&#xff1a;直接使用参数格式化&#xff1a;{:.2%} {:.2%}&#xff1a; 显示小数点后2位 显示小数点后2位&#xff1a; >>> print(percent: {:.2%}.format(42/50)) percent: 84.00% 不显示小…

为机器学习占地15

是将若干个学习器(分类器&回归器)组合之后产生一个新学习器。弱分类器(weak learner)指那些分类准确率只稍微好于随机猜测的分类器(errorrat弱分类器的多样性(Diversity)。而且集成不稳定的算法也能够得到一个比较明显的性能提升。 常见的集成学习思想有&#xff1a;Baggi…

编写一个项目开发文档

项目开发过程中为了增加程序的可读性和程序的健壮性&#xff0c; 方便后期程序的调试和维护&#xff0c;所以需要在开发过程中统一技术规范&#xff0c;一般会在项目初期确定好相关文档作为这一统一的规范。不同公司会对文档做不同要求&#xff0c;划不同的分类&#xff0c;但一…

乐在其中设计模式(C#) - 原型模式(Prototype Pattern)

[索引页][源码下载]乐在其中设计模式(C#) - 原型模式(Prototype Pattern)作者&#xff1a;webabcd介绍用原型实例指定创建对象的种类&#xff0c;并且通过拷贝这个原型来创建新的对象。示例有一个Message实体类&#xff0c;现在要克隆它。MessageModelusing System; using Syst…

python123添加列表元素_Python之列表

Python变量没有数据类型&#xff0c;所以Python没有数组。 整数&#xff1b;浮点数&#xff1b;字符串&#xff1b;对象 创建一个列表&#xff1a; 1.member[大鱼,123,3.14,[1,2,3]] 2.empty[] 向列表添加元素&#xff1a; append&#xff08;&#xff09;&#xff1a; member[…

为机器学习占地14

是将若干个学习器(分类器&回归器)组合之后产生一个新学习器。弱分类器(weak learner)指那些分类准确率只稍微好于随机猜测的分类器(errorrate <。 集成算法的成功在于保证弱分类器的多样性(Diversity)。而且集成不稳定的算法也能够得到一个比较明显的性能提升。 常见的…