hive的一些调优参数

set hive.exec.dynamic.partition.mode=nonstrict; 使用动态分区
set hive.exec.max.dynamic.partitions=100000;自动分区数最大值
set hive.exec.max.dynamic.partitions.pernode=100000;
set hive.hadoop.supports.splittable.combineinputformat=true;支持切分
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
set mapred.max.split.size=256000000;
set mapred.min.split.size.per.node=256000000;
set mapred.min.split.size.per.rack=256000000;
set hive.merge.mapfiles=true;
set hive.merge.mapredfiles=true;
set hive.merge.size.per.task=256000000;
set hive.merge.smallfiles.avgsize=160000000;
set hive.exec.compress.output=true;
set mapred.output.compress=true;
set mapred.output.compression.type=BLOCK;
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;
set hive.map.aggr=true; 
set hive.optimize.skewjoin=true; 
set hive.groupby.skewindata=true; 解决数据倾斜，不适用多字段去重统计
set hive.auto.convert.join=false;

set hive.groupby.skewindata=false;
set hive.new.job.grouping.set.cardinality = 200;添加额外job

set hive.fetch.task.conversion=more;简单查询不用mapreduce
set hive.exec.mode.local.auto=true;  //开启本地mr
set hive.exec.mode.local.auto.inputbytes.max=50000000;小于时用local mr
set hive.exec.mode.local.auto.input.files.max=5;默认4文件个数用local mr
set hive.auto.convert.join = true;默认开启，map join
set hive.mapjoin.smalltable.filesize=25000000;小表
set hive.map.aggr = true;默认map聚合
set hive.groupby.mapaggr.checkinterval = 100000;map聚合条数
set hive.groupby.skewindata = true;数据倾斜的时候进行负载均衡（默认是false）
set hive.exec.reducers.bytes.per.reducer=32123456;reduce任务处理量默认256000000
set hive.exec.parallel=true;并行执行
set hive.exec.parallel.thread.number=16;同一SQL最大并行度
set hive.mapred.mode=nonstrict;非严格模式
set mapred.job.reuse.jvm.num.tasks=5;jvm重用个数
set hive.mapred.reduce.tasks.speculative.execution=true;推测执行
set hive.exec.compress.intermediate=true;压缩算法
set mapred.map.output.compression.codec= org.apache.hadoop.io.compress.SnappyCodec;#设置中间数据的压缩算法
set hive.input.format= org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;小文件合并
set mapreduce.input.fileinputformat.split.maxsize=10485760;一个block块大小
set hive.exec.reducers.bytes.per.reducer=256000000;每个Reduce处理的数据量默认是256MB
set hive.exec.reducers.max=1009;每个任务最大的reduce数，默认为1009
set mapreduce.job.reduces=3;设置每一个job中reduce个数

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/508777.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！