set hive.exec.dynamic.partition.mode=nonstrict; 使用动态分区
set hive.exec.max.dynamic.partitions=100000;自动分区数最大值
set hive.exec.max.dynamic.partitions.pernode=100000;
set hive.hadoop.supports.splittable.combineinputformat=true;支持切分
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
set mapred.max.split.size=256000000;
set mapred.min.split.size.per.node=256000000;
set mapred.min.split.size.per.rack=256000000;
set hive.merge.mapfiles=true;
set hive.merge.mapredfiles=true;
set hive.merge.size.per.task=256000000;
set hive.merge.smallfiles.avgsize=160000000;
set hive.exec.compress.output=true;
set mapred.output.compress=true;
set mapred.output.compression.type=BLOCK;
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;
set hive.map.aggr=true;
set hive.optimize.skewjoin=true;
set hive.groupby.skewindata=true; 解决数据倾斜,不适用多字段去重统计
set hive.auto.convert.join=false;
set hive.groupby.skewindata=false;
set hive.new.job.grouping.set.cardinality = 200;添加额外job
set hive.fetch.task.conversion=more;简单查询不用mapreduce
set hive.exec.mode.local.auto=true; //开启本地mr
set hive.exec.mode.local.auto.inputbytes.max=50000000;小于时用local mr
set hive.exec.mode.local.auto.input.files.max=5;默认4文件个数用local mr
set hive.auto.convert.join = true;默认开启,map join
set hive.mapjoin.smalltable.filesize=25000000;小表
set hive.map.aggr = true;默认map聚合
set hive.groupby.mapaggr.checkinterval = 100000;map聚合条数
set hive.groupby.skewindata = true;数据倾斜的时候进行负载均衡(默认是false)
set hive.exec.reducers.bytes.per.reducer=32123456;reduce任务处理量默认256000000
set hive.exec.parallel=true;并行执行
set hive.exec.parallel.thread.number=16;同一SQL最大并行度
set hive.mapred.mode=nonstrict;非严格模式
set mapred.job.reuse.jvm.num.tasks=5;jvm重用个数
set hive.mapred.reduce.tasks.speculative.execution=true;推测执行
set hive.exec.compress.intermediate=true;压缩算法
set mapred.map.output.compression.codec= org.apache.hadoop.io.compress.SnappyCodec;#设置中间数据的压缩算法
set hive.input.format= org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;小文件合并
set mapreduce.input.fileinputformat.split.maxsize=10485760;一个block块大小
set hive.exec.reducers.bytes.per.reducer=256000000;每个Reduce处理的数据量默认是256MB
set hive.exec.reducers.max=1009;每个任务最大的reduce数,默认为1009
set mapreduce.job.reduces=3;设置每一个job中reduce个数
统计指标
select
substr(tb.begin_address_code , 1 ,4) as begin_address_code ,
count(distinct vehicle_license) as dayVehicleCount
from
(select
begin_address_code ,
vehicle_license
from
order
where
date_format(create_time , yyyy-MM-dd) 2020-02-15
) tb
grou…
假定样本集 D {X1, 的,…, Xm} 包含 m 个无标记样本, 每个样本 X (X1; X2;… ; Xn) 是一个 n 维特征向量,则聚类算法将样本 集 D 划分为 k 个不相交的簇 {Gl I l 1, 2;… ,时,其中…
k 近邻(k-Nearest Neighbor,简称 kNN)学习是一种常用的监督学习方法, 其工作机制非常简单: 给定测试样本?基于某种距离度量找出训练集中与其最 靠近的 k 个训练样本,然后基于这 k 个"邻居"的信息来进行预测. 通常, 在分…
k 近邻(k-Nearest Neighbor,简称 kNN)学习是一种常用的监督学习方法, 其工作机制非常简单: 给定测试样本?基于某种距离度量找出训练集中与其最 靠近的 k 个训练样本,然后基于这 k 个"邻居"的信息来进行预测. 通常, 在分…