hive避免MR的情况

hive避免MR的情况

news/2025/4/28 11:38:34/文章来源:https://blog.csdn.net/weixin_43705952/article/details/106009207

什么情况下Hive可以避免进行MapReduce
hive 为了执行效率考虑，简单的查询，就是只是select，不带count,sum,group by这样的，都不走map/reduce，直接读取hdfs目录中的文件进行filter过滤。

sql select * from employee;

sql select * from order_partition where month=‘2020-05’;

此外，如果设置属性 set hive.exec.mode.local.auto=true; hive还是会尝试使用本地模式。

1、直接查询表的数据不会进行Mapreduce。
2、查询语句中的过滤条件只是分区字段的情况下不会进行Mapreduce。

Hive表中间数据压缩

shell #设置为true为激活中间数据压缩功能，默认是false，没有开启 set hive.exec.compress.intermediate=true; #设置中间数据的压缩算法 set mapred.map.output.compression.codec= org.apache.hadoop.io.compress.SnappyCodec;

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/508773.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

flink常见算子的一些操作

flink常见算子的一些操作

常见Transformation操作 map和filter /*** 数据源：1 2 3 4 5.....源源不断过来* 通过map打印一下接受到数据* 通过filter过滤一下数据，我们只需要偶数*/ public class MapDemo {public static void main(String[] args) throws Exception {StreamExecut…

阅读更多...

flink的watermark参考配置

flink的watermark参考配置

需求描述：每隔5秒，计算最近10秒单词出现的次数。 TimeWindow实现 /*** 每隔5秒计算最近10秒单词出现的次数*/ public class TimeWindowWordCount {public static void main(String[] args) throws Exception{StreamExecutionEnvironment env StreamExe…

阅读更多...

hbase常见处理方式

hbase常见处理方式

相关依赖 <dependencies><dependency><groupId>org.apache.hbase</groupId><artifactId>hbase-client</artifactId><version>1.2.1</version></dependency><dependency><groupId>org.apache.hbase</gro…

阅读更多...

flink连接kafka整合hbase，scala

flink连接kafka整合hbase，scala

解析kafka当中的json格式的数据，入hbase import java.util.Propertiesimport com.alibaba.fastjson.{JSON, JSONObject} import org.apache.flink.api.common.serialization.SimpleStringSchema import org.apache.flink.contrib.streaming.state.RocksDBStateBack…

阅读更多...

sparkStreaming连接kafka整合hbase和redis

sparkStreaming连接kafka整合hbase和redis

sparkStreaming消费kafka数据，并将数据保存到redis和hbase当中去，实现实时 import org.apache.hadoop.hbase.client.{Admin, Connection} import org.apache.hadoop.hbase.{HColumnDescriptor, HTableDescriptor, TableName} import org.apache.kafka.c…

阅读更多...

sparksql一些指标

sparksql一些指标

统计指标 select substr(tb.begin_address_code , 1 ,4) as begin_address_code , count(distinct vehicle_license) as dayVehicleCount from (select begin_address_code , vehicle_license from order where date_format(create_time , yyyy-MM-dd) 2020-02-15 ) tb grou…

阅读更多...

sparkConf常见参数设置

sparkConf常见参数设置

def getSparkConf():SparkConf {val sparkConf: SparkConf new SparkConf().set("spark.driver.cores","4") //设置driver的CPU核数.set("spark.driver.maxResultSize","2g") //设置driver端结果存放的最大容量，这里设置…

阅读更多...

sparkSession常见参数设置

sparkSession常见参数设置

def getSparkSession(sparkConf:SparkConf):SparkSession {val sparkSession: SparkSession SparkSession.builder().config(sparkConf)//调度模式.config("spark.scheduler.mode", "FAIR").config("spark.executor.memoryOverhead", "51…

阅读更多...

关于kafka中acks是否可以为all

关于kafka中acks是否可以为all

kafka源码中有这样一段代码： org.apache.kafka.clients.producer.KafkaProducer private static int parseAcks(String acksString) {try {return acksString.trim().equalsIgnoreCase("all") ? -1 : Integer.parseInt(acksString.trim());} catch (Numb…

阅读更多...

关于统计时间切片标签的一些sql

关于统计时间切片标签的一些sql

------当天付费明细表 DROP TABLE IF EXISTS rpt.tmp_mm_rb_daily_ffmx; create table rpt.tmp_mm_rb_daily_ffmx as select a.* FROM (select c.feemsisdn, c.destmsisdn, c.day, c.price/1000 fee, c.contentid, dc.content_name, c.ordernumber, c.cdrtime, c.createtime, c…

阅读更多...

hadoop 二次开发DatanodeWriteTimeout设置

hadoop 二次开发DatanodeWriteTimeout设置

int getDatanodeWriteTimeout(int numNodes) {return this.dfsClientConf.confTime > 0 ? this.dfsClientConf.confTime 5000 * numNodes : 0;}int getDatanodeReadTimeout(int numNodes) {return this.dfsClientConf.socketTimeout > 0 ? 5000 * numNodes this.dfsC…

阅读更多...

聚类算法

聚类算法

假定样本集 D {X1， 的，…， Xm} 包含 m 个无标记样本， 每个样本 X (X1; X2;… ; Xn) 是一个 n 维特征向量，则聚类算法将样本集 D 划分为 k 个不相交的簇 {Gl I l 1， 2;… ，时，其中…

阅读更多...

k-means均值向量

k-means均值向量

给定样本集 D {Xl) 的，… ,xm}, “k 均值” (k-means )算法针对聚类所得簇划分 C {C1, C2,…, Ck} 最小化平方误差 ι ELL Ilx 一队IIL il EGi 其中队甘il LEGi X 是簇 q 的均值向量.在一定程度上刻画了簇内样本围绕簇均值向量的紧密程度， E 值越小则…

阅读更多...

学习向量量化

学习向量量化

与 k 均值算法类似，“学习向量量化” (Learning Vector Quantization，简称 LVQ)也是试图找到一组原型向量来刻画聚类结构， 但与一般聚类算法不同的是， LVQ 假设数据样本带有类别标记，学习过程利用样本的这些监督信息…

阅读更多...

k 近邻加权平均

k 近邻加权平均

k 近邻(k-Nearest Neighbor，简称 kNN)学习是一种常用的监督学习方法， 其工作机制非常简单: 给定测试样本?基于某种距离度量找出训练集中与其最靠近的 k 个训练样本，然后基于这 k 个"邻居"的信息来进行预测. 通常， 在分…

阅读更多...

k 近邻降维

k 近邻降维

k 近邻(k-Nearest Neighbor，简称 kNN)学习是一种常用的监督学习方法， 其工作机制非常简单: 给定测试样本?基于某种距离度量找出训练集中与其最靠近的 k 个训练样本，然后基于这 k 个"邻居"的信息来进行预测. 通常， 在分…

阅读更多...

维度建模工具

维度建模工具

幵始维度建模工作前，项目组需要理解业务需求，以及作为基础的源数据的实际情况。通过与、 Ik务代表交流来发现需求，用于理解他们的基于关键性能指标、竞争性商业问题、决策制定过程、支持分析需求的目标。同时，数据实际情况可以通…

阅读更多...

Cube和Grouping 和Rollup

Cube和Grouping 和Rollup

增强的聚合 Cube和Grouping 和Rollup 这几个分析函数通常用于OLAP中，不能累加，而且需要根据不同维度上钻和下钻的指标统计，比如，分小时、天、月的UV数。 GROUPING SETS 在一个GROUP BY查询中，根据不同的维度组合进行聚…

阅读更多...

常见维度建模错误

常见维度建模错误

需要避免的常见维度建模错误错误 10: 在事实表中放入文本属性要从数据仓库事实表中挑出这些文本属性，并将它们放入维度表中。错误 9: 限制使用冗长的描述符以节省空间维度表从几何上看总是比事实表小很多。错误 8: 将层次划分为多个维度以用户看来最自然最有…

阅读更多...

2020-09-21

2020-09-21

columns has 234 elements while hbase.columns.mapping has 92 elements (counting the key if implicit)) 根本原因： 对于4000个字符，hive Metastore中SERDE_PARAMS表中PARAM_VALUE字段的字符限制是此问题的根本原因。此限制可防止Hive创建具有高列数…

阅读更多...

最新文章