SparkSQL调优

1、执行计划（过往记忆https://www.iteblog.com/archives/2562.html）

df.explain(true)//显示逻辑计划和物理计划，不加true只显示物理计划

2、逻辑计划优化方法：

谓词下推，列裁剪，常量替换，常量累加

3、优化方法

数据源方面：

1、hive 使用parquet格式，不要用textfile。列式存储便于查询引擎做谓词下推、更优的压缩算法（不同列可以采取不同的压缩算法）减少IO，块遍历等优化方法。

2、Kafka根据key的hash值分区，OGG到Kafka 表名作为key，因此不同大小的表可以更改表名，均衡分到不同partition。

sparkSQL程序方面(spark优化)：

1、多次用到的表，做cache。默认进行压缩。

spark.sql.inMemoryColumnarStorage.compressed //默认为true，为每个列选择压缩方式
spark.sql.inMemoryColumnarStorage.batchSize //默认为10000 byte 控制列缓存的批量大小。批次大有助于改善内存使用和压缩，但是缓存数据会有OOM的风险

2、小于10M的表会自动broadcast，走broadcast join，调高广播表的大小，使其走broadcast join ，但是太大有可能driver端OOM，-1为禁止自动广播。

当使用的外部变量较大时，也可把外部变量作为广播变量进行广播。

spark.sql.autoBroadcastJoinThreshold //默认10485760 (10 MB)

val listBrodcast = spark.sparkContext.broadcast(list)

3、sparkSQL shuffle read partition默认为200，提高可解决部分数据倾斜问题。

spark.sql.shuffle.partitions //默认200

4、读不可分割的文件，一个文件一个partition，若小文件过多，影响效率，设置多个文件写入一个分区

spark.sql.files.openCostInBytes //默认4194304 (4 MB)，打开一个文件的时间可读取4MB数据，因此小于4M的文件读入一个分区（待验证）

spark.sql.files.maxPartitionBytes //默认134217728 (128 MB)，文件传入一个分区里的最大字节数

5、使用高效的算子

1、reduceByKey/aggregateByKey代替groupByKey//前者partition内部会进行预聚合，后者不进行预聚合直接全局shuffle
2、mapPartitions代替map，foreachpartitions 代替foreach//前者会一次性读取整个partition的数据进行处理，比如建立数据库连接在foreachpartitions中，不要在foreach
3、filter之后coallease

6、修改序列化器为kryo，并注册序列化类

conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
conf.registerKryoClasses(Array(classOf[MyClass1], classOf[MyClass2])

7、join方式(https://www.cnblogs.com/suanec/p/7560399.html)

转载于:https://www.cnblogs.com/csyusu/p/11048383.html

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/448692.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

SparkSQL调优

相关文章

AMD发布APPML源码，构建clMath库

最简单的 post 请求发起方式、调用其它系统接口

CSS基础学习 18.CSS多列

BGP

OpenCL 2.0发布，带来更强悍的异构计算能力

从一个OutOfMemoryError 学会了分析Java内存泄漏问题

Ubuntu安装php7.2

会出现 unreachable statement 的可能

Hadoop+GPU强强联手的性能探索

Vue Google浏览器插件 Vue Devtools无法使用的解决办法

JVM原理探究及调优方法论

超方便、最简单版本：java 邮件发送（半分钟写完代码）

OpenCL(CUDA5.0) + Visual Studio 2010 环境配置

Q-Dir

一行代码实现集合去重

《Mali OpenCL SDK v1.1.0》教程样例之一“Hello World”

PHP商城数据库安全事务处理方法

职业规划之ABZ，未雨绸缪35岁危机

集合去重（集合元素为引用类型）--- java 8 新特性 --- 根据元素单属性、多属性实现去重

Django--Forms组件使用