Spark SQL----Hints

Spark SQL----Hints

  • 一、描述
  • 二、语法
  • 三、分区提示
    • 3.1 分区提示类型
    • 3.2 例子
  • 四、Join Hints
    • 4.1 Join提示类型
    • 4.2 例子

一、描述

提示(Hints)为用户提供了一种方法来建议Spark SQL如何使用特定的方法来生成其执行计划。

二、语法

/*+ hint [ , ... ] */

三、分区提示

分区提示允许用户建议Spark应该遵循的分区策略。支持COALESCE、REPARTITION和REPARTITION_BY_RANGE提示,它们分别相当于coalesce、repartition和repartitionByRange的 Dataset APIs。REBALANCE只能用作提示,这些提示给用户提供了一种优化性能和控制Spark SQL输出文件数量的方法。当指定多个分区提示时,会将多个节点插入到逻辑计划中,但优化器会选择最左边的提示。

3.1 分区提示类型

  • COALESCE
    COALESCE提示可用于将分区数量减少到指定的分区数量。它以分区编号作为参数。
  • REPARTITION
    REPARTITION提示可用于使用指定的分区表达式重新分区到指定数量的分区。它将分区号、列名或两者都作为参数。
  • REPARTITION_BY_RANGE
    REPARTITION_BY_RANGE提示可用于使用指定的分区表达式对指定数量的分区进行重新分区。它采用列名和可选的分区号作为参数。
  • REBALANCE
    REBALANCE提示可用于重新平衡查询结果输出分区,使每个分区都具有合理的大小(不太小也不太大)。它可以将列名作为参数,并尽最大努力按这些列对查询结果进行分区。这是一个best-effort:如果有倾斜,Spark会将倾斜的分区拆分,使这些分区不太大。当你需要将此查询的结果写入表以避免文件太小/太大时,此提示非常有用。如果未启用AQE,则忽略此提示。

3.2 例子

SELECT /*+ COALESCE(3) */ * FROM t;SELECT /*+ REPARTITION(3) */ * FROM t;SELECT /*+ REPARTITION(c) */ * FROM t;SELECT /*+ REPARTITION(3, c) */ * FROM t;SELECT /*+ REPARTITION_BY_RANGE(c) */ * FROM t;SELECT /*+ REPARTITION_BY_RANGE(3, c) */ * FROM t;SELECT /*+ REBALANCE */ * FROM t;SELECT /*+ REBALANCE(3) */ * FROM t;SELECT /*+ REBALANCE(c) */ * FROM t;SELECT /*+ REBALANCE(3, c) */ * FROM t;-- multiple partitioning hints
EXPLAIN EXTENDED SELECT /*+ REPARTITION(100), COALESCE(500), REPARTITION_BY_RANGE(3, c) */ * FROM t;
== Parsed Logical Plan ==
'UnresolvedHint REPARTITION, [100]
+- 'UnresolvedHint COALESCE, [500]+- 'UnresolvedHint REPARTITION_BY_RANGE, [3, 'c]+- 'Project [*]+- 'UnresolvedRelation [t]== Analyzed Logical Plan ==
name: string, c: int
Repartition 100, true
+- Repartition 500, false+- RepartitionByExpression [c#30 ASC NULLS FIRST], 3+- Project [name#29, c#30]+- SubqueryAlias spark_catalog.default.t+- Relation[name#29,c#30] parquet== Optimized Logical Plan ==
Repartition 100, true
+- Relation[name#29,c#30] parquet== Physical Plan ==
Exchange RoundRobinPartitioning(100), false, [id=#121]
+- *(1) ColumnarToRow+- FileScan parquet default.t[name#29,c#30] Batched: true, DataFilters: [], Format: Parquet,Location: CatalogFileIndex[file:/spark/spark-warehouse/t], PartitionFilters: [],PushedFilters: [], ReadSchema: struct<name:string>

四、Join Hints

Join提示允许用户建议Spark应该使用的join策略。在Spark 3.0之前,仅支持BROADCAST Join Hint。3.0中增加了对MERGE、SHUFFLE_HASH和SHUFFLE_REPLICATE_NL Joint提示的支持。当在join的两侧都指定了不同的join策略提示时,Spark会按以下顺序对提示进行优先级排序:BROADCAST > MERGE > SHUFFLE_HASH > SHUFFLE_REPLICATE_NL。当两侧都使用BROADCAST提示或SHUFFLE_HASH提示时,Spark会根据join类型和relations的大小来选择构建侧。由于给定的策略可能不支持所有的join类型,因此不能保证Spark使用提示建议的join策略。

4.1 Join提示类型

  • BROADCAST
    建议Spark使用broadcast join。无论autoBroadcastJoinThreshold如何,都将广播带有提示的join端。如果join的两侧都有广播提示,则将广播大小较小的一个(基于统计数据)。BROADCAST的别名是BROADCASTJOIN和MAPJOIN。
  • MERGE
    建议Spark使用shuffle sort merge join。MERGE的别名是SHUFFLE_MERGE和MERGEJOIN。
  • SHUFFLE_HASH
    建议Spark使用shuffle hash join。如果双方都有huffle hash提示,Spark会选择较小的一方(基于统计数据)作为构建方。
  • SHUFFLE_REPLICATE_NL
    建议Spark使用shuffle-and-replicate nested loop join。

4.2 例子

-- Join Hints for broadcast join
SELECT /*+ BROADCAST(t1) */ * FROM t1 INNER JOIN t2 ON t1.key = t2.key;
SELECT /*+ BROADCASTJOIN (t1) */ * FROM t1 left JOIN t2 ON t1.key = t2.key;
SELECT /*+ MAPJOIN(t2) */ * FROM t1 right JOIN t2 ON t1.key = t2.key;-- Join Hints for shuffle sort merge join
SELECT /*+ SHUFFLE_MERGE(t1) */ * FROM t1 INNER JOIN t2 ON t1.key = t2.key;
SELECT /*+ MERGEJOIN(t2) */ * FROM t1 INNER JOIN t2 ON t1.key = t2.key;
SELECT /*+ MERGE(t1) */ * FROM t1 INNER JOIN t2 ON t1.key = t2.key;-- Join Hints for shuffle hash join
SELECT /*+ SHUFFLE_HASH(t1) */ * FROM t1 INNER JOIN t2 ON t1.key = t2.key;-- Join Hints for shuffle-and-replicate nested loop join
SELECT /*+ SHUFFLE_REPLICATE_NL(t1) */ * FROM t1 INNER JOIN t2 ON t1.key = t2.key;-- When different join strategy hints are specified on both sides of a join, Spark
-- prioritizes the BROADCAST hint over the MERGE hint over the SHUFFLE_HASH hint
-- over the SHUFFLE_REPLICATE_NL hint.
-- Spark will issue Warning in the following example
-- org.apache.spark.sql.catalyst.analysis.HintErrorLogger: Hint (strategy=merge)
-- is overridden by another hint and will not take effect.
SELECT /*+ BROADCAST(t1), MERGE(t1, t2) */ * FROM t1 INNER JOIN t2 ON t1.key = t2.key;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/875749.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

jstat -gc 60120 5000 100

这些参数和缩写通常是用于描述 Java 进程的内存使用情况和垃圾收集&#xff08;GC&#xff09;活动统计的指标&#xff0c;通常是从 JDK 提供的工具或者 JVM 的性能监控工具输出的结果。让我们逐个解释这些缩写的含义&#xff1a; S0C: Survivor 0 区的容量&#xff08;Capaci…

Centos8 yum 更换源以及安装内核头文件

文章目录 一、简介二、yum 更换源三、安装内核头文件 一、简介 CentOS 是一个开源项目&#xff0c;发布了两个不同的 Linux 发行版——CentOS Stream 和 CentOS Linux 。 CentOS Stream 是即将发布的红帽企业 Linux 产品的上游开发平台。 CentOS 项目将于 2024 年 6 月 30 日…

Android Handler之消息同步屏障

文章目录 Android Handler之消息同步屏障概述源码分析开启消息屏障取异步消息删除消息屏障 应用场景 Android Handler之消息同步屏障 概述 同步屏障&#xff1a;即消息的同步阻碍&#xff0c;指阻碍同步消息&#xff0c;只让异步消息通过。 平时我们通过 Handler 发送到消息…

力扣 1047删除字符串中的所有相邻重复项

思路&#xff1a; 用栈来实现&#xff0c;遍历s,如果当前元素与栈顶元素相同&#xff0c;则弹栈&#xff0c;否则入栈。 栈内剩下的元素全部弹栈&#xff0c;再翻转 代码方面&#xff1a;元素入栈的情况 if(mystack.empty() ||mystack.top() !num) 元素出栈&#xff0c;用…

嵌入式C++、ROS 、OpenCV、SLAM 算法和路径规划算法:自主导航的移动机器人流程设计(代码示例)

在当今科技迅速发展的背景下&#xff0c;嵌入式自主移动机器人以其广泛的应用前景和技术挑战吸引了越来越多的研究者和开发者。本文将详细介绍一个嵌入式自主移动机器人项目&#xff0c;涵盖其硬件与软件系统设计、代码实现及项目总结&#xff0c;并提供相关参考文献。 项目概…

基于区块链技术的高校教育资源共享的研究

&#xff08;一&#xff09;项目背景 时代变迁下的高教管理革新需求 当前&#xff0c;我国高等教育体系深受行政化管理模式影响&#xff0c;其在指引办学方向、资源优化配置及院校稳定上功不可没。然而&#xff0c;随着社会主义市场经济体系的深化发展&#xff0c;该模式逐渐显…

电脑录屏直播怎么录?3款软件推荐,达人必备

电脑录屏直播成为了一种新型、有趣且高效的传播方式。想象一下&#xff0c;当您喜欢的游戏博主进行精彩有趣的游戏直播&#xff0c;而您却因为没时间将要错过这场精彩绝伦的直播。这时&#xff0c;一款好用的录屏软件是您的必需品&#xff0c;电脑录屏能让您不再错过屏幕上的精…

学习记录701@org.hibernate.MappingException: No Dialect mapping for JDBC

使用spring data jpa 时报错&#xff1a;javax.persistence.PersistenceException: org.hibernate.MappingException: No Dialect mapping for JDBC type: 0。 但是在数据库中sql是可以执行的。 我是用的是原生查询&#xff1a; Query query entityManager.createNativeQuer…

第一百八十一节 Java IO教程 - Java文件树

Java IO教程 - Java文件树 FileVisitor API可以递归地处理文件树中的所有文件和目录。 当我们要对文件树中的所有或某些文件或目录执行某些操作时&#xff0c;FileVisitor API非常有用。 SimpleFileVisitor类是FileVisitor接口的基本实现。 当访问文件/目录时&#xff0c;Si…

React Native在移动端落地实践

在移动互联网产品迅猛发展的今天&#xff0c;技术的不断创新使得企业越来越注重降低成本、提升效率。为了在有限的开发资源下迅速推出高质量、用户体验好的产品&#xff0c;以实现公司发展&#xff0c;业界催生了许多移动端跨平台解决方案。这些方案不仅简化了开发流程&#xf…

速盾:网络安全和 CDN 之间的关系是怎样的?

网络安全和内容交付网络&#xff08;CDN&#xff09;之间有着密切的关系。网络安全主要涉及保护网络和系统免受各种威胁和攻击&#xff0c;而CDN是一种用于提供更快速、高效和可靠的内容交付服务的技术。在当今数字化和云计算时代&#xff0c;网络安全和CDN之间的关系变得更加紧…

zookeeper开启SASL权限认证

目录 一、SASL介绍 二、使用 SASL 进行身份验证 2.1 服务器到服务器的身份验证 2.2 客户端到服务器身份验证 三、验证功能 一、SASL介绍 默认情况下&#xff0c;ZooKeeper 不使用任何形式的身份验证并允许匿名连接。但是&#xff0c;它支持 Java 身份验证与授权服务(JAAS)…

景联文科技入选艾瑞咨询《2024年中国AI基础数据服务产业图谱》

2024年7月&#xff0c;国内领先的数据服务提供商景联文科技&#xff0c;成功入选艾瑞咨询发布的《2024年中国AI基础数据服务产业图谱》&#xff0c;这一荣誉不仅是对景联文科技在AI数据服务领域卓越成就的认可&#xff0c;也是对公司在未来发展中持续引领行业创新的高度期待。 …

FastAPI(七十七)实战开发《在线课程学习系统》接口开发-- 课程编辑和查看评论

源码见&#xff1a;"fastapi_study_road-learning_system_online_courses: fastapi框架实战之--在线课程学习系统" 课程编辑 先来看下课程编辑 1.判断是否登录 2.判断课程是否存在 3.是否有权限&#xff08;只有自己可以修改自己的课程&#xff09; 4.名称是否重复…

Docusaurus VS VuePress:哪一个更适合你的技术文档?

&#x1f49d;&#x1f49d;&#x1f49d;欢迎莅临我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

Tensorflow2.0全套学习(持续更新中)

0 简介 1.学习目标 两大核心模块&#xff1a;深度学习经典算法与Tensorflow项目实战 从零开始&#xff0c;详细的网络模型架构与框架实现方法 2.tensorflow&#xff1a;核心开源库&#xff0c;深度学习框架&#xff0c;帮助开发和训练机器学习模型 3.版本2比1有哪些优势 …

数据库开发:MySQL基础(二)

MySQL基础&#xff08;二&#xff09; 一、表的关联关系 在关系型数据库中&#xff0c;表之间可以通过关联关系进行连接和查询。关联关系是指两个或多个表之间的关系&#xff0c;通过共享相同的列或键来建立连接。常见的关联关系有三种类型&#xff1a;一对多关系&#xff0c;…

2024年7月25日(Git gitlab以及分支管理 )

分布式版本控制系统 一、Git概述 Git 是一种分布式版本控制系统,用于跟踪和管理代码的变更。它是由Linus Torvalds创建的,最 初被设计用于Linux内核的开发。Git允许开发人员跟踪和管理代码的版本,并且可以在不同的开 发人员之间进行协作。 Github 用的就是Git系统来管理它们的…

安卓嘀嗒清单v7.2.2.2高级版

软件介绍 TickTick是一款轻便高效的任务管理、日程管理&#xff08;GTD&#xff09;和时间管理应用&#xff0c;配备强大的记事和提醒功能。你可以在手机、平板、网页等多达11个平台上使用滴答清单记录大小事务、制定工作计划、整理购物清单、设置生日提醒&#xff0c;甚至安排…

react ant Input defaultValue={value}设置了value值以后,但是defalult没有赋值上,输入框也没有显示

在 React 中&#xff0c;defaultValue 是一个非受控属性&#xff0c;而 value 是一个受控属性。这两个属性都可以用于设置 Input 组件的值&#xff0c;但是它们的工作方式有所不同。 value&#xff1a;这是一个受控属性&#xff0c;意味着输入框的值由 React 状态控制。每当状态…