记一次复杂左连接的优化之路

记一次复杂左连接的优化之路

news/2025/4/27 4:32:19/文章来源:https://blog.csdn.net/xielinrui123/article/details/135893119

慢执行分析

create table t3 as
select t_1.lon as lon,
t_1.lat as lat,
t_1.label as label,
t_1.is_core as is_core,
t_2.grid_id as grid_id,
t_2.mid_jd as mid_jd,
t_2.mid_wd as mid_wd,
t_2.zs_jd as zs_jd,
t_2.zs_wd as zs_wd,
t_2.yx_jd as yx_jd,
t_2.yx_wd as yx_wd
from t_1
left join t_2
on t_1.lon >= t_2.zs_jd and t_1.lon <= t_2.yx_jd and t_1.lat >= t_2.yx_wd and t_1.lat <= t_2.zs_wd
分析上述代码，如果t_1表的数量级是100万、t_2的数量级是1000万，那么这个左连接在spark中会有多大的执行规模，如何进行优化

这段代码是一个在Spark中执行的SQL查询，它在两个表t_1和t_2之间执行左连接。连接条件基于纬度（lat）和经度（lon）列的空间约束。

如果t_1有100万行，t_2有1000万行，这个左连接在Spark中可能会有较大的执行规模。以下是一些建议和优化策略：

广播小表（t_2）： 如果较小的表（t_2）可以适应每个Spark执行器的内存，可以使用广播。广播是一种技术，其中较小的表被发送到每个执行器，减少了洗牌的需求。在Spark SQL中，你可以使用BROADCAST提示：
```
SELECT /*+ BROADCAST(t_2) */ t_1.lon as lon, ...
```
但是，是否广播取决于较小表的大小和Spark集群中的可用内存。
分区和桶化： 确保两个表都适当地进行了分区和桶化。这可以帮助减少连接操作期间需要洗牌的数据量。例如，如果连接键的分布是均匀的，这可能导致更有效的连接操作。
优化连接条件：

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/659486.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

基于单片机温度控制系统的研究

基于单片机温度控制系统的研究

摘　要：笔者基于单片机的温度控制系统，从单片机选择、传感器选择、系统框架设计等方面概述了单片机的温度控制系统内涵，分析了其运行原理，列举了单片机温度控制系统设计的实操方法，从硬件系统、软件系统、温度检测方法…

阅读更多...

windows 11安装跳过联网，使用本地账户登陆

windows 11安装跳过联网，使用本地账户登陆

windows 11安装跳过联网，使用本地账户登陆第一步断开网络，拔网线第二步安装windows11 第三步 shiftF10调出命令行第四步输入命令： OOBE\BYPASSNRO回车自动重启，随后继续安装选择我没有网络，即可跳过win…

阅读更多...

springboot144基于mvc的高校办公室行政事务管理系统设计与实现

springboot144基于mvc的高校办公室行政事务管理系统设计与实现

简介【毕设源码推荐 javaweb 项目】基于springbootvue 的适用于计算机类毕业设计，课程设计参考与学习用途。仅供学习参考， 不得用于商业或者非法用途，否则，一切后果请用户自负。看运行截图看第五章第四章获取资料方式 **项…

阅读更多...

二叉搜索树操作题目：删除二叉搜索树中的结点

二叉搜索树操作题目：删除二叉搜索树中的结点

文章目录题目标题和出处难度题目描述要求示例数据范围进阶解法一思路和算法代码复杂度分析解法二思路和算法代码复杂度分析题目标题和出处标题：删除二叉搜索树中的结点出处：450. 删除二叉搜索树中的结点难度 5 级题目描述要求给定二叉…

阅读更多...

Ubuntu Linux 下安装和卸载cmake 3.28.2版本

Ubuntu Linux 下安装和卸载cmake 3.28.2版本

一、安装cmake 1.首先，先从cmake官网下载cmake-3.28.2-linux-x86_64.tar.gz 2.用FinalShell 等文件上传工具，将这个压缩包上传到虚拟机的某个路径去（自选） 3. cd /usr/local/bin/，然后创建cmake文件夹，…

阅读更多...

$pnpm : 无法加载文件 D:\tool\nvm\nvm\node_global\pnpm.ps1，因为在此系统上禁止运行脚本$

pnpm : 无法加载文件 D:\tool\nvm\nvm\node_global\pnpm.ps1，因为在此系统上禁止运行脚本

你们好，我是金金金。场景新创建的项目，在vscode编辑器终端输入 pnpm i，显示报错如上解决在终端输入get-ExecutionPolicy(查看执行策略/权限) 输出Restricted(受限的) 终端再次输入Set-ExecutionPolicy -Scope CurrentUser命令给用户赋予…

阅读更多...

STM32低功耗模式

STM32低功耗模式

一、低功耗模式介绍 STM32 的低功耗模式有 3 种： 1)睡眠模式（CM3 内核停止，外设仍然运行） 2)停止模式（所有时钟都停止） 3)待机模式（1.8V 内核电源关闭） 在这三种低功耗模式中&#…

阅读更多...

Vue3项目封装一个Element-plus Pagination分页

Vue3项目封装一个Element-plus Pagination分页

前言:后台系统分页肯定是离不开的,但是ui框架都很多,我们可以定义封装一种格式,所有项目按到这个结构来做. 实例: 第一步:在项目components组件新建一个分页组件,用来进行封装组件. 第二步:根据官方的进行定义,官方提供的这些,需要我们封装成动态模式第三步:代码改造 <!-…

阅读更多...

软件工程知识梳理0-概述

软件工程知识梳理0-概述

学好软件工程就必须理解软件工程到底是干什么的，为什么需要软件工程，以及怎么干的！只有理解了软件工程的本质，才能更好的理解软件工程中各种工程手段和方法的目的。个人开发模式 —> 小作坊开发模式 —> 软件工程开发模式 …

阅读更多...

zoneId、ZoneOffset、Date、LocalDateTime、ZonedDateTime、OffsetDateTime的区别

zoneId、ZoneOffset、Date、LocalDateTime、ZonedDateTime、OffsetDateTime的区别

1、zoneId 2、ZoneOffset继承了zoneId 3、ZoneOffset 和 TimeZone区别 ZoneOffset 和 TimeZone 是 Java 编程语言中处理时区信息的两个不同的类。 ZoneOffset 类： ZoneOffset 是 Java 8 中引入的日期时间 API 的一部分，位于 java.time 包中。它代表…

阅读更多...

Unity之第一人称角色控制

Unity之第一人称角色控制

目录第一人称角色控制 😴1、准备工作 📺2、鼠标控制摄像机视角 🎮3、角色控制 😃4.杂谈第一人称角色控制专栏Unity之动画和角色控制-CSDN博客的这一篇也有讲到角色控制器，是第三人称视角的，以小编…

阅读更多...

使用最大边界相关算法处理文章自动摘要

使用最大边界相关算法处理文章自动摘要

一、需求背景对于博客或者文章来说，摘要是普遍性的需求。但是我们不可能让作者自己手动填写摘要或者直接暴力截取文章的部分段落作为摘要，这样既不符合逻辑又不具有代表性，那么，是否有相关的算法或者数学理论能够完成这个需求呢&…

阅读更多...

【C++】默认成员函数

【C++】默认成员函数

与普通成员函数差距较大，形式对于我们比较陌生，但这是语法，是我们是必须要掌握的。目录类的默认成员函数：构造函数：概念：语法：特性： 析构函数：概念：语法&a…

阅读更多...

解决：ModuleNotFoundError: No module named ‘torchvision’

解决：ModuleNotFoundError: No module named ‘torchvision’

解决：ModuleNotFoundError: No module named ‘torchvision’ 文章目录解决：ModuleNotFoundError: No module named torchvision背景报错问题报错翻译报错位置代码报错原因解决方法方法一，直接安装方法二，手动下载安装方法三&…

阅读更多...

jdk17新特性—— 密封类(Sealed Classes)

jdk17新特性—— 密封类(Sealed Classes)

目录一、密封类(Sealed Classes)的概述1.1、概述1.2、特性1.3、注意事项二、密封类(Sealed Classes)代码示例2.1、密封类(Sealed Classes)代码结构示例2.2、密封类(Sealed Classes)代码示例三、密封类(Sealed Classes)接口代码示例3.1、密封类(Sealed Classes)接口代码结构示…

阅读更多...

go语言标准库flag命令行参数解析

go语言标准库flag命令行参数解析

Go语言内置的flag包实现了命令行参数的解析，flag包使得开发命令行工具更为简单。 os.Args 如果你只是简单的想要获取命令行参数，可以像下面的代码示例一样使用os.Args来获取命令行参数。 package mainimport ("fmt""os" )//os.Ar…

阅读更多...

微信小程序～上推加载更多组件

微信小程序～上推加载更多组件

本组件使用的是TaroReact 实现的 ，具体代码如下一共分为tsx和less文件 //index.tsx /** RefreshLoading* description 上推加载更多组件* param loading boolean* param style* returns*/import { View } from "tarojs/components"; import React, { FC…

阅读更多...

springboot(ssm爱心商城系统爱心捐赠商城系统Java系统

springboot(ssm爱心商城系统爱心捐赠商城系统Java系统

springboot(ssm同城上门喂遛宠物系统宠物预约系统Java系统开发语言：Java 框架：springboot（可改ssm） vue JDK版本：JDK1.8（或11） 服务器：tomcat 数据库：mysql 5.7&a…

阅读更多...

2023蓝帽初赛

2023蓝帽初赛

APK取证 1.涉案apk的包名是？[答题格式:com.baid.ccs] 用雷电APP智能分析打开在基本信息里得到应用包名答案：com.vestas.app 2.涉案apk的签名序列号是？[答题格式:0x93829bd] 同理，在详细信息里面找到了签名序列号答案&…

阅读更多...

nodejs+vue+mysql校园失物招领网站38tp1

nodejs+vue+mysql校园失物招领网站38tp1

本高校失物招领平台是为了提高用户查阅信息的效率和管理人员管理信息的工作效率，可以快速存储大量数据，还有信息检索功能，这大大的满足了用户和管理员这两者的需求。操作简单易懂，合理分析各个模块的功能，尽可能优化界…

阅读更多...

最新文章