Postgresql多线程hashjoin(inner join)

pg hashjoin 节点大致步骤:
1、分块与分桶。对一个表hash时,确定块数和桶数量。(一块被划分为10个元组的桶)确定分块号与分桶号是由hashvalue决定的。
2、执行:

  • 1、顺序获取S表中所有元组,对每一条元组Hash,获取块号和桶号,块号为0,放入内存桶中。
    否则放入S表建立的临时文件中。
    标记内存中块号curbatch = 0
  • 2、从表R中获取元组,进行Hash,获取元组块号和桶号。
    当块号 = 当前内存块号,直接扫描对应桶,寻找满足条件的元组并进行连接。
    否则放入为表R建立的临时文件中(每个块都有一个)
    一直执行,直到R扫描完毕。
  • 3、从S表中,块号为curbatch+1对应的临时文件中读取所有存储的元组,将其hash到对应桶内,curbatch++。
  • 4、从R表块中,块号为curbatch对应临时文件读取所有存储元组,并计算桶号,并扫描桶中S,寻找满足连接条件的tuple。

build hash table

pg11,buildhashtable阶段:
1、每个worker并行扫描部分inner_table。
2、在共享内存中并行build一个hash表
3、每个worker并行地扫描outer_table,并行执行join probe操作
需要注意的是,在join之前,需要通过barrier机制,先完成自己build操作的线程需要等待hashtable被完整build后才能进入下一步的probe状态。

multipleBatch的probe与hash

1、并行扫描inner_table,属于batch0的tuple在内存中构建一个shared hash table;不属于这个batch的写入对应batch的inner tuple文件中
2、并行扫描outer_table,写入对应batch的outer_tuple文件。
3、并行地对batch0执行join
4、某些workers先完成batch0地join后,分别领取后续batch的join任务。

状态机

对于正在处理某个batch的worker来说
1、若没有build完成,且有其他worker加入进来,则一起并行build hash table,在join之前必须barrier同步
2、若build完成,无需barrier
3、在barrier相关的module中,每个worker加入执行attach时,barrier中维护计数,在需要等待的地方判断计数是否归零。
在这里插入图片描述

参考

https://zhuanlan.zhihu.com/p/112003245

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/376994.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

iframe实现局部刷新和回调--开篇

今天做项目遇到一个问题。就是提交表单的时候,验证用户名是否存在和验证码是否正确。 当验证码或者用户名存在的时候。在后台弹窗提示。可页面原本file里面符合要求的值刷新没了。用户体验不好。因为用ifream刷新技术已不是什么新鲜技术。所以网上有大把的资料可参考…

Java文件类boolean setExecutable(boolean exec_file,boolean owner_access)方法,带示例

文件类boolean setExecutable(boolean exec_file,boolean owner_access) (File Class boolean setExecutable(boolean exec_file , boolean owner_access)) This method is available in package java.io.File.setExecutable(boolean exec_file , boolean owner_acc…

OLTP 系统和 OLAP 系统的核心设计思想

关于 OLTP 系统和 OLAP 系统的核心设计思想 数据存储系统的关于查询的典型操作: -- 第一种需求: 根据 key(1) 找 value(name,age), 单点查询 select name, age from student where id 1; stu…

虚拟机

vt-x 虚拟技术的硬盘支持。想像成“硬解码”的东东。不是装虚拟机必须的,但有它效果会好些。 vt-x检测工具:securable.exe 下载地址:http://pan.baidu.com/s/1kTBOvzD Hardware Virtualization选项: no [CPU和BIOS都不支持VT] loc…

算法(转)

欢迎自荐和推荐链接。 算法 优秀博客推荐:各种数据结构与算法知识入门经典(不断更新)基本算法 贪心算法:贪心算法 作者:独酌逸醉 贪心算法精讲 作者:3522021224 递归和分治:递归与分治策略 …

sjf调度算法_如何通过静态方法预测SJF调度中未来过程的突发时间?

sjf调度算法In SJF Scheduling, CPU is assigned to the process having the smallest burst time but it can not be implemented practically, because we dont know burst time of the arrived processes in advance. 在SJF Scheduling中 ,将CPU分配给具有最短突…

flask 知识点总结

request对象的常用属性具体使用方法如下:request.headers, request.headers.get(If-None-Match)request.json, request.json[value] 或 request.json.get(detail_msg, "")request.args, request.args.get(limit, 10)来获取query parametersrequest.form, request.for…

Postgresql中的hybrid hash join(无状态机讲解)

hybrid hash join hybrid hash join是基于grace hash join 的优化。 在postgresql中的grace hash join 是这样做的:inner table太大不能一次性全部放到内存中,pg会把inner table 和outer table按照join的key分成多个分区,每个分区(有一个inn…

末日中的黎明

哈哈, 今天是2012-12-21,传说中的世界末日,不过现在看来,一切都是空的。。。 在这个容易记忆的日子里,我的博客开通了。他将伴随我以后的学习开发,期望我能充分利用博客,帮我养成常总结、常记笔…

使用numpy.tanh()打印矢量/矩阵元素的双曲正切值 使用Python的线性代数

Prerequisite: 先决条件: Defining a Vector 定义向量 Defining a Matrix 定义矩阵 Numpy is the library of function that helps to construct or manipulate matrices and vectors. The function numpy.tanh(x) is a function used for generating a matrix / v…

Mahout kmeans聚类

Mahout K-means聚类 一、Kmeans 聚类原理 K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚…

Web项目中获取SpringBean——在非Spring组件中获取SpringBean

最近在做项目的时候我发现一个问题:Spring的IOC容器不能在Web中被引用(或者说不能被任意地引用)。我们在配置文件中让Spring自动装配,但并没有留住ApplicationContext的实例。我们如果希望在我们的项目中任何位置都能拿到同一个ApplicationContext来获取…

postgresql对于HashJoin算法的Data skew优化与MCV处理

Data skew 很好理解,即数据倾斜。现实中的数据很多都不是正态分布的,譬如城市人口,东部沿海一个市的人口与西部地区一个市地区的人口相比,东部城市人口会多好几倍。 postgresql的skew的优化核心思想是"避免磁盘IO"。 优…

JavaScript | 创建对象并通过JavaScript函数在表中显示其内容

In this example, we created an object named employee with id, name, gender, city, and salary and assigned and displaying the values in the table using JavaScript function. 在此示例中,我们创建了一个名为employee的对象,其对象为id &#x…

基于socket的简单文件传输系统

【实验目的及要求】 在 Uinx/Linux/Windows 环境下通过 socket 方式实现一个基于 Client/Server 文件传输程序。 【实验原理和步骤】 1. 确定传输模式:通过 socket 方式实现一个基于 Client/Server 或 P2P 模式的文件传输程序。 2. 如果选择的是 Client/Server 模式的文件传输…

《GPU高性能编程-CUDA实战》中例子头文件使用

《GPU高性能编程-CUDA实战(CUDA By Example)》中例子中使用的一些头文件是CUDA中和C中本身没有的,需要先下载这本书的源码,可以在:https://developer.nvidia.com/content/cuda-example-introduction-general-purpose-g…

mcq 队列_人工智能| AI解决问题| 才能问题解答(MCQ)| 套装1

mcq 队列1) Which of the following definitions correctly defines the State-space in an AI system? A state space can be defined as the collection of all the problem statesA state space is a state which exists in environment which is in outer spaceA state sp…

Postgresql的HashJoin状态机流程图整理

状态机 可以放大观看。 HashJoinState Hash Join运行期状态结构体 typedef struct HashJoinState {JoinState js; /* 基类;its first field is NodeTag */ExprState *hashclauses;//hash连接条件List *hj_OuterHashKeys; /* 外表条件链表;list of …

Ajax和Jsonp实践

之前一直使用jQuery的ajax方法,导致自己对浏览器原生的XMLHttpRequest对象不是很熟悉,于是决定自己写下,以下是个人写的deom,发表一下,聊表纪念。 Ajax 和 jsonp 的javascript 实现: /*! * ajax.js * …

得到前i-1个数中比A[i]小的最大值,使用set,然后二分查找

题目 有一个长度为 n 的序列 A&#xff0c;A[i] 表示序列中第 i 个数(1<i<n)。她定义序列中第 i 个数的 prev[i] 值 为前 i-1 个数中比 A[i] 小的最大的值&#xff0c;即满足 1<j<i 且 A[j]<A[i] 中最大的 A[j]&#xff0c;若不存在这样的数&#xff0c;则 pre…