Query Execution
- 通关记录
- Task1 Access Method Executors
- SeqScan
- Insert
- Update
- Delete
- IndexScan
- Optimizing SeqScan to IndexScan
- Task2 Aggregation & Join Executors
- Aggregation
- NextedLoopJoin
- Task3 HashJoin Executor and Optimization
- HashJoin
- Optimizing NestedLoopJoin to HashJoin
- Task4 Sort + Limit Executors + Window Functions + Top-N Optimization
- Sort
- Limit Executor
- Top-N Optimization Rule
CMU-15445汇总
本文对应的project版本为CMU-Fall-2023的project3
由于Andy要求,本博客只提供思路,不会公开任何代码
通关记录
Task1 Access Method Executors
Task1涉及各种基本算子的实现。
SeqScan
顺序扫描算子非常简单,遍历表堆中的所有记录即可(使用MakeIterator
方法),同时,可以将filter放到SeqScan中做,减少上层算子的计算时间。
Insert
插入算子直接调用InsertTuple
方法即可,同时,需要遍历所有索引,插入新的索引键值对。
Update
更新算子需要根据plan的target_expressions进行新记录的构建,然后将表堆中的旧记录删除(设置tuple_meta的is_deleted字段),并插入新纪录,最后更新索引(也是删除旧索引项+插入新索引项)。
Delete
删除算子很简单,删除表堆中的记录并删除对应索引项。
IndexScan
索引扫描算子可以直接从索引中查找符合条件的记录(ScanKey
)方法,遍历所有记录并返回即可。
Optimizing SeqScan to IndexScan
递归遍历计划树,将符合条件的SeqScan计划,转化为IndexScan计划即可。
Task2 Aggregation & Join Executors
Aggregation
聚合算子采用哈希表实现,在init阶段将所有的键值对构造好,然后逐一遍历返回即可。
NextedLoopJoin
嵌套循环连接算子也比较简单,就是直接双重循环,判断两边的记录是否满足连接条件即可。
Task3 HashJoin Executor and Optimization
HashJoin
使用右表的连接值作为key去构造哈希表,然后遍历左表,将左表的连接值作为key到哈希表中查找,构造新记录即可。
Optimizing NestedLoopJoin to HashJoin
简单的条件判断以及算子转换而已。
Task4 Sort + Limit Executors + Window Functions + Top-N Optimization
Sort
利用lambda函数+sort直接排序即可
Limit Executor
没啥难度,直接返回前几个记录而已。
Top-N Optimization Rule
将包含sort和limit的查询,优化为topN查询,采用大顶堆或小顶堆来优化查询效率即可。