LLVM 后端执行流程

异构计算程序工作流程

在这里插入图片描述

图4-1中的LLVM后端的主要功能是代码生成,其中包括若干指令生成分析转换pass,将LLVM IR 转换为特定目标架构的机器代码

LLVM 流水线结构

在这里插入图片描述

输入指令经过图4-2中的各个阶段,从最初的LLVM IR,逐步演化为SelectionDAG、MachineDAG、MachineInstr,最后由MCInst 输出可执行的二进制代码或汇编代码

这其中经过的各个阶段是不同的分析转换pass,主要包括指令选择(Instrunction Selection)、指令调度(Instrunction Scheduling), 寄存器分配(Register Allocation)、以及代码发射(Code Emission)

不同目标后端应根据实际需要,对不同pass做定制化。指令选择、指令调度和寄存器分配是后端流程中最重要的3个组成部分

LLVM 后端执行流程

SelectionDAG 的创建

首先,SelectionDAGBuilder 模块遍历LLVM IR中每一函数,以及函数中的每一个基本块,并将其中的指令转换成SDNode对象,整个基本块相应地转换为Selection DAG 对象。SelectDAG 对象的创建过程采用窥孔优化算法,DAG中每个节点的内容仍是LLVM IR指令

在这里插入图片描述

图4-3以一个C/C++语言实现的函数为例,显示了LLVM IR 与 SelectionDAG的对应关系

图4-3的LLVM IR 中只有一个基本块。当SelectionDAGBuilder模块检测到IR指令时,调用相应的visit()函数

例如,如果IR指令为sdiv操作,则调用visitSDIV() 函数,将两个操作数保存为SD-Vaule对象,并从DAG中获取SDNode节点,以ISD::SDIV作为操作符

  • 在图4-3所示的sdiv节点中,操作数0为%add,操作数1为%c

用类似的方法处理完所有IR指令后,IR被转换为如图4-3所示的SelectionDAG。每个DAG表示一个基本块中的计算,不同的基本块与不同的DAG关联

DAG中的节点表示计算,节点之间的边可以有不同的含义。DAG中的每个SDNode节点会维护一个记录,其中保存了本节点对其他节点的各种依赖关系

这些依赖关系可能是数据依赖(本节点使用了其他节点定义的值),也可能是控制流依赖(本节点的指令必须在其他节点的指令执行后才能执行)

这种依赖关系通过SDValue对象表示,SDValue对象中封装了指向关联节点的指针和被影响结果的的序列号。也可以说,DAG中的操作顺序通过DAG边的使用-定值关系确定

例如,图4-3中的sdiv节点中有一条输出边连接到add节点,这意味着add节点定义了一个会被sdive中使用的值

因此,add操作必须在sdiv节点之前执行。SelectionDAG中的节点依赖关系可总结为如下三类

  • 黑色箭头表述数据流依赖。数据流依赖表示当前节点依赖前一节点的结果。DAG中大部分节点依赖关系是数据流依赖
  • 虚线彩色箭头表示非数据流链依赖。链依赖可以防止副作用节点,确定两个不相关指令的顺序。例如,如果加载和保存指令访问的是相同的内存位置,就必须确保它们的执行顺序与其在原程序中的顺序一致。图中的CopyToReg节点操作必须在RET_FLAG节点之前发生,因为它们之间是链依赖
  • 彩色箭头表示粘合(glue)依赖。粘合依赖是用来防止两个指令调度后被分开,即它们中间不能插入其他指令

将IR转换为DAG很重要,因为可以让代码生成器使用基于树的模式匹配指令选择算法。此时的SelectionDAG与目标设备无关,但对于具体目标设备而言,DAG中有些指令可能不合法。因为不同目标设备支持的指令集不同,指令集中的指令IR指令可能没有对应关系

  • 例如,x86不支持sdiv而是支持sdivrem

合法化

由SelectionDAGBuilder 模块输出的SelectionDAG 不是机器指令,不能做指令选择。在生成机器指令之前,DAG节点还要经过几个转换阶段,其中合法化(legalization)是最重要的阶段

执行合法化的原因是SelectionDAGBuilder 模块构造SDNode节点中的指令操作数类型和操作不一定能被目标平台支持。因此,SDNode节点的合法化及操作数类型的合法化和操作的合法化

目标平台一般不可能为IR中的所有操作提供指令支持。因此,操作合法化的目的是将这些平台不支持的操作三种方式转换成平台支持的操作

    1. 扩展(Expansion): 即用一组操作来模拟一个操作
    1. 提升(Promotion): 即将数据转换成更大的类型来支持操作
    1. 定制(Custom): 即通过目标平台相关的钩子程序(hook) 实现合法化

例如,LLVM IR 的sdiv只计算商,而x86除法指令计算得到商和余数,并分别保存在两个寄存器中。因为指令选择可区分sdivrem和sdiv,因此,当目标平台不支持sdiv时,需要在合法化阶段将sdiv扩展到sdivrem指令

在这里插入图片描述

目标平台相关信息可通过TargetLowering接口传递给SelectionDAG,如图4-4所示

LLVM后端会实现该接口,并描述如何将LLVM IR指令用合法的SelectionDAG操作实现。例如,x86的TargetLowering构造合法函数通过Expand标志来标识需要扩展的节点

当SelectionDAGLegalize::LegalizeOp()方法检测到sdiv节点的Expand标志时,便可用sdivrem替换sdiv节点

与此类似,与目标平台相关的合并方法可识别节点组合模式,并决定是否合并某些节点组合以提高指令选择质量

类型合法化的目的是保证后续的指令选择处理的数据类型都合法。合法数据是目标平台原生支持的数据类型,目标平台的td文件中会为每一种数据类型定义关联的寄存器类如:

def FPRegs : RegisterClass<"SP", [f32], 32, (sequence "F%u", 0, 31)>
def DFPRegs : RegisterClass<"SP", [f64], 64, (add D0, D1, D2, D3, D4, D5, D6, D7, D8, D9)>

FPRegs 寄存器类定义了一组32个从F0~F31单精度浮点类型的寄存器,DFPRegs 寄存器类定义了一组16个从D0~D15双精度浮点类型的寄存器

如果平台的td文件的寄存器类没有定义相应的数据类型,则对平台来说,该数据类型就是非法数据类型。非法数据类型必须被删除,或者视非法数据类型不同,做相应处理

如果非法数据类型为标量,则可以将较小的非法类型转换为较大的合法类型。例如,平台只支持i32,那么i1/i8/i16都要提升到i32,使其合法化

或者将较大的非法类型拆分成多个小的合法类型。例如,如果目标平台只支持i32,那么加法的i64操作数就是非法类型。在这种情况下,可通过整数扩展(integer expansion),将i64操作数分解成两个i32操作数,并产生相应的节点,使其合法化

如果非法数据类型为矢量,则可以将大的非法矢量操作拆分成多个,可以被平台支持的,小的矢量。或者将非法矢量操作数标量化(scalarizing),即在不支持SIMD的平台上,将矢量拆分为多个标量进行运算

指令选择

SelectionDAG 对象经过合法化和其他优化处理,DAG中的节点被映射为目标指令,这个映射过程称为指令选择

指令选择是LLVM后端中的一个重要阶段。这个阶段的输入是经过合法化的SelectionDAG。从耗时方面来说,指令选择占用了后端编译总耗时的一半。指令选择通过节点模式匹配完成DAG到DAG的转换,将SelectionDAG 节点转换为目标指令节点,也就是将LLVM IR指令转换为机器指令,所以转换后的DAG又称为machineDAG,可以用来执行基本块中的运算

LLVM的指令是一种在TableGen辅助下实现的基于表的指令选择机制。目标平台的后端可以在SelectionDAGISel::Select()函数中通过定制代码处理某些指令

其他指令通过TableGen生成的匹配表(MatcherTable)和SelectCode()函数,由LLVM默认的指令选择过程完成ISD和平台ISD到机器指令节点的映射

  • 例如,在x86后端中,经过合法化的sdivrem操作就是由定制代码做指令选择
  • Select()函数的输入SDNode节点如果是sdivrem,会选择对应的x86指令IDIV32r,并生成一个MachineSD节点

MachineSD 节点是SDNOde的子集,其内容是平台机器指令,但仍然以DAG节点的是形式表手。以下三种类型指令表达可在同一个DAG中共存:一般LLVM ISD节点(如ISD::ADD)、平台相关ISD节点(如X86ISD::RET_FLAG)和平台指令(如X86::ADD32ri8)

指令调度

指令选择完成后得到以machineDAG格式表示的基本块,其内容虽然是机器指令,但仍然是以DAG形式存在

而CPU/GPU 不能执行DAG,只能执行指令的线性序列。因此,需要在machineDAG上进行指令调度,确定基本块中指令的执行顺序,将DAG节点线性化

指令调度分为寄存器分配前(pre-RA) 指令调度和寄存器分配后(post-RA) 指令调度。最简单的寄存器分配前指令调度是指将DAG中的节点按拓扑结构排序,在考虑指令级的并行性的同时,生成线性发射指令序列。经过该阶段后的指令转换为MachineInstr格式的3地址。此后,DAG表示形式不再使用,可以销毁

寄存器分配后指令调度处理MachineInstr格式的机器指令,并可以利用物理寄存器信息和硬件架构特性,根据性能指标需要,对指令顺序做调整

寄存器分配

经过指令阶段产生的代码是SSA形式的,代码中可以使用无限多的虚拟寄存器,而硬件平台的物理寄存器数量是有限的

如果物理寄存器数量不足以容纳所有虚拟寄存器,虚拟寄存器则会溢出(spill)到内存。因此,寄存器分配的目的是为虚拟寄存器分配物理寄存器,并优化寄存器分配过程,使虚拟寄存器的溢出代价最小化

虚拟寄存器到物理寄存器的映射有两种方式

  • 直接映射和间接映射

直接映射利用TargetRegisterInfo 和 MachineOperand 类获取加载/保存指令插入位置,间接映射利用VirtRegMap类处理加载/保存指令

LLVM中的寄存器分配算法有四种

  • 基本寄存器分配
  • 快速寄存器分配
  • PBQP 寄存器分配
  • 贪厌寄存器分配

在这里插入图片描述

寄存器分配过程依赖其他分析pass的分析结果,其中最重要的是寄存器合并(register coalese) pass 和虚拟寄存器重写(virtual register rewrite) pass

由于二地址转换过程中生成复制指令,从而引入了新的虚拟寄存器,这对后续的物理寄存器分配带来了压力

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/25740.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Python】使用pip安装seaborn sns及失败解决方法与sns.load_dataset(“tips“)

&#x1f60e; 作者介绍&#xff1a;我是程序员洲洲&#xff0c;一个热爱写作的非著名程序员。CSDN全栈优质领域创作者、华为云博客社区云享专家、阿里云博客社区专家博主。 &#x1f913; 同时欢迎大家关注其他专栏&#xff0c;我将分享Web前后端开发、人工智能、机器学习、深…

《python程序语言设计》2018版第5章第35题求完全数,解题经历,我认为的正确代码放在最后

5.35从4月开始一直到成功&#xff0c;此文章将所有的记录和不同阶段代码展现给大家。但是没有配图&#xff0c;我最后成功的代码放在了最后。 2024.04.15 05.35.01version 求完整数&#xff0c;这个让我突然有点蒙。我什么时候能求完整数呢&#xff1f;&#xff1f; 正因子之和…

网络分析(ArcPy)

一.前言 GIS中的网络分析最重要的便是纠正拓扑关系&#xff0c;建立矫正好的网络数据集&#xff0c;再进行网络分析&#xff0c;一般大家都是鼠标在arcgis上点点点&#xff0c;今天说一下Arcpy来解决的方案&#xff0c;对python的要求并不高,具体api参数查询arcgis帮助文档即可…

JavaScript 使用优先级队列的霍夫曼编码(Huffman Coding using Priority Queue)

先决条件&#xff1a; 贪婪算法 | (霍夫曼编码)、priority_queue::push() 和 C STL 中的 priority_queue::pop() 。 贪婪算法 | (霍夫曼编码)&#xff1a; C#&#xff1a;C# 霍夫曼编码 | 贪婪算法&#xff08;Huffman Coding | Greedy Algo&#xff09;-CSDN博客 JavaScr…

Java数组的定义 ,基本概念与使用

数组的定义 1.问题:想将一个数据保存起来,我们可以使用变量,但是变量一次只能存储一个数据,所以我们想能不能一次存多个数据2.数组概述:是一个容器,数组本身属于引用数据类型3.作用:一次存储多个数据4.特点:a.既可以存储基本类型的数据,还能存储引用类型的数据b.定长(定义数组…

【Android面试八股文】一图展示 Android生命周期:从Activity到Fragment,以及完整的Android Fragment生命周期

图片来源于&#xff1a;https://github.com/xxv/android-lifecycle Android生命周期&#xff1a;从Activity到Fragment 图&#xff1a;android-lifecycle-activity-to-fragments.png 完整的Android Fragment生命周期 图&#xff1a;complete_android_fragment_lifecycle.png…

人脸考勤项目实训

第一章 Python-----Anaconda安装 文章目录 第一章 Python-----Anaconda安装前言一、Anaconda是什么&#xff1f;二、Anaconda的前世今生二、Windows安装步骤1.官网下载2.安装步骤安装虚拟环境 总结 前言 工欲善其事必先利其器&#xff0c;项目第一步&#xff0c;安装我们的环境…

Django ListView 列表视图类

ListView是Django的通用视图之一&#xff0c;它用于显示一个对象列表。这个视图将所有的对象作为一个上下文变量传递给模板。 1&#xff0c;创建应用 python manage.py startapp app3 2&#xff0c;注册应用 Test/Test/settings.py Test/Test/urls.py 3&#xff0c;添加模型 …

【EDA】SSTA中最慢路径与最快路径统计计算

假设(X1,X2)为二元高斯随机向量,均值(μ1,μ2),标准差(σ1,σ2),相关系数ρ 定义:X=max(X1,X2),Y=min(X1,X2) SSTA中计算setup/hold的worst delay时即求X、Y,路径N对应维度为N维。 X的概率密度函数PDF为f(x)=f1(-x)+f2(-x),f1和f2为: 其中小Φ和大Φ…

牛客题目数据结构

做过线段树2模板大概可以写出一部分代码&#xff0c;这题主要关键点是怎么维护平方和 借图了 这样处理完maketag的代码就出来了 void maketag(int id,int l,int r,ll v,int opt){if(opt1){seg[id].val*v;seg[id].pfval*(v*v);seg[id].mul*v;seg[id].add*v;}else{seg[id].pfva…

【机器学习】决策树模型(个人笔记)

文章目录 多样性指标基尼杂质指数&#xff08;Gini Impurity Index&#xff09;熵&#xff08;Entropy&#xff09; 决策树的应用 源代码文件请点击此处&#xff01; 多样性指标 基尼杂质指数&#xff08;Gini Impurity Index&#xff09; 若集合中包含 m m m 个元素和 n …

LeetCode1318或运算的最小翻转次数

题目描述 给你三个正整数 a、b 和 c。你可以对 a 和 b 的二进制表示进行位翻转操作&#xff0c;返回能够使按位或运算 a OR b c 成立的最小翻转次数。「位翻转操作」是指将一个数的二进制表示任何单个位上的 1 变成 0 或者 0 变成 1 。 解析 这一题就按位依次比较就行了。取这…

[C++数据结构之看懂就这一篇]图(上)

&#x1f4da;博客主页&#xff1a;Zhui_Yi_&#x1f50d;&#xff1a;上期回顾&#xff1a;JAVA面向对象&#xff08;上&#xff09;❤️感谢大家点赞&#x1f44d;&#x1f3fb;收藏⭐评论✍&#x1f3fb;&#xff0c;您的三连就是我持续更新的动力❤️&#x1f387;追当今朝…

Simscape Multibody与RigidBodyTree:机器人建模

RigidBodyTree&#xff1a;主要用于表示机器人刚体结构的动力学模型&#xff0c;重点关注机器人的几何结构、质量和力矩&#xff0c;以及它们如何随时间变化。它通常用于计算机器人的运动和受力情况。Simscape Multibody&#xff1a;作为Simscape的一个子模块&#xff0c;专门用…

情景题之小明的Linux实习之旅:linux实战练习1(下)【基础命令,权限修改,日志查询,进程管理...】

小明的Linux实习之旅&#xff1a;基础指令练习情景练习题下 前景提要小明是怎么做的场景1&#xff1a;初识Linux&#xff0c;创建目录和文件场景2&#xff1a;权限管理&#xff0c;小明的权限困惑场景3&#xff1a;打包与解压&#xff0c;小明的备份操作场景4&#xff1a;使用G…

【思考】Vue2响应丢失、$set

【思考】Vue2响应丢失、$set vue2响应丢失情况复现原因解决总结 vue2响应丢失情况复现 场景&#xff1a;直接通过数组下标去修改数组造成响应丢失 <template><div><p v-for"(item, index) in list" :key"index">{{item}}</p><…

渗透测试模拟实战(二)-BlueCMS平台

渗透测试 渗透测试是维护网络安全的重要组成部分&#xff0c;可以帮助组织识别并修复潜在的安全漏洞&#xff0c;减少被恶意攻击的风险。然而&#xff0c;进行渗透测试时必须遵守法律和道德规范&#xff0c;确保所有活动都在授权范围内进行。 环境部署&#xff1a; study2016、…

【优选算法】优先级队列 {优先级队列解决TopK问题,利用大小堆维护数据流的中位数}

一、经验总结 优先级队列&#xff08;堆&#xff09;&#xff0c;常用于在集合中筛选最值或解决TopK问题。 提示&#xff1a;对于固定序列的TopK问题&#xff0c;最优解决方案是快速选择算法&#xff0c;时间复杂度为O(N)比堆算法O(NlogK)更优&#xff1b;而对于动态维护数据流…

linux 网桥学习

前言&#xff1a; 本文来学习一下linux网桥概念和网桥配置 1. linux网桥概念 网桥&#xff0c;类似于中继器&#xff0c;连接局域网中两个或者多个网段。它与中继器的不同之处就在于它能够解析它收发的数据&#xff0c;读取目标地址信息&#xff08;MAC&#xff09;&#xff…

立创EDA专业版设置位号居中并调整字体大小

选择某一个器件位号&#xff0c;右键->查找&#xff1a; 选择查找全部&#xff1a; 下面会显示查找结果&#xff1a; 查看&#xff0c;所有的位号都被选中了&#xff1a; 然后布局->属性位置&#xff1a; 属性位置选择中间&#xff1a; 然后位号就居中了 调整字体大小&a…