Ventus(承影):基于RISC V的开源GPGPU

Ventus(承影):基于RVV的开源GPGPU

  清华大学集成电路学院dsp-lab的承影RVV GPGPU设计文档。

整体目标

  提供一个开源的基于RVV的GPGPU实现方案,并给出软件映射方案、指令集(支持的指令及特性、添加的自定义指令)和微架构实现。
在这里插入图片描述

软件任务调度及CTA实现方案

软件模型

  无论采用何种指令集及微架构,GPU的编程模型是一样的。最基本的编程行为是,CPU(host)在特定的上下文(context)中,将对应的数据放入GPU内存,然后在GPU端唤起一个任务(kernel),GPU接收任务并执行,执行完成后将结果写回GPU内存,并返回CPU一个完成信号,CPU将数据搬回。
  这个任务(kernel)在软件层面是按照grid、block、thread的层级下分的,每个kernel有一个grid,下面有若干个block,每个block有若干个warp。程序员对单个数据的操作抽象为一个thread,它是GPU的基本编程单位,程序员通过描述对一个thread的操作,并指定需要并行执行的block数、thread数,来完成并行编程的任务。

CTA任务分配

  在硬件层面,将按照32个thread组成一个warp的形式,作为整体在SM硬件上进行调度。同一个block的warp只能在同一个SM上运行,但是同一SM可以可以容纳来自不同block甚至不同grid的若干个warp。
  CPU发送给GPU的任务以block为基本单位,在我们的硬件上,block是单个任务单元,将由CTA scheduler接收,CTA scheduler会按block中包含的总warp数信息,以及需要占用的寄存器、local memory、sharedmemory大小,将block对应分配到空闲(即剩余资源足够)的SM上。(注意在rv架构下没做寄存器映射,因此默认分配32个标量寄存器和32个向量寄存器,下文有说明)
  CTA scheduler以warp为单位逐个发送给SM,同一block的warp会分配到同一SM中,warp_slot_id的低位即表明了该warp在当前block中的id,高位表明了block所属的id。相应的,SM会通过此id,计算出当前warp在所属block中的位置,并将该值置于CSR寄存器中,供软件使用。分配的sharedmem baseaddr,global baseaddr,pc start,也是通过CSR读取的。

nameaddrdescription
CSR_NUMW0x801该block中的warp总数
CSR_NUMT0x802一个warp中的thread总数
CSR_TID0x800该warp对应的thread id,是NUMT的倍数
CSR_WID0x805该block中本warp对应的warp id
CSR_GDS0x807global memory的baseaddr ,在纯仿真中是shared memory的最大值
CSR_LDS0x806该block分配的shared memory的baseaddr

汇编编程说明

  目前Ventus没有配套的编译器,为实现针对上述硬件行为的额外操作,在汇编中需要手动插入这些指令:

  1. 需要通过 vid.v 与 csrrs CSR_TID 相加来获得thread各自的id
  2. 访存时预先读取 CSR_GDS和CSR_LDS作为数据基址
  3. 自定义指令的使用:
    1. predicate:我们在支持RVV定义的软件控制mask的同时,也支持用自定义指令来启动隐式的硬件predicate,详见自定义指令一节。
    2. warp运行结束时需要显式使用endprg指令。
    3. 同步目前仅支持同一block内warp间的全局同步。

  其余行为与RVV编程一致。对于超过单组硬件处理能力长度的向量数据,支持使用RVV中定义的stripmining方式执行,默认单次处理num_thread个数据。与向量处理器不同的是,这时可以用SIMT-stack而非软件mask来实现,也可以在block大小允许时拆分为更多warp去调度。
  以gaussian消元为例,将Ax=b中的A变为上三角矩阵:软件人员编程时,矩阵的每个元素都是预期以行为单位组织thread,计算时不同的行计算系数,相乘并减去,逐行处理完所有比自己行号小的行。循环的次数、相乘的位置由thread id决定。

指令集架构

RVV与GPGPU的结合

  《量化研究方法》中提到了向量处理单元与多线程GPU在SIMD层面上的工作形式十分相似,向量处理器的车道与多线程SIMD的线程是相似的。区别在于通常GPGPU的硬件单元更多,chime(钟鸣)更短,向量处理器通过深度流水线化的访问来隐藏延迟,GPGPU则是通过同时多warp切换来隐藏延迟。因此在向量层面的操作上,RVV足以覆盖住GPGPU中的操作。此外,形如AMD和turing后的NV,提供了标量ALU,也是借鉴了向量处理器的方式。
  因此,在RVV的基础上添加自定义的分支控制指令、线程同步指令、线程控制指令,就能实现GPGPU的功能。
  为了最大限度的保留对RVV开源工具链的兼容性,我们对RVV中的大部分指令都进行了支持。少数不支持的指令包括:1. 涉及线程间数据交换的shuffle等指令,在GPGPU中线程间通常是独立操作,数据依赖需要用atomic或barrier显式操作 2. 向量寄存器长度和宽度变化的指令,GPGPU中几乎不会触及(少有的几条向量或者量化相关的功能会需要类似的功能) 3. 64bit相关的指令,在后续版本将支持。
  在RVV的stripmining基础上添加warp级别并行,或许能在更优尺度上裁剪向量/SIMT指令,探索任务划分和调度空间。

寄存器设计

  承影当前的寄存器堆实现方案为:单个SM上能同时承载的最大warp数为num_warp,每个warp由num_thread个线程组成。每个warp都有一套自己的寄存器,包括32个标量寄存器和32个向量寄存器,每个标量寄存器的宽度为32bit,每个向量寄存器的宽度为32*num_thread,并归属于各个thread私有。
  虽然所用指令形式和意义相同,但区别于RVV,GPGPU中并不支持向量寄存器的长度和数量变化(长度固定为32bit,数量固定为num_thread),因此对于vsetvl系列指令,只有返回的剩余元素数量是有效的。
  考虑到寄存器的实际使用,未额外规定浮点寄存器,需采用与zfinx扩展相同的方式管理。此外,由于长度为32bit,也不支持double相关的指令,以及64位相关的指令(即不支持rv64中wordlength=64bit的指令)。

地址映射

  GPGPU中的物理地址空间包括sharedmem和globalmem,在PTX中每个地址都带有属性声明了其类型。
  但在RV中没有该字段,加上目前没有设计MMU,因此承影目前的方案是用地址范围来区分sharedmem和globalmem。
  所有SM共用一个4GB的全局地址空间,其中地址为0-128kB的字段将被映射到SM内部各自的sharedmem上,从global_baseaddr到4G的空间则映射到同一块ddr的相同地址上(即该部分使用物理地址)。而ddr中0-global_baseaddr的部分仅可以通过icache访问,可用于储存指令。
目前同步仅支持block内warp间同步,通过barrier实现。

支持的指令

目前承影支持RVV中的指令包括以下类型:

  1. 计算类,包括整数运算(加减、比较、移位、位运算、乘、乘加、除)、单精度浮点运算(加减、乘、乘加、除、整型转换、比较),支持带mask执行
  2. 访存类,包括三种访存模式,以及byte级读写,支持带mask执行
  3. mask类,包括比较及逻辑运算,但不包括vmsbf等涉及thread间通信的指令,也不支持gather等操作
    对于改变向量位宽的指令暂不支持,但vsetl系列指令可以返回vl供stripmining使用。
    RV32I中支持除ecall ebreak外的指令。由于目前没设计MMU,仅支持机器模式。
    M F中支持32bit相关指令。

目前的自定义指令包括:

  1. predicate:我们在支持RVV定义的软件控制mask的同时,也支持用自定义指令来启动隐式的硬件predicate。启动的方式是使用自定义的vbeq系列线程分支指令,该指令会启动一个split,计算出当前分支的mask情形,并将else对应的mask压入SIMT-stack,然后带有mask执行if段,待if段末尾遇到join后再将else段及其对应mask出栈,待if段执行完成后合并恢复mask,分支结束。该过程可以嵌套。此外,如果分支计算出全走其中一条,将不会压栈并跳过另一条分支,带有branch divergence的for循环也可以用此机制实现。
  2. barrier:用该指令可以实现warp间的同步,每个遇到该barrier指令的warp都会等待,直到该block中所有未结束的warp都遇到此指令才会再次继续。
  3. endprg:warp运行结束时需要显式使用endprg指令。

微架构设计

CTA-scheduler

  参考miaow的版本进行设计。CTA-scheduler记录了每个SM中寄存器和sharedmemory的使用情况,根据host发送的CTA信息,将CTA分配给剩余资源足够的SM并以warp为单位发送到SM上。整体结构由host-interface、pending-workgroup table、allocator、resource table、GPU interface组成,由Controller统一控制。

L1 cache

L1 向量数据缓存

  写穿通,写不分配。非阻塞式cache,使用静态MSHR管理in-flight miss。向L2写回数据时对齐word。目前bank数量与流水线车道数量保持一致,未来支持可配置任意2的幂次。LSU发起的请求必须coalesce,即向量所有元素集中在一个cache line。使用多bank SRAM支持向量数据读写,两个所访问元素位于同一个SRAM bank时称为bank冲突。使用仲裁机制把请求分摊到多个周期返回。

指令缓存

  只读标量缓存。非阻塞式cache(以支持大量warp的交替工作),使用类似的静态MSHR管理miss。

L2 cache

  参考sifive的block-inclusive-cache进行设计。为便于观察写入结果,目前L2cache采用了write through策略。

SM(streaming multiprocessor)

  SM内部总体分为前端和后端,前端包括了取指、译码、指令缓冲、寄存器堆、发射、记分板、warp调度,后端包括了ALU、vALU、vFPU、LSU、SFU、CSR、SIMT-stack、warp控制等。涉及寄存器连接的模块间均采用握手机制传递信号。

warp调度

  warp调度器主要的功能包括:

  1. 接收CTA调度器提供的warp的信息,分配warp所属的硬件单元并预设CSR寄存器值,激活该warp并标记所属的block信息。在warp执行完成后,将该信息返回给CTA调度器并释放对应硬件。
  2. 接收流水线发送的barrier指令信息,将指定的warp锁住直到其所属的block的所有活跃warp到达此barrier。
  3. 选择发给icache的warp,通常采用贪婪的策略,但当icache发生miss,或ibuffer已满时会将该warp的pc回退并切换到下一个warp发射。
  4. 选择发给执行单元的warp,通常采用轮询的策略,选择出当前指令缓冲有效、记分板未显示冲突、执行单元空闲的指令。切换warp仅需要一个周期。
取指

  每个warp存储各自的pc,被选中送入icache的pc会+4,其余保留原值,遇到跳转时则替换为目标地址。

译码

  icache命中的指令进行译码,译码器根据指令内容转换出对应的控制信号,并送入对应的指令缓冲中。

指令缓冲

  指令缓冲是一系列的FIFO,每个warp有各自的ibuffer,接收译码后的输入并等待选中发射。

寄存器堆

  不同于gpu中的设计,由于rv中指定了需要32个寄存器,因此目前的寄存器按照warp进行了分区,每个区域都是32个标量寄存器加32个向量寄存器。
标量寄存器提供至多三个读端口(乘加指令的三个操作数)与一个写端口(采用复制三份的单端口读写寄存器实现),向量寄存器提供至多四个读端口(三个源操作数与一个mask)与一个写端口,支持带mask的写入。
按照warp分区、单指令至多读4个寄存器也确保了读数时不会发生bank conflict。

发射

  发射仲裁由warp调度器进行,被选中的控制信号与源操作数一起,依据识别其所需运算单元的类型,发送到对应运算单元执行。SIMT-stack相关指令需要同时用到vALU和SIMT-stack两个执行单元。

记分板

  每个warp有各自的记分板,当一条指令发射成功后,所写入的寄存器将被记分板标记,下一条指令若会读写已被标记的寄存器,则不允许发射,直到指令执行完成记分板释放对应寄存器。
分支、线程分歧、跳转、barrier指令也会被锁住,只有这些指令完成判断且能继续顺序执行时才会释放。执行barrier期间,会同时清空除ibuffer外的流水线(属于该warp的部分);若发生跳转,会同时清空所有流水线(属于该warp的部分),此后记分板解除锁定。

写回

  各个运算单元在输出级均有FIFO,等待写回寄存器的结果暂存在其中,由Arbiter选中后写回寄存器。写回标量寄存器与向量寄存器是完全独立的数据通路。

ALU

  ALU中进行标量运算,包括warp间共用的数据,以及跳转控制等。

vALU

  是单个ALU的复制,是核心的整型运算单元,供warp的多线程车道进行运算。目前一个周期完成一次请求,后续版本会修改功能单元数目,并采用与SFU相似的方式多周期执行。

vFPU

  是核心的浮点运算单元,供warp的多线程车道进行运算。标量浮点运算也在此进行。

MUL

  乘法运算单元,2个周期完成32bit乘法。

LSU

  是核心的访存单元,会根据地址范围判断将读写请求发送给sharedmem或dcache(再由L1 dcache访问L2cache,再访问ddr即globalmemory)。
  LSU中有MSHR形式的结构,可以一次存储和记录多个LSU请求,也会收集dcache和sharedmem返回的数据,集齐后再返回给流水线。
LSU中会完成strided及索引模式下向量地址的计算,并根据地址范围以cacheline为单位进行合并访问。最理想的情况(指地址连续且对齐cacheline)下一次访存即可取出单个warp所需结果。bank conflict由sharedmem和dcache自行处理。
  在LSU中还会记录现有的访存请求信息,以实现fence指令。当遇到该指令后,会让所属warp的所有访存请求处理完成(读数据返回数据,写数据返回写响应)后再发送新的访存请求。

CSR

  在warp启动时,对应的CSR会设置好应用程序所需的一些值,包括thread id等。vsetl也在此计算。其余与CSR的功能一致。

SFU

  区别于PTX中提供的sin cos等函数,目前的SFU只支持了rv定义的整数除法取余、浮点除法、浮点平方根功能。本身运算就需要多周期完成,加上SFU中的运算单元数量少于lane数,因此如果未mask的线程较多时,chime会更长。

warp控制

  barrier、endprg会发送给warp调度器处理。

SIMT-stack

  SIMT stack的主要功能如下:维护分支嵌套控制流,保障程序运行的正确性;在实际没有分支分歧发生时,跳过不必要程序段的执行。
由SIMT-stack设置的隐式mask会在该warp执行过程中一直生效,直到有其它分支管理支持对其进行修改。该mask与RVV软件形式的mask可以叠加生效。
  与分支管理相关的自定义扩展指令集有7条,其中6条为分支指令,1条为汇合指令,且if与else汇合的执行不同。以vbeq指令为例,需要完成的功能为:取源操作数vs2与vs1,valu模块对这两个向量寄存器中的元素一一进行比较,对于第i个元素,若vs2[i]=vs1[i],则计算结果out[i]为1,最终valu的输出结果out为分支指令对应的else路径掩码,同时译码模块将向分支管理模块发送分支发生标记以及else路径PC起始值PC branch。
整体微架构方案如图所示。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/2534.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

经典的目标检测算法有哪些?

一、经典的目标检测算法有哪些? 目标检测算法根据其处理流程可以分为两大类:One-Stage(单阶段)算法和Two-Stage(两阶段)算法。以下是一些经典的目标检测算法: 单阶段算法: YOLO (You Only Loo…

iOS ------代理 分类 拓展

代理协议 一,概念: 代理,又称委托代理(delegate),是iOS中常用的一种设计模式。顾名思义,它是把某个对象要做的事委托给别的对象去做。那么别的对象就是这个对象的代理,代替它来打理…

图书租赁系统-借阅图书

图中展示了所有可以借阅的图书&#xff0c;点击“借阅”按钮便可以借阅图书。 借阅成功后&#xff0c;可以到bookorder菜单中阅读该书。 阅读功能待开发。 add.html借阅图书页面 <!DOCTYPE html> <html lang"zh" xmlns:th"http://www.thymeleaf.org…

学习经验分享【33】YOLOv5 / YOLOv7 / YOLOv8 / YOLOv9 / RTDETR 基于 Pyside6 的图形化界面

大论文可以写两章关于算法创新模型&#xff0c;最后一章可以写对前两章提出方法进行封装&#xff0c;利用PyQT5搭建YOLOv5可视化界面&#xff0c;并打包成exe程序&#xff0c;构建检测平台实现简单的应用。用来凑大论文的字数和工作量&#xff0c;是简单又快速的方法&#xff0…

如何使用国内手机号免费注册一个美区 Apple ID?

因为一些众所周知的原因&#xff0c;在国内使用 iPhone 是被阉割过的&#xff0c;如果想要用完全版就需要用到美区账号&#xff0c;废话不多说直接上图。 在 iPhone 的浏览器上打开链接进行注册 https://appleid.apple.com/account 如果注册提示&#xff1a;Your request cou…

SpringCloud注册nacos错误:Could not resolvplaceholder ‘xxxxx‘ in value “xxxx“

这个错误是我在做spirngcloud注册服务到nacos时发现的&#xff0c;算是折磨我折磨了好久&#xff0c;最后发现了还是先记录一下&#xff0c;首先还是说一下我的项目版本信息&#xff0c;因为不同的版本就有这不同的解决方案&#xff0c;这也是最恶心的一点&#xff0c;以至于我…

基于RT-Thread的智能家居助手

一、项目简介 智能家居助手主要基于RT-Thread开发的&#xff0c;该系统主要分为语音子系统&#xff0c;环境监测子系统&#xff0c;智能控制子系统&#xff0c;智能网关子系统&#xff0c;音乐播放器&#xff0c;云端以及应用软件七大部分。语音子系统可通过语音进行人机交互来…

OpenCV——图像分块局部阈值二值化

目录 一、算法原理1、算法概述2、参考文献 二、代码实现三、结果展示 OpenCV——图像分块局部阈值二值化由CSDN点云侠原创&#xff0c;爬虫自重。如果你不是在点云侠的博客中看到该文章&#xff0c;那么此处便是不要脸的爬虫。 一、算法原理 1、算法概述 针对目前局部阈值二值…

from_pretrained明明以及下载好模型,却突然不能加载了报错

本人报错&#xff1a;OSError: Error no file named model_index.json found in directory /home/xxx/我的python学习/textToImage/sdxl-turbo. 原因&#xff1a;路径错误导致无法加载模型的配置文件 pipe AutoPipelineForText2Image.from_pretrained("stabilityai/sdx…

HORROR SYSTEM

HORROR SYSTEM是一个创新的工具包,允许开发者在Unity3D中创建独特的原创恐怖游戏。 HORROR SYSTEM是一款强大而灵活的工具,旨在基于Unity3D引擎创建沉浸式第三人称恐怖游戏。 这项资产易于使用且直观,可以让任何经验水平的开发人员将他们的想法付诸实践,创造出高质量、充满…

文献速递:深度学习胶质瘤诊断---空间细胞结构预测胶质母细胞瘤的预后

Title 题目 Spatial cellular architecture predicts prognosis in glioblastoma 空间细胞结构预测胶质母细胞瘤的预后 01文献速递介绍 胶质母细胞瘤的治疗耐药性的关键驱动因素是肿瘤内的异质性和细胞状态的可塑性。在这里&#xff0c;我们调查了空间细胞组织与胶质母细胞瘤…

python爬虫 - 爬取html中的script数据(zum.com新闻信息 )

文章目录 1. 分析页面内容数据格式2. 使用re.findall方法&#xff0c;编写爬虫代码3. 使用re.search 方法&#xff0c;编写爬虫代码 1. 分析页面内容数据格式 &#xff08;1&#xff09;打开 https://zum.com/ &#xff08;2&#xff09;按F12&#xff08;或 在网页上右键 --…

C++中的五种高级初始化技术:从reserve到piecewise_construct等

C高级初始化技术&#xff1a;reserve、emplace_back、constinit、Lambda表达式、piecewise_construct 一、简介二、reserve 结合 emplace_back三、C 20的constinit四、Lambda表达式和初始化五、make_unique_for_overwrite六、piecewise_construct 和 forward_as_tuple七、总结 …

SpringBoot xxl-job 任务调度

首先官网下载xxl-job的源代码&#xff0c;然后切换到jdk8&#xff0c;等Maven下载依赖 执行mysql的脚本&#xff0c;修改连接配置&#xff0c;启动admin站点 默认地址 http://localhost:8080/xxl-job-admin/ 先新增一个任务执行器&#xff0c;指向未来任务代码的站点 然后在…

探索亚马逊云科技「生成式 AI 精英速成计划」

目录 前言「生成式 AI 精英速成计划」技术开发课程学习课程学习 总结 前言 亚马逊云科技&#xff08;Amazon Web Services&#xff0c;简称AWS&#xff09;作为全球领先的云计算服务提供商&#xff0c;一直以来在推动人工智能&#xff08;AI&#xff09;领域的发展中扮演着重要…

MATLAB将多张小图整合到一张大图形成模板图

MATLAB将多张小图整合到一张大图形成模板图 代码如下: clc;close all;clear all;warning off;%清除变量 rand(seed, 100); randn(seed, 100); format long g;foldername字符模板; [datacell,filenamecell,filenameAllcell]readfun_1n(foldername); K2length(filenamecell);% …

读天才与算法:人脑与AI的数学思维笔记08_生物的创造力

1. 生物的创造力 1.1. 在进化树中是否有其他的物种已经具有与我们人类相当的创造力水平 1.2. 20世纪50年代中期&#xff0c;动物学家德斯蒙德莫里斯&#xff08;Desmond Morris&#xff09;在伦敦动物园做了这样一个试验 1.2.1. 动物学家给…

Laravel 6 - 第十四章 响应

​ 文章目录 Laravel 6 - 第一章 简介 Laravel 6 - 第二章 项目搭建 Laravel 6 - 第三章 文件夹结构 Laravel 6 - 第四章 生命周期 Laravel 6 - 第五章 控制反转和依赖注入 Laravel 6 - 第六章 服务容器 Laravel 6 - 第七章 服务提供者 Laravel 6 - 第八章 门面 Laravel 6 - …

《ESP8266通信指南》4-以Client进行TCP通信(AT指令)

往期 《ESP8266通信指南》3-常用AT指令详解-8266连WIFI-CSDN博客 《ESP8266通信指南》2-ESP8266 AT测试-CSDN博客 《ESP8266通信指南》1-ESP8266 简介-CSDN博客 1. 小节目标 通过 AT 指令使用 8266 进行 TCP 通信 2. 书接上回 复习以下&#xff0c;上一小节我们讲到了 8…

hyperf 三十一 极简DB组件

一 安装及配置 composer require hyperf/db php bin/hyperf.php vendor:publish hyperf/db 默认配置 config/autoload/db.php 如下&#xff0c;数据库支持多库配置&#xff0c;默认为 default。 配置项类型默认值备注driverstring无数据库引擎 支持 pdo 和 mysqlhoststringl…