CUDA优化入门

本文记录了我的cuda学习经历,和大多数人一样,通过优化矩阵乘法的过程来了解一些基本的概念。仓库链接:

  • Gitee
  • Github

Refences

  • NVIIDA Fermi Architecture Whitepaper
  • CUDA C++ Programming Guide
  • CUDA C++ Best Practices Guide

其中Fermi架构是Compute Capability 2.0的架构。从白皮书里能了解到硬件相关的一些基本概念。比如streaming multiprocessor,有时候也简称multiprocessor或者SM。一个SM里有32个cuda core,有两个warp调度器。一个warp是由32个thread组成。和硬件结合后就比较容易理解,为什么一个block里最好至少放64个thread,因为有两个warp scheduler存在,至少可以放两个warp的thread进行工作。

Programming Guide里比较详细地介绍了编程模型(Programming Model),也比较详细地介绍了一些Runtime API。CUDA也提供了更底层的Driver API,但一般Runtime API已经够用了,而且使用起来更容易。除此之外,我看的比较多的还有不同版本的Compute Capability的介绍,其中包括每个SM最多能同时处理的block数量,每个block最大的线程数……这些在实际调用kernel的时候都需要考虑。

Best Practices Guide介绍的优化技巧和硬件就比较相关了。特别是需要了解设备中的存储结构,因为很大部分情况下是在想办法降低访存的延时。比如Memory Optimizations这一章介绍的内容就非常值得细看。

System Requirment

  • Ubuntu 20.04
  • NVIDIA Driver Version 550.67
  • CUDA Version 12.4
  • Eigen repository-url
  • cmake version 3.25.1
  • gcc (Ubuntu 9.4.0-1ubuntu1~20.04.2) 9.4.0

How To Build

在开始之前需要有一台带有Nvidia显卡的主机,然后安装上驱动,最新的驱动可以从官网下载得到。直接运行然后按照指示进行安装即可,网上的教程需要用户手动去禁用nouveau,但现在这些操作驱动安装程序都可以完成,所以不需要额外的准备工作了(至少我安装的时候是这样的)。

驱动安装完成后再同样按照官网的指导步骤安装CUDA Toolkit。安装完成后再修改.zshrc或.bashrc将bin路径和lib路径添加到分别添加到PATH和LD_LIBRARY_PATH中。

export PATH=/usr/local/cuda/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

另外本项目依赖Eigen,因此还需要另外安装Eigen库。拉取源码后直接install即可。

Check Compute Capability

在开始前需要确定显卡的Compute Capability,可通过官网查询。也可以先编译check_cc来获取当前设备的Compute Capability。(默认查询的是device 0 的设备信息)

mkdir build
cd build
cmake ..
make check_cc

在这里插入图片描述
我的设备用到了两种显卡,因此设置的CMAKE_CUDA_ARCHITECTURES是75和86,如果你的设备用的是其他的显卡,可以修改CMakeLists.txt,将CMAKE_CUDA_ARCHITECTURES修改成你需要的值。

Build All

切换到build目录下,make all即可。

Content

本项目做的主要就是用Nvidia GPU实现两个NxN的双精度矩阵乘法,在common.h中,设置了N的大小以及thread block的大小。

主要内容:

  1. baseline - 最基础的矩阵乘法实现方式与eigen,cublas的实现进行对比;
  2. shared_memory - 用共享内存实现,减少访问global memory的次数;
  3. coalesce - 尽可能用coalesce的形式访存;减少访问shared memory的bank冲突;
  4. other_practice - 用capture graph执行矩阵乘法;用memory mapped方式执行矩阵乘法。

baseline

按照矩阵乘法的规则,两个NxN的矩阵相乘,得到的也是一个NxN的矩阵。结果矩阵中的每个元素都是由一个行向量和一个列向量求内积得到的。最直接的想法就是用NxN个线程来完成计算,每个线程负责计算一组内积。

__global__ void basic(int N, double *a, double *b, double *c) {int row = blockIdx.y * blockDim.y + threadIdx.y;int col = blockIdx.x * blockDim.x + threadIdx.x;double sum = 0.0;for (int i = 0; i < N; i++) {// 注意数据是按照列优先存储的sum += a[row + i * N] * b[col * N + i];}c[col * N + row] = sum;
}

值得注意的是,如果使用Eigen库,那么矩阵的数据是优先按照列存放的,即矩阵中同一列的数据是连续地址存放的。

// 进行矩阵乘法。将数据拷贝到设备,再将结果拷贝回来
Eigen::MatrixXd result_cuda = Eigen::MatrixXd::Zero(N, N);
start = std::chrono::high_resolution_clock::now();
cudaMemcpy(d_mat1, mat1.data(), N * N * sizeof(double), cudaMemcpyHostToDevice);
cudaMemcpy(d_mat2, mat2.data(), N * N * sizeof(double), cudaMemcpyHostToDevice);
basic<<<gridSize, blockSize>>>(N, d_mat1, d_mat2, d_result);
cudaMemcpy(result_cuda.data(), d_result, N * N * sizeof(double), cudaMemcpyDeviceToHost);
cudaDeviceSynchronize();
end = std::chrono::high_resolution_clock::now();

调用自己写的kernel实现矩阵乘法也不需要多考虑什么,直接在一条stream上,先把数据拷贝到device,再进行运算,算完之后再把结果拷贝到host。统计这整个过程的时间。

分别将Eigen库中的矩阵乘法,我们自己写的基础的矩阵乘法和cublas库实现的矩阵乘法进行对比。因为用到里Eigen库,所以编译的时候一定要编译Release的版本,不然用Eigen库实现的矩阵乘法需要很久。不光是比较时间,而且也需要确认计算结果的正确性。以Eiegn库的计算结果作为参照,要求GPU的计算结果与Eigen库的计算结果相同。最终得到如下结果:
在这里插入图片描述
再用Nsight Systems分析一下,可以看到这个自己写的kernel相比于cublas实现的kernel真的慢很多。
在这里插入图片描述

shared memory

在device上malloc的数据分配在global memory中,访问global memory相对来说是比较慢的,而访问shared memory会很快,shared memory类似于scratchpad memory,是一块可以由程序员自己管理的cache。

{% asset_img 2024-04-17-09-45-12.png %}

shared memory是在片内的,而且不会经过cache,因为它很小而且访问速度够快;global memory是在片外的,而且会经过L1,L2cache。

所以如果频繁地从global memory读数据是很费时间的。考虑矩阵乘法的过程,两个相乘的矩阵需要分别被读取N次才能计算得到最终结果。

shared memory是一个thread block中的线程共享的,那么就可以考虑让一个thread block中的线程“互帮互助”。一个block中共有BLOCK_SIZExBLOCK_SIZE个线程,每个线程从global memory拷贝一个数据到到shared memory,这些数据就可以由这个block中的线程共享。在一个block中,原本一个线程需要从global memory读BLOCK_SIZE个数据,而采用共享的方式之后,就可以每个block里每个线程只读1个数据。完整的计算下来,就只需要从global memory读N/BLOCK_SIZE次数据。

这样看似乎BLOCK_SIZE越大,加速效果会越明显。但实际上block越大,block中的线程同步也会更久。而且一个block中的shared memeory是有限的,register也是有限的。一般来说总的线程数一定的话,block分的小一点,多一点,更容易把每个block分到multiprocessor上去运行,提高并行度。所以BLOCK_SIZE的选取我没有去详细比较分析了,为了简便起见,我在这里固定用的是16x16的大小。

__global__ void shared_memory(double *a, double *b, double *c) {int result_row = blockIdx.y * BLOCK_SIZE + threadIdx.y;int result_col = blockIdx.x * BLOCK_SIZE + threadIdx.x;// 将结果清空c[result_row + result_col * N] = 0.0;int a_col_global, b_row_global;// 每个block一起load数据,放入s_a s_b中__shared__ double s_a[BLOCK_SIZE][BLOCK_SIZE];__shared__ double s_b[BLOCK_SIZE][BLOCK_SIZE];// 每个thread需要load N/BLOCK_SIZE次数据for (int i = 0; i < N / BLOCK_SIZE; ++i) {// 计算要搬运的数据在global下的索引a_col_global = i * BLOCK_SIZE + threadIdx.x;b_row_global = i * BLOCK_SIZE + threadIdx.y;// 搬运数据s_a[threadIdx.y][threadIdx.x] = a[result_row + a_col_global * N];s_b[threadIdx.y][threadIdx.x] = b[b_row_global + result_col * N];__syncthreads();// 计算部分和for (int j = 0; j < BLOCK_SIZE; ++j) {c[result_row + result_col * N] += s_a[threadIdx.y][j] * s_b[j][threadIdx.x];}__syncthreads();}
}

从运行结果看,用shared memory之后,乘法计算所需的时间明显降低。
在这里插入图片描述
查看nsight systems的分析结果:
在这里插入图片描述

coalesce

对比采用shared memory加速的结果和cublas实现的结果,实际上还是有很多优化空间。

有个新的概念是coalesced memory access,是为了最大化数据传输的带宽,尽可能使数据“联合”访问。

一个warp中的线程如果是访问global memory中的一块连续地址,那就是可以联合访问的。block的维度有一维,二维,三维,这是为了更好地与具体应用进行映射,而block的性能,只和block的size有关。也就是说8x2的block和4x4的block本质上是一样的,都是16个线程。每个线程有自己的ID,类似于二维数组,二维block中的线程ID计算: i d = x + y D x id=x+yD_x id=x+yDx,其中 x x x, y y y分别是两个维度的索引值, D x D_x Dx表示x方向的维度。然后以连续的32个ID的thread作为一个warp。在设计kernel的时候需要考虑让一个warp中的thread访问连续的一片global memory。

shared memory分32个bank,每个bank是4字节,比如字节地址0~3属于bank0,4~7属于bank1,8~11属于bank2……不同bank的数据可以同时被访问,同一bank的数据就不能一起访问。比如字节地址0和字节地址128的数据都属于bank0,就不能一起访问。

在矩阵乘法过程中,从global memory读数据,然后写入shared memory。不仅需要考虑从global memory的连续地址读取数据,而且在写入shared memory的时候也需要考虑减少bank冲突。

考虑到矩阵乘法axb的时候,a中取一行数据,和b中的一列数据计算内积。b本身就是按列存放数据的,warp中的线程也按照列来组织,这样能够保证warp中的线程访问的是shared memory中的连续的一片数据。但是要取a中的一行数据,就要跨行取数了,或者是当我从global memory读数据后,就将矩阵转置,再存到shared memory里。这里不管怎样都会涉及跨行的问题,而且如果block size是128字节的整数倍,那就肯定会有bank访问冲突。这里有个技巧就是在shared memory中额外多分配一点空间,从而让跨行的数据不再是128字节的整数倍,人为地让地址错开。我最后采用的做法就是将数据转置后存入shared memory,而在计算部分和的时候每个warp就可以从连续的地址加载数据了。在矩阵的维度足够大的时候,bank冲突是无法避免的,只不过通过这种方式能够充分利用访问shared memory的带宽,减少无效的数据访问。

__global__ void coalesce(double *a, double *b, double *c) {// 数据按列存放,所以x按列方向增长,y按行方向增长int result_row = blockIdx.x * BLOCK_SIZE + threadIdx.x;int result_col = blockIdx.y * BLOCK_SIZE + threadIdx.y;// 将结果清空c[result_col * N + result_row] = 0.0;// 每个block一起load数据,放入s_a s_b中,同一列的数据在地址上不能对齐,对齐的话会bank访问冲突__shared__ double s_a[BLOCK_SIZE][BLOCK_SIZE + 1];__shared__ double s_b[BLOCK_SIZE][BLOCK_SIZE + 1];// 每个thread需要load N/BLOCK_SIZE次数据for (int i = 0; i < N / BLOCK_SIZE; ++i) {// (y, x) thread 负责拷贝global中的 (y, x)的数据int s_a_row_in_global = result_row;int s_a_col_in_global = i * BLOCK_SIZE + threadIdx.y;int s_b_col_in_global = result_col;int s_b_row_in_global = i * BLOCK_SIZE + threadIdx.x;// s_a中的数据需要跨行存放,因为一个warp读的是列数据s_a[threadIdx.x][threadIdx.y] = a[s_a_row_in_global + s_a_col_in_global * N];s_b[threadIdx.y][threadIdx.x] = b[s_b_row_in_global + s_b_col_in_global * N];__syncthreads();for (int j = 0; j < BLOCK_SIZE; ++j) {c[result_col * N + result_row] += s_a[threadIdx.x][j] * s_b[threadIdx.y][j];}__syncthreads();}
}

从运行结果可以看出,在考虑上访存的过程后,同样维度的矩阵乘法进一步得到加速,而且与cublas实现的性能比较接近了。
在这里插入图片描述
查看nsight systems的分析结果:
在这里插入图片描述

other practice

除了一些优化的措施外我也做了一些其它的尝试。

graph

根据官方文档里介绍的,可以将一些要在某条stream上执行的任务capture,来组成一个capture graph。再结合event,graph不再是单条stream的顺序结构,而是可以结合多个stream,形成一个有向图。在graph的节点中还可以添加条件判断,做一些简单的控制逻辑。graph在执行的过程中虽然也是stream,但它在实例化的过程中可以提前完成一些工作,而且经过实例化后可以多次执行,相比于单纯的stream应该会更快。

所以我也实际用graph试了一下,实际效果并不会有明显的提速,但我觉得这个在其他地方应该会有应用。

// 创建capture graph
cudaStreamBeginCapture(s, cudaStreamCaptureModeRelaxed);
cudaMemcpyAsync(d_mat1, mat1.data(), N * N * sizeof(double), cudaMemcpyHostToDevice, s);
cudaMemcpyAsync(d_mat2, mat2.data(), N * N * sizeof(double), cudaMemcpyHostToDevice, s);
coalesce<<<gridSize, blockSize, 0, s>>>(d_mat1, d_mat2, d_result);
cudaMemcpyAsync(result_graph.data(), d_result, N * N * sizeof(double), cudaMemcpyDeviceToHost, s);
cudaStreamEndCapture(s, &graph);// graph实例化
cudaGraphInstantiate(&exec, graph, NULL, NULL, 0);// 运行graph
start = std::chrono::high_resolution_clock::now();
cudaGraphLaunch(exec, s);
cudaDeviceSynchronize();
end = std::chrono::high_resolution_clock::now();
memory mapped

在矩阵乘法的例子里,数据在device和host之间传输的时间开销并不明显。但我也在想能不能省去这部分拷贝数据过程,然后看到了有一个地址映射的操作。可以将host的一块数据映射到device端,相当于让kernel直接处理host的memory数据。

// 分配结果存放的空间,获取map后的device端地址
Eigen::MatrixXd reuslt_mapped = Eigen::MatrixXd::Zero(N, N);
double *d_mat1_mapped, *d_mat2_mapped, *d_result_mapped;
cudaHostRegister(reuslt_mapped.data(), N * N * sizeof(double), cudaHostRegisterDefault);
cudaHostGetDevicePointer(&d_mat1_mapped, mat1.data(), 0);
cudaHostGetDevicePointer(&d_mat2_mapped, mat2.data(), 0);
cudaHostGetDevicePointer(&d_result_mapped, reuslt_mapped.data(), 0);// 进行矩阵乘法
start = std::chrono::high_resolution_clock::now();
coalesce<<<gridSize, blockSize>>>(d_mat1_mapped, d_mat2_mapped, d_result_mapped);
cudaDeviceSynchronize();
end = std::chrono::high_resolution_clock::now();

实际运行后发现这么做会更慢,需要尽量减少host和device之间的数据拷贝!
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/823742.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LINUX中使用cron定时任务被隐藏,咋回事?

一、问题现象 线上服务器运行过程中&#xff0c;进程有莫名进程被启动&#xff0c;怀疑是有定时任务自动启动&#xff0c;当你用常规方法去查看&#xff0c;比如使用crontab去查看定时器任务&#xff0c;提示no crontab for root 或者使用cat到/var/spool/cron目录下去查看定时…

反射

目录 01、Java反射机制概述1.1、使用反射&#xff0c;实现同上的操作、调用私有属性 02、理解Class类并获取Class实例2.1、Class类的理解2.2、获取Class实例的4种方式2.3、Class实例对应的结构的说明 03、ClassLoader的理解3.1、ClassLoader的理解3.2、使用ClassLoader加载配置…

20240329-2-树模型集成学习TreeEmbedding

树模型集成学习 集成学习主要有两个思想&#xff0c;分别是bagging和boosting。树模型的集成模型都是使用树作为基模型&#xff0c;最常用的cart树&#xff0c;常见的集成模型有RandomForest、GBDT、Xgboost、Lightgbm、Catboost。 概要介绍 RandomForest 随机森林(Random …

Java面试八股之JDK和JRE的区别

JDK和JRE的区别 定义&#xff1a;JDK&#xff08;Java Development Kit&#xff09;是Java开发工具包的缩写&#xff0c;它是Java开发人员必备的工具。JDK包含了编译器(javac)、Java虚拟机(JVM)和Java类库等开发工具和资源。它提供了开发、编译、调试和运行Java程序所需的一切…

LeetCode 2924.找到冠军 II:脑筋急转弯——只关心入度

【LetMeFly】2924.找到冠军 II&#xff1a;脑筋急转弯——只关心入度 力扣题目链接&#xff1a;https://leetcode.cn/problems/find-champion-ii/ 一场比赛中共有 n 支队伍&#xff0c;按从 0 到 n - 1 编号。每支队伍也是 有向无环图&#xff08;DAG&#xff09; 上的一个节…

L2-2 老板的作息表

新浪微博上有人发了某老板的作息时间表&#xff0c;表示其每天 4:30 就起床了。但立刻有眼尖的网友问&#xff1a;这时间表不完整啊&#xff0c;早上九点到下午一点干啥了&#xff1f; 本题就请你编写程序&#xff0c;检查任意一张时间表&#xff0c;找出其中没写出来的时间段…

nginx安装在linux上

nginx主要用于反向代理和负载均衡&#xff0c;现在简单的说说如何在linux操作系统上安装nginx 第一步&#xff1a;安装依赖 yum install -y gcc-c pcre pcre-devel zlib zlib-devel openssl openssl-devel 第二步&#xff1a; 下载nginx&#xff0c;访问官网&#xff0c;ngin…

加速催化剂设计,上海交大贺玉莲课题组基于 AutoML 进行知识自动提取

日常生活中&#xff0c;「催化」是最为常见的化学反应之一。比如&#xff0c;酿酒酿醋的本质&#xff0c;就是粮食中的淀粉在微生物酶的催化作用下&#xff0c;转变成酒精和醋酸的过程。 用更为学术的说法——在化学反应里能改变反应物反应速率&#xff08;既能提高也能降低&a…

51单片机工程模板的建立(基于STC15系列库)

一、开启前准备 1.STC15官方库文件 1.1 stc15-software-lib-v1.0.rar&#xff1b;下载地址&#xff1a;STC15系列库&#xff08;带使用手册&#xff09;资源-CSDN文库 2.Keil4_C51软件&#xff0c;或其它版本&#xff1b; 二、创建工程模板 1.建立文件分类 listing&#xf…

干货!微信小程序通过NodeJs连接MySQL数据库

在前后端数据库架构的思维中&#xff0c;微信小程序的生态地位是充当前端&#xff0c;后端和数据库还需开发者另外准备。微信开放社区提供强悍的云函数、云数据库、CMS内容管理&#xff0c;无疑为开发小程序的功能提供了不少便捷。 当我们在开发PC端的系统时&#xff0c;常见的…

Springboot+Vue项目-基于Java+MySQL的在线视频教育平台系统(附源码+演示视频+LW)

大家好&#xff01;我是程序猿老A&#xff0c;感谢您阅读本文&#xff0c;欢迎一键三连哦。 &#x1f49e;当前专栏&#xff1a;Java毕业设计 精彩专栏推荐&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb; &#x1f380; Python毕业设计 &…

Java中的容器,线程安全和线程不安全

Java中的容器主要指Java集合框架中的一系列类&#xff0c;它们提供了存储和操作对象的能力。在讨论容器的线程安全性时&#xff0c;我们可以将其分为两大类&#xff1a; 线程安全的容器&#xff1a; Vector: 这是ArrayList的线程安全版本&#xff0c;所有方法都被同步以确保在…

动态代理,XML,Dom4j

文章目录 动态代理概述特点代码实现实现的关键步骤优点 XML概述作用编写第一个XML文件组成声明元素(标签、标记)属性注释转义字符[实体字符字符区(了解) 约束DTD约束Schema约束名称空间 Dom4jXML解析解析方式和解析器解析方式解析器Snipaste_2024-04-17_21-22-44.png<br /&g…

视觉SLAM学习打卡【11】-尾述

到目前为止&#xff0c;视觉SLAM14讲已经到了终章&#xff0c;历时一个半月&#xff0c;时间有限&#xff0c;有些地方挖掘的不够深入&#xff0c;只能在后续的学习中更进一步。接下来&#xff0c;会着手ORB-SLAM2的开源框架&#xff0c;同步学习C。 视觉SLAM学习打卡【11】-尾…

Java27

FileOutputStream类 文件字节输出流FileOutputStream类是OutputStream类的子类write()方法顺序地向输出流写入字节&#xff0c;直到关闭输出流。 使用FileOutputStream类&#xff0c;操作本地文件地字节输出流&#xff0c;可以把程序中的数据写到本地文件中&#xff0c;其中写…

Java实现对称加密算法 DES/3DES/AES

一、DES加密算法 1.1 原理 DES是一种对称加密算法&#xff0c;它使用相同的密钥进行加密和解密操作。 DES算法的核心是一个称为Feistel网络的结构&#xff0c;它将明文分成左右两部分&#xff0c;并通过多轮迭代和替换操作来生成密文。 DES算法使用56位密钥&#xff08;实际…

基于SpringBoot+Vue的装饰工程管理系统(源码+文档+包运行)

一.系统概述 如今社会上各行各业&#xff0c;都喜欢用自己行业的专属软件工作&#xff0c;互联网发展到这个时候&#xff0c;人们已经发现离不开了互联网。新技术的产生&#xff0c;往往能解决一些老技术的弊端问题。因为传统装饰工程项目信息管理难度大&#xff0c;容错率低&a…

面试突击---MySQL索引

面试突击---MYSQL索引 面试表达技巧&#xff1a;1、谈一下你对于mysql索引的理解&#xff1f;&#xff08;为什么mysql要选择B树来存储索引&#xff09;2、索引有哪些分类&#xff1f;3、聚簇索引与非聚簇索引4、回表、索引覆盖、最左匹配原则、索引下推&#xff08;1&#xff…

概念解读稳定性保障

什么是稳定 百度百科关于稳定的定义&#xff1a; “稳恒固定&#xff1b;没有变动。” 很明显这里的“稳定”是相对的&#xff0c;通常会有参照物&#xff0c;例如 A 车和 B 车保持相同速度同方向行驶&#xff0c;达到相对平衡相对稳定的状态。 那么软件质量的稳定是指什么…

小白必看的Ubuntu20.04安装教程(图文讲解)

总的来说&#xff0c;安装Ubantu包含以下三个步骤&#xff1a; 一、安装虚拟机 二、Ubuntu镜像下载 三、虚拟机配置 一、安装虚拟机 选择安装VMware Workstation&#xff0c;登录其官网下载安装包&#xff0c;安装点这里。 下载后运行安装向导&#xff0c;一直Next即可。最…