CUDA编程的框架-以向量相加为例

在这里插入图片描述
在这里插入图片描述
CPU适合控制GPU程序的逻辑结构。
注意在编程时要区分CPU的程序和GPU的程序,CPU的内存和GPU的内存。
host- CPU
device- GPU

CPU的内存和GPU的内存之间是相互独立的,因此需要进行通信。

在这里插入图片描述
在这里插入图片描述

__global__ //核函数的声明符号<<<grid,block>>>
//在调用核函数时要对核函数进行配置,需要定义它的网格和块的维度(是dim3的数据类型)//在运算时,block中有很多内置的变量,
//比如线程的ID,或者block的ID,
//可以直接调用来获得block或者thread的编号,
//编号可以是1D/2D/3D的(1/2/3维的)

在这里插入图片描述

int main(){int N = 1000000;      //向量的长度是1Mint bs = 256;         //每个块有256个线程int gs = (N+bs-1)/bs; //gs是一共有多少个块,即grid的数目//kernel, call GPUvec_add<<<gs,bs>>>(x,y,z,N);//这里的示例是一维的网格、一维的进程块return 0;
}//kernel定义,必须用__global__标识,返回类型必须是void
__global__ void vec_add(double *x, double *y, double *z, int n){int i = get_tid(); //user-defined macro/function//这里的get_tid()是用户定义的一个宏,调用它可以得到当前线程一维的IDif(i<n) z[i] = x[i]+y[i];
}

GPU上很多并行化是轻量级的线程。GPU的并行是粒度很细的,每个线程可以处理一个数据或者几个数据。

在这里插入图片描述
从程序上(程序员上)分为两级block和grid。
在真正执行时是warp/block/grid三级。


在这里插入图片描述
在这里插入图片描述
grid和block都是定义为dim3的类型,我们可以理解为三维的无符号整数。


用dim3的类型构造核函数的示例
在这里插入图片描述
可以根据向量的长度自己计算需要多少网格比较合适,向量很长,网格多一些比较合适。
在这里插入图片描述
⬆️因为2):CPU和GPU运行是异步的,CPU一运行完kernel函数之后就会走,不管GPU有没有算完,所以在写程序的时候要知道GPU算完没。
3)_ _ device _ 说明这个函数只能在GPU中执行,只能在GPU中调用,不能像刚刚一样<<<gs,bs>>>的调用。
必须是GPU的函数调用 _ _ device _ _的函数。
4)
_ host _ _的声明一般省略不写。

在这里插入图片描述

CUDA有一些不用申明就能使用的内置变量。

对于block来说,
它需要知道自己的块的ID:blockIdx.x, blockIdx.y, blockIdx.z ,
它需要通过gridDim知道grid在x,y,z方向各有多少个。

对于thread来说,
它需要知道自己的块的ID:threadIdx.x, threadIdx.y, threadIdx.z ,
它需要通过blockDim知道block在x,y,z方向各有多少个。

一个程序块上的线程是放在同一个流多处理器(SM)上的。不能跨流多处理器的放置。


在这里插入图片描述

// 假设block是一维的,grid是二维的,
// 通过定义下面的两个宏可以计算出线程的全局编号和块的全局编号/* get thread id:1D block ans 2D grid */
#define get_tid() (blockDim.x*(blockIdx.x+blockIdx.y*gridDim.x)+threadIdx.x)/* get block id:2D grid */
#define get_bid() (blockIdx.x+blockIdx.y*gridDim.x)//kernel定义,必须用__global__标识,返回类型必须是void
__global__ void vec_add(double *x, double *y, double *z, int n){int i = get_tid(); //user-defined macro/function//这里的get_tid()是用户定义的一个宏,调用它可以得到当前线程一维的IDif(i<n) z[i] = x[i]+y[i];  //这种情况下启动的线程数大于等于向量的长度,否则会出错
}

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
⬆️warmup函数不是必须的,加了可以启动静置的GPU,少一点时间
host add :CPU的加法定义
device function:GPU向量加法的实现
void vec_add_host:CPU向量加法的实现


在这里插入图片描述


在这里插入图片描述


在这里插入图片描述


在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/654749.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Shell实战案例面试题】输入网卡的名字,来输出网卡的IP

1.问题 参数后判断要加"" 名字为空时显示ip 2.分析 把本机的所有网卡名列出来&#xff0c;来引导用户输入 使用命令列出所有网卡信:ifconfig/ip a 设计一个函数&#xff0c;把网卡名作为参数&#xff0c;函数返回网卡的IP 在获取某个网卡IP时&#xff0c;考虑网…

【C语言/数据结构】排序(快速排序及多种优化|递归及非递归版本)

&#x1f308;个人主页&#xff1a;秦jh__https://blog.csdn.net/qinjh_?spm1010.2135.3001.5343&#x1f525; 系列专栏&#xff1a;《数据结构》https://blog.csdn.net/qinjh_/category_12536791.html?spm1001.2014.3001.5482 ​​​​ 目录 交换排序 快速排序 hoare版代…

Windows Server 2025 LTSC 预览版来了

Windows Server 2025 LTSC 预览版来了 1. 安装 Windows Server 2025 LTSC 预览版2. 安装 VMware Tools3. Windows Server 2025 LTSC 预览版4. Windows Server 2025 LTSC 预览版下载地址 1. 安装 Windows Server 2025 LTSC 预览版 使用 VMware Workstation 安装&#xff0c; 安…

推特账号被冻结怎么办?检查IP是否正常

Twitter 拥有庞大的用户群和日常内容流&#xff0c;是沟通、网络和营销的重要平台。然而&#xff0c;处理其限制和潜在的帐户问题可能很棘手。有许多跨境社媒小伙伴反馈&#xff0c;账号无故被冻结&#xff0c;导致内容与客户尽失&#xff01;其实除了账户养号、被举报、广告信…

Mac+Android Studio配置 Flutter环境

Fluttrer中文下载官网 Flutter下载官网 1、环境变量 .zshrc #Flutter export PUB_HOSTED_URL"https://pub.flutter-io.cn" export FLUTTER_STORAGE_BASE_URL"https://storage.flutter-io.cn" export FLUTTER_HOME/Users/leon/Flutter/flutter_3_10_4/f…

SpringBoot项目接入MQTT协议

mqtt是一种类似于mq的通讯技术 1、mqtt服务端搭建 创建docker网络 docker network create --driver bridge --subnet 172.18.0.0/24 --gateway 172.18.0.1 emqx-net创建容器 docker run -d \--name emqx1 \-e "EMQX_NODE_NAMEemqx172.18.0.2" \--network emqx-ne…

js实现填涂画板

文章目录 1实现效果2 实现代码 凑个数&#xff0c;存粹是好玩儿&#xff0c;哈哈... 1实现效果 最上方一栏&#xff1a; 左侧是颜色按钮&#xff0c;点击选中颜色&#xff0c; 中间是功能按钮&#xff0c;重置颜色、清空画板、回退、涂改液&#xff08;填涂色置为白色&#xff…

STM32 有源蜂鸣器

模块介绍: 结构&#xff1a;有源蜂鸣器通常由一个振膜和一个驱动电路组成。振膜是负责产生声音的部分&#xff0c;而驱动电路则负责控制振荡频率和幅度。 工作原理&#xff1a;有源蜂鸣器的驱动电路会向振膜施加电压&#xff0c;使其振动产生声音。驱动电路可以根据输入信号的…

借助gpt生成ppt:文心一言(chatgpt)、chatppt

提供一种简单的基于gpt快速生成ppt的方式。前置条件&#xff1a; 文心一言chatpptwps/office ppt Step1: 下载chatppt插件 https://chat-ppt.com/invitelinke?share_code47949695&channelchat-ppt.com 注册地址 下载完成后&#xff0c;安装即可&#xff0c;安装完成后…

如何看待开发者是否需要入坑鸿蒙?

前言 自打华为2019年发布鸿蒙操作系统以来&#xff0c;网上各种声音百家争鸣。尤其是2023年发布会公布的鸿蒙4.0宣称不再支持Android&#xff0c;更激烈的讨论随之而来。 通过本文&#xff0c;我将给大家介绍以下几点&#xff0c;让大家清楚的了解到鸿蒙开发的趋势&#xff1…

win11设置mysql开机自启

目录 命令式 1、打开命令提示符或 PowerShell&#xff1a; 2、使用管理员权限运行命令行工具&#xff1a; 3、设置 MySQL 服务为开机自启动&#xff1a; 4、启动 MySQL 服务&#xff1a; 5、 验证设置是否生效&#xff1a; 操作视图式 1、右击任务栏 ---> 选择任务管…

深入了解DRAM和SDRAM:内存带宽的计算与封装形式的奥秘

SSD SDRAM DDR SDRAM简介 动态随机存取存储器DRAM&#xff08;Dynamic Random Access Memory&#xff0c;DRAM&#xff09;是一种半导体存储器。 其主要的作用原理是利用电荷内存储电荷的数量来代表一个二进制比特&#xff08;bit&#xff09;是1还是0。 由于在现实中品体管…

进京证12次不够用怎么办?(北京进京证探头分布,进京证365,进京365)外地车在京如何行驶——躲猫猫外地车在京地图导航

其实想要在北京驾驶外地牌照的车辆主要有两种方式&#xff0c;一种是办理进京证(六环内进京证一年只能办12次&#xff0c;一次有效期7天&#xff0c;所以大多数人是不够用的);另一种就是在非监控区域行驶&#xff0c;可以借助于一些摄像头定位工具&#xff0c;有效躲避摄像头&a…

洗地机哪个牌子好?2024洗地机推荐

洗地机作为一种几乎替代了传统无线吸尘器的清洁工具&#xff0c;近年来在市场上迅速崛起。其优越的清洁效果和智能化设计使其成为许多家庭不可或缺的家电之一。在短短的几年时间里&#xff0c;市场上涌现出了各种各样的品牌和型号&#xff0c;价格也从几百元到数千元不等&#…

LVGL部件

一.标签部件 1.如何创建标签部件以及设置文本 ![2024-01-28T09:54:08.png][3] void my_lvgl(void) {lv_obj_t *lablelv_label_create(lv_scr_act()); //创建一个标签lv_label_set_text(lable,"hello"); //普通更改文字lv_label_set_text_fmt(lab…

有哪些原型图设计工具是你应该熟悉的?

今天我们将介绍 5 优秀的原型设计工具及其功能。每个软件都有不同的平台和价格范围。相信你能找到最适合你的原型工具&#xff01; 1、Sketch 以友好的用户而闻名 Sketch&#xff0c;对于设计师来说&#xff0c;有很多实用的功能。这个软件在图形编辑方面很受欢迎&#xff0c;…

【Django开发】前后端分离美多商城项目:项目准备和搭建(附代码,文档)

本系列文章md笔记&#xff08;已分享&#xff09;主要讨论django商城项目开发相关知识。本项目利用Django框架开发一套前后端不分离的商城项目&#xff08;4.0版本&#xff09;含代码和文档。功能包括前后端不分离&#xff0c;方便SEO。采用Django Jinja2模板引擎 Vue.js实现…

【webrtc】m98 : vs2019 直接构建webrtc及moduletest工程 2

字数有限制,我们继续 【webrtc】m98 : vs2019 直接构建webrtc及unitest工程 1modules_unittests 构建 Build started... 1>------ Build started: Project: modules_unittests, Configuration: GN Win32 ------ 1>ninja: Entering directory `G:\CDN\rtcCli\m98\src\o…

linux centos 查看端口是否打开与打开端口

查看端口是否打开 talnet talnet ip 端口linux查看防火墙开放情况 firewall-cmd --list-all打开端口 其中permanent表示永久生效&#xff0c;public表示作用域&#xff0c;443/tcp表示端口和类型&#xff0c;执行规则的重载 firewall-cmd --zonepublic --add-port443/tcp …

VitePress-04-文档中的表情符号的使用

说明 vitepress 的文档中是支持使用表情符号的&#xff0c;像 &#x1f602; 等常用的表情都是支持的。 本文就来介绍它的使用方式。 使用语法 语法 &#xff1a; :表情名称: 例如 &#xff1a; :joy: &#x1f602; 使用案例代码 # 体会【表情】的基本使用 > hello world …