CUDA编程的框架-以向量相加为例

在这里插入图片描述
在这里插入图片描述
CPU适合控制GPU程序的逻辑结构。
注意在编程时要区分CPU的程序和GPU的程序,CPU的内存和GPU的内存。
host- CPU
device- GPU

CPU的内存和GPU的内存之间是相互独立的,因此需要进行通信。

在这里插入图片描述
在这里插入图片描述

__global__ //核函数的声明符号<<<grid,block>>>
//在调用核函数时要对核函数进行配置,需要定义它的网格和块的维度(是dim3的数据类型)//在运算时,block中有很多内置的变量,
//比如线程的ID,或者block的ID,
//可以直接调用来获得block或者thread的编号,
//编号可以是1D/2D/3D的(1/2/3维的)

在这里插入图片描述

int main(){int N = 1000000;      //向量的长度是1Mint bs = 256;         //每个块有256个线程int gs = (N+bs-1)/bs; //gs是一共有多少个块,即grid的数目//kernel, call GPUvec_add<<<gs,bs>>>(x,y,z,N);//这里的示例是一维的网格、一维的进程块return 0;
}//kernel定义,必须用__global__标识,返回类型必须是void
__global__ void vec_add(double *x, double *y, double *z, int n){int i = get_tid(); //user-defined macro/function//这里的get_tid()是用户定义的一个宏,调用它可以得到当前线程一维的IDif(i<n) z[i] = x[i]+y[i];
}

GPU上很多并行化是轻量级的线程。GPU的并行是粒度很细的,每个线程可以处理一个数据或者几个数据。

在这里插入图片描述
从程序上(程序员上)分为两级block和grid。
在真正执行时是warp/block/grid三级。


在这里插入图片描述
在这里插入图片描述
grid和block都是定义为dim3的类型,我们可以理解为三维的无符号整数。


用dim3的类型构造核函数的示例
在这里插入图片描述
可以根据向量的长度自己计算需要多少网格比较合适,向量很长,网格多一些比较合适。
在这里插入图片描述
⬆️因为2):CPU和GPU运行是异步的,CPU一运行完kernel函数之后就会走,不管GPU有没有算完,所以在写程序的时候要知道GPU算完没。
3)_ _ device _ 说明这个函数只能在GPU中执行,只能在GPU中调用,不能像刚刚一样<<<gs,bs>>>的调用。
必须是GPU的函数调用 _ _ device _ _的函数。
4)
_ host _ _的声明一般省略不写。

在这里插入图片描述

CUDA有一些不用申明就能使用的内置变量。

对于block来说,
它需要知道自己的块的ID:blockIdx.x, blockIdx.y, blockIdx.z ,
它需要通过gridDim知道grid在x,y,z方向各有多少个。

对于thread来说,
它需要知道自己的块的ID:threadIdx.x, threadIdx.y, threadIdx.z ,
它需要通过blockDim知道block在x,y,z方向各有多少个。

一个程序块上的线程是放在同一个流多处理器(SM)上的。不能跨流多处理器的放置。


在这里插入图片描述

// 假设block是一维的,grid是二维的,
// 通过定义下面的两个宏可以计算出线程的全局编号和块的全局编号/* get thread id:1D block ans 2D grid */
#define get_tid() (blockDim.x*(blockIdx.x+blockIdx.y*gridDim.x)+threadIdx.x)/* get block id:2D grid */
#define get_bid() (blockIdx.x+blockIdx.y*gridDim.x)//kernel定义,必须用__global__标识,返回类型必须是void
__global__ void vec_add(double *x, double *y, double *z, int n){int i = get_tid(); //user-defined macro/function//这里的get_tid()是用户定义的一个宏,调用它可以得到当前线程一维的IDif(i<n) z[i] = x[i]+y[i];  //这种情况下启动的线程数大于等于向量的长度,否则会出错
}

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
⬆️warmup函数不是必须的,加了可以启动静置的GPU,少一点时间
host add :CPU的加法定义
device function:GPU向量加法的实现
void vec_add_host:CPU向量加法的实现


在这里插入图片描述


在这里插入图片描述


在这里插入图片描述


在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/654749.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Shell实战案例面试题】输入网卡的名字,来输出网卡的IP

1.问题 参数后判断要加"" 名字为空时显示ip 2.分析 把本机的所有网卡名列出来&#xff0c;来引导用户输入 使用命令列出所有网卡信:ifconfig/ip a 设计一个函数&#xff0c;把网卡名作为参数&#xff0c;函数返回网卡的IP 在获取某个网卡IP时&#xff0c;考虑网…

【C语言/数据结构】排序(快速排序及多种优化|递归及非递归版本)

&#x1f308;个人主页&#xff1a;秦jh__https://blog.csdn.net/qinjh_?spm1010.2135.3001.5343&#x1f525; 系列专栏&#xff1a;《数据结构》https://blog.csdn.net/qinjh_/category_12536791.html?spm1001.2014.3001.5482 ​​​​ 目录 交换排序 快速排序 hoare版代…

【Git】Conventional Commit提交规范

Conventional Commit提交规范 说明 在Git规范中&#xff0c;提交信息&#xff08;commit message&#xff09;通常按照某个约定来编写&#xff0c;以提供更多上下文&#xff0c;帮助团队成员理解每次提交的目的。一种广泛使用的约定是Conventional Commits规范&#xff0c;它…

Windows Server 2025 LTSC 预览版来了

Windows Server 2025 LTSC 预览版来了 1. 安装 Windows Server 2025 LTSC 预览版2. 安装 VMware Tools3. Windows Server 2025 LTSC 预览版4. Windows Server 2025 LTSC 预览版下载地址 1. 安装 Windows Server 2025 LTSC 预览版 使用 VMware Workstation 安装&#xff0c; 安…

推特账号被冻结怎么办?检查IP是否正常

Twitter 拥有庞大的用户群和日常内容流&#xff0c;是沟通、网络和营销的重要平台。然而&#xff0c;处理其限制和潜在的帐户问题可能很棘手。有许多跨境社媒小伙伴反馈&#xff0c;账号无故被冻结&#xff0c;导致内容与客户尽失&#xff01;其实除了账户养号、被举报、广告信…

Mac+Android Studio配置 Flutter环境

Fluttrer中文下载官网 Flutter下载官网 1、环境变量 .zshrc #Flutter export PUB_HOSTED_URL"https://pub.flutter-io.cn" export FLUTTER_STORAGE_BASE_URL"https://storage.flutter-io.cn" export FLUTTER_HOME/Users/leon/Flutter/flutter_3_10_4/f…

SpringBoot项目接入MQTT协议

mqtt是一种类似于mq的通讯技术 1、mqtt服务端搭建 创建docker网络 docker network create --driver bridge --subnet 172.18.0.0/24 --gateway 172.18.0.1 emqx-net创建容器 docker run -d \--name emqx1 \-e "EMQX_NODE_NAMEemqx172.18.0.2" \--network emqx-ne…

js实现填涂画板

文章目录 1实现效果2 实现代码 凑个数&#xff0c;存粹是好玩儿&#xff0c;哈哈... 1实现效果 最上方一栏&#xff1a; 左侧是颜色按钮&#xff0c;点击选中颜色&#xff0c; 中间是功能按钮&#xff0c;重置颜色、清空画板、回退、涂改液&#xff08;填涂色置为白色&#xff…

【iOS ARKit】光照估计

光照估计 AR与VR 在光照上最大的不同在于VR 世界是纯数字世界&#xff0c;有一套完整的数学模型&#xff0c;而AR则是将计算机生成的虚拟物体或关于真实物体的非几何信息叠加到真实世界的场景之上实现对真实世界的增强&#xff0c;融合了真实世界与数字世界。就光照而言&#x…

uniapp - editor 富文本的使用

目录 editor 组件 属性说明 editorContext uni.createSelectorQuery() SelectorQuery selectorQuery.in(component) selectorQuery.select(selector) selectorQuery.selectAll(selector) selectorQuery.selectViewport() selectorQuery.exec(callback) NodesRef nod…

STM32 有源蜂鸣器

模块介绍: 结构&#xff1a;有源蜂鸣器通常由一个振膜和一个驱动电路组成。振膜是负责产生声音的部分&#xff0c;而驱动电路则负责控制振荡频率和幅度。 工作原理&#xff1a;有源蜂鸣器的驱动电路会向振膜施加电压&#xff0c;使其振动产生声音。驱动电路可以根据输入信号的…

ChatGPT升级,价格降低,不再懒惰!

OpenAI 1月26号宣布推出5种新模型&#xff0c;包括两款新的嵌入式模型、更新后的 GPT-4 Turbo 预览模型、GPT-3.5 Turbo 模型以及文本审核模型。 此外&#xff0c;chatgpt的价格也有低至50%的下降。新模型的输入价格下降 50% 至 $0.0005 /1K tokens&#xff0c;输出价格下降 2…

借助gpt生成ppt:文心一言(chatgpt)、chatppt

提供一种简单的基于gpt快速生成ppt的方式。前置条件&#xff1a; 文心一言chatpptwps/office ppt Step1: 下载chatppt插件 https://chat-ppt.com/invitelinke?share_code47949695&channelchat-ppt.com 注册地址 下载完成后&#xff0c;安装即可&#xff0c;安装完成后…

MyBatis框架-XML映射器

文章目录 XML映射器CRUD操作select根据id查询用户根据名字和密码查询方法一&#xff1a;使用对象UserMapper.javaUserMapper.xml测试用例方法二&#xff1a;使用MapUserMapper.javaUserMapper.xml测试用例方法三&#xff1a;方法种传递参数UserMapper.javaUserMapper.xml测试用…

如何看待开发者是否需要入坑鸿蒙?

前言 自打华为2019年发布鸿蒙操作系统以来&#xff0c;网上各种声音百家争鸣。尤其是2023年发布会公布的鸿蒙4.0宣称不再支持Android&#xff0c;更激烈的讨论随之而来。 通过本文&#xff0c;我将给大家介绍以下几点&#xff0c;让大家清楚的了解到鸿蒙开发的趋势&#xff1…

win11设置mysql开机自启

目录 命令式 1、打开命令提示符或 PowerShell&#xff1a; 2、使用管理员权限运行命令行工具&#xff1a; 3、设置 MySQL 服务为开机自启动&#xff1a; 4、启动 MySQL 服务&#xff1a; 5、 验证设置是否生效&#xff1a; 操作视图式 1、右击任务栏 ---> 选择任务管…

深入了解DRAM和SDRAM:内存带宽的计算与封装形式的奥秘

SSD SDRAM DDR SDRAM简介 动态随机存取存储器DRAM&#xff08;Dynamic Random Access Memory&#xff0c;DRAM&#xff09;是一种半导体存储器。 其主要的作用原理是利用电荷内存储电荷的数量来代表一个二进制比特&#xff08;bit&#xff09;是1还是0。 由于在现实中品体管…

【物联网之·协议·ZigBee】

系列文章目录 文章目录 前言一、ZigBee技术概述1.1 ZigBee的起源和发展历程1.2 ZigBee的工作原理和网络拓扑结构1.3 ZigBee的应用领域和主要优势 二、ZigBee协议栈2.1 Zigbee的协议栈结构和各层功能2.2 Zigbee协议栈的协议消息和数据格式 三、ZigBee网络配置3.1 Zigbee网络的组…

嵌⼊式⾯试宝典

编程功底问题 1. 简单描述下C语⾔中⼤⼩端的概念 ⼤⼩端是⼀种计算机存储数据的⽅式,它决定了在内存中如何排列多字节数据的字节顺序。 ⼤端:多字节数据的⾼位字节存储在内存的低地址处。 ⼩端:多字节数据的低位字节存储在内存的低地址处。 8051 stc单⽚机是⼩端模式 …

进京证12次不够用怎么办?(北京进京证探头分布,进京证365,进京365)外地车在京如何行驶——躲猫猫外地车在京地图导航

其实想要在北京驾驶外地牌照的车辆主要有两种方式&#xff0c;一种是办理进京证(六环内进京证一年只能办12次&#xff0c;一次有效期7天&#xff0c;所以大多数人是不够用的);另一种就是在非监控区域行驶&#xff0c;可以借助于一些摄像头定位工具&#xff0c;有效躲避摄像头&a…