【cuda学习日记】3.1 CUDA执行模型--线程束分化

3.1.1 将同用的function放到header文件里
./common/common.h

#define CHECK(call) \{\const cudaError_t error = call; \if (error != cudaSuccess)\{\printf("Error: %s: %d\n", __FILE__, __LINE__);\printf("code :%d reason :%s\n", error , cudaGetErrorString(error));\exit(1);\}\
}class Timer{cudaEvent_t _start;cudaEvent_t _stop;public:Timer(){cudaEventCreate(&_start);cudaEventCreate(&_stop);}void start(){cudaEventRecord(_start, 0);}void stop(){cudaEventRecord(_stop, 0);cudaEventSynchronize(_stop);}float elapsedms(){float out;cudaEventElapsedTime(&out, _start, _stop);return out;}~Timer(){cudaEventDestroy(_start);cudaEventDestroy(_stop);}
};

然后include

#include <stdio.h>
#include <stdlib.h>
#include <time.h>
#include <string.h>
#include <windows.h>
#include "../common/common.h"typedef unsigned long DWORD;__global__ void mathKernel1( float *C){int tid = blockIdx.x * blockDim.x + threadIdx.x;float a, b;a = b = 0.0f;if (tid % 2 == 0){a = 100.0f;}else{b = 200.0f;}C[tid] = a + b;
}__global__ void mathKernel2( float *C){int tid = blockIdx.x * blockDim.x + threadIdx.x;float a, b;a = b = 0.0f;if ((tid / warpSize) % 2 == 0){a = 100.0f;}else{b = 200.0f;}C[tid] = a + b;
}__global__ void mathKernel3( float *C){int tid = blockIdx.x * blockDim.x + threadIdx.x;float a, b;a = b = 0.0f;bool ipred = (tid % 2 == 0);if (ipred){a = 100.0f;}if  (!ipred){b = 200.0f;}C[tid] = a + b;
}__global__ void warmingup( float *C){int tid = blockIdx.x * blockDim.x + threadIdx.x;float a, b;a = b = 0.0f;if ((tid / warpSize) % 2 == 0){a = 100.0f;}else{b = 200.0f;}C[tid] = a + b;
}int main(int argc , char **argv)
{printf("%s starting\n", argv[0]);int dev = 0;cudaDeviceProp deviceprop;CHECK(cudaGetDeviceProperties(&deviceprop,dev));printf("Using Device %d : %s\n", dev, deviceprop.name);int size = 64;int blocksize = 64;if (argc > 1) blocksize = atoi(argv[1]);if (argc > 2) size      = atoi(argv[2]);printf("Data size %d\n", size);dim3 block(blocksize, 1);dim3 grid((size + block.x - 1)/block.x);printf("execution config: %d %d\n", block.x, grid.x);float *d_C;size_t nBytes = size * sizeof(float);cudaMalloc((float**) &d_C, nBytes);Timer timer;timer.start();cudaDeviceSynchronize();warmingup<<<grid,block>>>(d_C);cudaDeviceSynchronize();timer.stop();float elapsedTime = timer.elapsedms();printf("warmup execution time: %f ms\n", elapsedTime);// kernel 1Timer timer1;timer1.start();cudaDeviceSynchronize();mathKernel1<<<grid,block>>>(d_C);cudaDeviceSynchronize();timer1.stop();float elapsedTime1 = timer1.elapsedms();printf("kernel1 execution time: %f ms\n", elapsedTime1);// kernel 2Timer timer2;timer2.start();cudaDeviceSynchronize();mathKernel2<<<grid,block>>>(d_C);cudaDeviceSynchronize();timer2.stop();float elapsedTime2 = timer2.elapsedms();printf("kernel2 execution time: %f ms\n", elapsedTime2);// kernel 3Timer timer3;timer3.start();cudaDeviceSynchronize();mathKernel3<<<grid,block>>>(d_C);cudaDeviceSynchronize();timer3.stop();float elapsedTime3 = timer3.elapsedms();printf("kernel3 execution time: %f ms\n", elapsedTime3);cudaFree(d_C);cudaDeviceReset();return 0;
}

输出时间每次略有差异
Data size 64
execution config: 64 1
warmup execution time: 0.317440 ms
kernel1 execution time: 0.033792 ms
kernel2 execution time: 0.044992 ms
kernel3 execution time: 0.034816 ms

线程束定义:
线程束是SM中基本的执行单元。当一个线程块的网格被启动后,网格中的线程块分布在SM中。一旦线程块被调度到一个SM上,线程块中的线程会被进一步划分为线程束。一个线程束由32个连续的线程组成。

线程束分化:
一个线程束中的所有线程在同一周期中必须执行相同的指令,如果一个线程执行一条指令,那么线程束中的所有线程都必须执行该指令。对于kernel1,一半的线程束需要执行if语句块中的指令,而另一半需要执行else语句块中的指令。在同一线程束中的线程执行不同的指令,被称为线程束分化。

kernel1 和 kernel2的区别:
tid % 2 == 0是在单个线程束内进行操作,它会交替选择线程束中的线程。
(tid / warpsize) % 2 == 0是在线程束级别进行操作,它会选择所有偶数索引的线程束中的所有线程。
例如,假设warpsize是32:

对于tid % 2 == 0,满足条件的线程ID将是0, 2, 4, …, 30, 32, 34, …, 62等。
对于(tid / warpsize) % 2 == 0,满足条件的线程ID将是0-31, 64-95, 128-159等,即每个偶数索引的线程束中的所有32个线程。

通过NVIDIA Nsight Compute (NCU) 来查看和分析线程束分化
ncu --launch-skip=0 --launch-count=4 .\simple_divergence2.exe
–launch-skip=0表示从应用程序启动开始就进行分析,–launch-count=1表示只分析一次内核启动。
结果, 还不知道如何看:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/67701.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【STM32-学习笔记-15-】MAX7219点阵屏模块

文章目录 MAX7219点阵模块一、MAX7219Ⅰ、 概述Ⅱ、功能特点Ⅲ、引脚功能Ⅳ、典型应用电路Ⅴ、内部组成结构Ⅵ、时序图Ⅶ、寄存器 二、STM32控制点阵屏Ⅰ、程序框图Ⅱ、程序编写①、MAX7219.c②、MAX7219.h③、MAX7219_Img.h④、main.c MAX7219点阵模块 一、MAX7219 Ⅰ、 概述…

《知识图谱:鸿蒙NEXT中人工智能的智慧基石》

在鸿蒙NEXT系统的人工智能应用中&#xff0c;知识图谱技术犹如一座智慧基石&#xff0c;为系统的智能化提供了强大的知识支撑&#xff0c;开启了更智能、更高效、更个性化的交互新时代。 提升语义理解能力 知识图谱以其结构化的知识表示方式&#xff0c;将各种实体和它们之间…

AIP-122 资源名字

编号122原文链接AIP-122: Resource names状态批准创建日期2019-01-26更新日期2019-01-26 大多数API会发布 资源/&#xff08;主要是名词&#xff09;&#xff0c;用户可以创建、检索和操作这些资源。此外&#xff0c;资源是 /具命的 &#xff1a;每个资源都有唯一的标识符&…

1.6 从 GPT-1 到 GPT-3.5:一路的风云变幻

从 GPT-1 到 GPT-3.5:一路的风云变幻 人工智能的进步一直是科技领域的一个重要话题,而在自然语言处理(NLP)领域,GPT(Generative Pre-trained Transformer)系列模型的发布,标志着一个又一个技术突破。从2018年发布的 GPT-1 到2022年推出的 GPT-3.5,OpenAI 的每一次更新…

Redis数据库笔记——持久化机制

大家好&#xff0c;这里是Good Note&#xff0c;关注 公主号&#xff1a;Goodnote&#xff0c;专栏文章私信限时Free。本文详细介绍Redis的持久化机制&#xff0c;目标是将内存中的数据持久化到磁盘&#xff0c;以保证数据的可靠性和在重启后的恢复能力。 文章目录 持久化机制A…

K8S 集群搭建和访问 Kubernetes 仪表板(Dashboard)

一、环境准备 服务器要求&#xff1a; 最小硬件配置&#xff1a;2核CPU、4G内存、30G硬盘。 服务器可以访问外网。 软件环境&#xff1a; 操作系统&#xff1a;Anolis OS 7.9 Docker&#xff1a;19.03.9版本 Kubernetes&#xff1a;v1.18.0版本 内核版本&#xff1a;5.4.203-…

vue中echarts-中国地图,世界地图显示(echarts5.6版本本地导入)

地图去掉南海诸岛右下角的框显示&#xff08;因为显示的不是现在的10段线&#xff09; 资源里面主要是有个改好的中国地图json其他的无所谓&#xff0c;用现有的json也行&#xff0c;主要是为了解决10段线的问题 引入需要注意 import * as echarts from “./echarts”; 目录…

数据结构(三) 排序/并查集/图

目录 1. 排序 2.并查集 3.图 1.排序: 1.1 概念: 排序就是将数据按照某种规则进行排列, 具有某种顺序. 分为内排序和外排序. 内排序就是: 将数据放在内存中的排序; 外排序是: 数据太多无法在内存中排序的. 1.2 插入排序: 插入排序包含: 直接插入排序和希尔排序. (1) 直接插入…

算法随笔_13: 有效三角形的个数

上一篇:算法随笔_12:最短无序子数组-CSDN博客 题目描述如下: 给定一个包含非负整数的数组 nums &#xff0c;返回其中可以组成三角形三条边的三元组个数。 示例 1: 输入: nums [2,2,3,4] 输出: 3 解释:有效的组合是: 2,3,4 (使用第一个 2) 2,3,4 (使用第二个 2) 2,2,3 算法…

CSS 网络安全字体

适用于 HTML 和 CSS 的最佳 Web 安全字体 下面列出了适用于 HTM L和 CSS 的最佳 Web 安全字体&#xff1a; Arial (sans-serif)Verdana (sans-serif)Helvetica (sans-serif)Tahoma (sans-serif)Trebuchet MS (sans-serif)Times New Roman (serif)Georgia (serif)Garamond (se…

线程池的数据结构是什么 为什么会占用堆内存 线程池是一个对象吗

线程池是一种用于管理和复用线程以执行多个任务的设计模式&#xff0c;它通过预先创建一组线程&#xff0c;并将这些线程重复用于执行提交给线程池的任务&#xff0c;从而减少因频繁创建和销毁线程带来的开销。在Java中&#xff0c;线程池通常通过java.util.concurrent包下的Th…

PyTorch 神经协同过滤 (NCF) 推荐系统教程

目录 教程概述1. 神经协同过滤模型概述NCF 模型的主要组成部分&#xff1a; 2. 数据加载与预处理3. 定义神经协同过滤模型4. 训练模型5. 模型评估6. 推荐物品7. 完整示例8. 总结 在本教程中&#xff0c;我们将使用 PyTorch 实现一个神经协同过滤&#xff08;Neural Collaborat…

03.选择排序

一、题目思路 选择排序是一种简单直观的排序算法。它的工作原理是&#xff1a;首先在未排序序列中找到最小&#xff08;或最大&#xff09;元素&#xff0c;存放到排序序列的起始位置&#xff0c;然后&#xff0c;再从剩余未排序元素中继续寻找最小&#xff08;或最大&#xff…

大模型学习笔记 - 第一期 - Milvus向量数据库

大模型学习笔记 - 向量数据库 目录 大模型学习笔记 - 向量数据库传统文字检索(无嵌入)面临的困境1. 用户和商户表述差异2. 不同语种的表述差异3. 不同背景下的音译表述差异 向量检索向量化服务 参考 传统文字检索(无嵌入)面临的困境 1. 用户和商户表述差异 ​ 如果商户维护了…

详细图文解读Transformer模型:《Attention is All You Need》完整版

目录 前言1、Transformer模型《Attention is All You Need》总结2、Transformer整体结构2.1、工作流程 3、Transformer的输入4、Self-Attention&#xff08;自注意力机制&#xff09;4.1、Self-Attention 结构4.2、Q, K, V计算4.3、Self-Attention 的输出4.4、Multi-Head Atten…

Hadoop•用Web UI查看Hadoop状态词频统计

听说这里是目录哦 通过Web UI查看Hadoop运行状态&#x1f407;一、关闭防火墙二、在物理计算机添加集群的IP映射三、启动集群四、进入HDFS的Web UI 词频统计&#x1f9a9;1、准备文本数据2、在HDFS创建目录3、上传文件4、查看文件是否上传成功5、运行MapReduce程序6、查看MapRe…

vue编写一个可拖动的模块,并可以和任何其他组件组合使用

实现思路&#xff1a; 使用 Vue 的自定义指令&#xff08;directive&#xff09;来处理拖动逻辑。在 mounted 钩子中添加鼠标事件监听器&#xff0c;以实现拖动功能。在 unmounted 钩子中移除鼠标事件监听器&#xff0c;防止内存泄漏。 代码示例&#xff1a; <template&g…

Ubuntu、Windows系统网络设置(ping通内外网)

一、 虚拟机VMware和Ubuntu系统的网络配置说明 1、虚拟机的网络适配器的模式有三种&#xff1a; 桥接模式NAT模式主机模式 2、虚拟机VMware的网卡配置(如何进行配置界面(虚拟机->设置)) 注意&#xff1a; 1、以上桥接模式(ubuntu有独立IP)、NAT模式(没有独立IP)都可以联…

将IDLE里面python环境pyqt5配置的vscode

首先安装pyqt5全套&#xff1a;pip install pyqt5-tools 打开Vscode&#xff1a; 安装第三方扩展&#xff1a;PYQT Integration 成功配置designer.exe的路径【个人安装pyqt5的执行路径】&#xff0c;便可直接打开UI文件&#xff0c;进行编辑。 配置pyuic,如果下图填写方法使用…

大模型之三十三- 开源Melo 语音合成

大模型之三十三- 开源Melo 语音合成 文本到语音(TTS)系统从基于基础音素的模型演变成复杂的端到端神经方法,这种方法可以直接将文本转换为语音。这一变革得益于深度学习的进步和计算能力的提升,已经在语音的自然度、韵律控制和跨语言能力方面取得了重大进展 。现代TTS系统…