自写代码来理解 get_global_id 和 get_global_size

<2022-01-24 周一>

《OpenCL编程指南》第三章

自写代码来理解get_global_idget_global_size

使用本书第三章中关于输入信号卷积的代码来进行理解,见随书代码“src/Chapter_3/OpenCLConvolution”,附代码如下:

//
// Book:      OpenCL(R) Programming Guide
// Authors:   Aaftab Munshi, Benedict Gaster, Timothy Mattson, James Fung, Dan Ginsburg
// ISBN-10:   0-321-74964-2
// ISBN-13:   978-0-321-74964-2
// Publisher: Addison-Wesley Professional
// URLs:      http://safari.informit.com/9780132488006/
//            http://www.openclprogrammingguide.com
//// Convolution.cpp
//
//    This is a simple example that demonstrates OpenCL platform, device, and context
//    use.#include <iostream>
#include <fstream>
#include <sstream>
#include <string>
#include <iomanip>#ifdef __APPLE__
#include <OpenCL/cl.h>
#else
#include <CL/cl.h>
#endif#if !defined(CL_CALLBACK)
#define CL_CALLBACK
#endif// Constants
const unsigned int inputSignalWidth = 8;
const unsigned int inputSignalHeight = 8;cl_uint inputSignal[inputSignalWidth][inputSignalHeight] =
{{3, 1, 1, 4, 8, 2, 1, 3},{4, 2, 1, 1, 2, 1, 2, 3},{4, 4, 4, 4, 3, 2, 2, 2},{9, 8, 3, 8, 9, 0, 0, 0},{9, 3, 3, 9, 0, 0, 0, 0},{0, 9, 0, 8, 0, 0, 0, 0},{3, 0, 8, 8, 9, 4, 4, 4},{5, 9, 8, 1, 8, 1, 1, 1}
};const unsigned int outputSignalWidth = 6;
const unsigned int outputSignalHeight = 6;cl_uint outputSignal[outputSignalWidth][outputSignalHeight];const unsigned int maskWidth = 3;
const unsigned int maskHeight = 3;cl_uint mask[maskWidth][maskHeight] =
{{1, 1, 1}, {1, 0, 1}, {1, 1, 1},
};///
// Function to check and handle OpenCL errors
inline void
checkErr(cl_int err, const char * name)
{if (err != CL_SUCCESS) {std::cerr << "ERROR: " << name << " (" << err << ")" << std::endl;exit(EXIT_FAILURE);}
}void CL_CALLBACK contextCallback(const char * errInfo,const void * private_info,size_t cb,void * user_data)
{std::cout << "Error occured during context use: " << errInfo << std::endl;// should really perform any clearup and so on at this point// but for simplicitly just exit.exit(1);
}///
//	main() for Convoloution example
//
int main(int argc, char** argv)
{cl_int errNum;cl_uint numPlatforms;cl_uint numDevices;cl_platform_id * platformIDs;cl_device_id * deviceIDs;cl_context context = NULL;cl_command_queue queue;cl_program program;cl_kernel kernel;cl_mem inputSignalBuffer;cl_mem outputSignalBuffer;cl_mem maskBuffer;// First, select an OpenCL platform to run on.errNum = clGetPlatformIDs(0, NULL, &numPlatforms);checkErr((errNum != CL_SUCCESS) ? errNum : (numPlatforms <= 0 ? -1 : CL_SUCCESS),"clGetPlatformIDs");platformIDs = (cl_platform_id *)alloca(sizeof(cl_platform_id) * numPlatforms);errNum = clGetPlatformIDs(numPlatforms, platformIDs, NULL);checkErr((errNum != CL_SUCCESS) ? errNum : (numPlatforms <= 0 ? -1 : CL_SUCCESS),"clGetPlatformIDs");// Iterate through the list of platforms until we find one that supports// a CPU device, otherwise fail with an error.deviceIDs = NULL;cl_uint i;for (i = 0; i < numPlatforms; i++){errNum = clGetDeviceIDs(platformIDs[i],CL_DEVICE_TYPE_CPU,0,NULL,&numDevices);if (errNum != CL_SUCCESS && errNum != CL_DEVICE_NOT_FOUND){checkErr(errNum, "clGetDeviceIDs");}else if (numDevices > 0){deviceIDs = (cl_device_id *)alloca(sizeof(cl_device_id) * numDevices);errNum = clGetDeviceIDs(platformIDs[i],CL_DEVICE_TYPE_CPU,numDevices,&deviceIDs[0],NULL);checkErr(errNum, "clGetDeviceIDs");break;}}// Check to see if we found at least one CPU device, otherwise returnif (deviceIDs == NULL) {std::cout << "No CPU device found" << std::endl;exit(-1);}// Next, create an OpenCL context on the selected platform.cl_context_properties contextProperties[] ={CL_CONTEXT_PLATFORM,(cl_context_properties)platformIDs[i],0};context = clCreateContext(contextProperties,numDevices,deviceIDs,&contextCallback,NULL,&errNum);checkErr(errNum, "clCreateContext");std::ifstream srcFile("Convolution.cl");checkErr(srcFile.is_open() ? CL_SUCCESS : -1, "reading Convolution.cl");std::string srcProg(std::istreambuf_iterator<char>(srcFile),(std::istreambuf_iterator<char>()));const char * src = srcProg.c_str();size_t length = srcProg.length();// Create program from sourceprogram = clCreateProgramWithSource(context,1,&src,&length,&errNum);checkErr(errNum, "clCreateProgramWithSource");// Build programerrNum = clBuildProgram(program,numDevices,deviceIDs,NULL,NULL,NULL);if (errNum != CL_SUCCESS){// Determine the reason for the errorchar buildLog[16384];clGetProgramBuildInfo(program,deviceIDs[0],CL_PROGRAM_BUILD_LOG,sizeof(buildLog),buildLog,NULL);std::cerr << "Error in kernel: " << std::endl;std::cerr << buildLog;checkErr(errNum, "clBuildProgram");}// Create kernel objectkernel = clCreateKernel(program,"convolve",&errNum);checkErr(errNum, "clCreateKernel");// Now allocate buffersinputSignalBuffer = clCreateBuffer(context,CL_MEM_READ_ONLY | CL_MEM_COPY_HOST_PTR,sizeof(cl_uint) * inputSignalHeight * inputSignalWidth,static_cast<void *>(inputSignal),&errNum);checkErr(errNum, "clCreateBuffer(inputSignal)");maskBuffer = clCreateBuffer(context,CL_MEM_READ_ONLY | CL_MEM_COPY_HOST_PTR,sizeof(cl_uint) * maskHeight * maskWidth,static_cast<void *>(mask),&errNum);checkErr(errNum, "clCreateBuffer(mask)");outputSignalBuffer = clCreateBuffer(context,CL_MEM_WRITE_ONLY,sizeof(cl_uint) * outputSignalHeight * outputSignalWidth,NULL,&errNum);checkErr(errNum, "clCreateBuffer(outputSignal)");// Pick the first device and create command queue.queue = clCreateCommandQueue(context,deviceIDs[0],0,&errNum);checkErr(errNum, "clCreateCommandQueue");errNum = clSetKernelArg(kernel, 0, sizeof(cl_mem), &inputSignalBuffer);errNum |= clSetKernelArg(kernel, 1, sizeof(cl_mem), &maskBuffer);errNum |= clSetKernelArg(kernel, 2, sizeof(cl_mem), &outputSignalBuffer);errNum |= clSetKernelArg(kernel, 3, sizeof(cl_uint), &inputSignalWidth);errNum |= clSetKernelArg(kernel, 4, sizeof(cl_uint), &maskWidth);checkErr(errNum, "clSetKernelArg");const size_t globalWorkSize[1] = { outputSignalWidth * outputSignalHeight };const size_t localWorkSize[1] = { 1 };// Queue the kernel up for execution across the arrayerrNum = clEnqueueNDRangeKernel(queue,kernel,1,NULL,globalWorkSize,localWorkSize,0,NULL,NULL);checkErr(errNum, "clEnqueueNDRangeKernel");errNum = clEnqueueReadBuffer(queue,outputSignalBuffer,CL_TRUE,0,sizeof(cl_uint) * outputSignalHeight * outputSignalHeight,outputSignal,0,NULL,NULL);checkErr(errNum, "clEnqueueReadBuffer");// Output the result bufferfor (int y = 0; y < outputSignalHeight; y++){for (int x = 0; x < outputSignalWidth; x++){std::cout << std::setw(2) << outputSignal[x][y] << " ";}std::cout << std::endl;}std::cout << std::endl << "Executed program succesfully." << std::endl;return 0;
}
//
// Book:      OpenCL(R) Programming Guide
// Authors:   Aaftab Munshi, Benedict Gaster, Timothy Mattson, James Fung, Dan Ginsburg
// ISBN-10:   0-321-74964-2
// ISBN-13:   978-0-321-74964-2
// Publisher: Addison-Wesley Professional
// URLs:      http://safari.informit.com/9780132488006/
//            http://www.openclprogrammingguide.com
//// Convolution.cl
//
//    This is a simple kernel performing convolution.__kernel void convolve(const __global  uint * const input,__constant uint * const mask,__global  uint * const output,const int inputWidth,const int maskWidth)
{const int x = get_global_id(0);const int y = get_global_id(1);uint sum = 0;for (int r = 0; r < maskWidth; r++){const int idxIntmp = (y + r) * inputWidth + x;for (int c = 0; c < maskWidth; c++){sum += mask[(r * maskWidth) + c] * input[idxIntmp + c];}}output[y * get_global_size(0) + x] = sum;
}

注:代码中clGetDeviceIDs()函数使用CL_DEVICE_TYPE_CPU,虽然编译和执行都没有问题,但是在vs2017上单步调试时clCreateContext()这个函数会出错,返回错误-2,这是CL_DEVICE_NOT_AVAILABLE错误:

CL_DEVICE_NOT_AVAILABLE if a device in devices is currently not available even though the device was returned by clGetDeviceIDs.

具体原因不深究了,将CL_DEVICE_TYPE_CPU都改为CL_DEVICE_TYPE_GPU就一切正常了。代码输出:

22 27 19 35 41 12
21 35 10 26 48 24
27 35 29 16 31 26
25 31 33  6 34 48
22 31 39 22  9 37
16 27 43 31  0 38Executed program succesfully.

我想用c++代码来模拟kernel函数,实现同样的效果,因此我有如下的c++代码:

#include <stdio.h>int input[8][8] = {{3, 1, 1, 4, 8, 2, 1, 3},{4, 2, 1, 1, 2, 1, 2, 3},{4, 4, 4, 4, 3, 2, 2, 2},{9, 8, 3, 8, 9, 0, 0, 0},{9, 3, 3, 9, 0, 0, 0, 0},{0, 9, 0, 8, 0, 0, 0, 0},{3, 0, 8, 8, 9, 4, 4, 4},{5, 9, 8, 1, 8, 1, 1, 1}
};int mask[3][3] = {{1, 1, 1},{1, 0, 1},{1, 1, 1},
};int output[6][6] = { 0 };void convolve()
{for (int y = 0; y < 6; ++y) {for (int x = 0; x < 6; ++x) {int sum = 0;for (int r = 0; r < 3; r++) {const int idxIntmp = (y + r) * 8 + x;for (int c = 0; c < 3; c++)sum += *((int*)mask + (r * 3) + c) * *((int*)input + idxIntmp + c);}*((int*)output + y * 6 + x) = sum;}}
}int main()
{convolve();for (int y = 0; y < 6; ++y) {for (int x = 0; x < 6; ++x)printf("%2d ", output[x][y]);printf("\n");}
}

对比一下,发现结果不一致:

// 书中的
22 27 19 35 41 12
21 35 10 26 48 24
27 35 29 16 31 26
25 31 33  6 34 48
22 31 39 22  9 37
16 27 43 31  0 38// 第一次
22 35 39 41 26 42
21 31 43 48 48 43
27 31 35 31 37 42
25 27 26 34 38 30
22 19 16  9 17 23
16 10  6  0 12 11

百思不得其解,确信我的理解是对的,get_global_id(0)get_global_id(1)的值都为6,如果将上述c++代码修改为:

void convolve()
{for (int y = 0; y < /*6*/8; ++y) {for (int x = 0; x < /*6*/8; ++x) {int sum = 0;for (int r = 0; r < 3; r++) {const int idxIntmp = (y + r) * 8 + x;for (int c = 0; c < 3; c++)sum += *((int*)mask + (r * 3) + c) * *((int*)input + idxIntmp + c);}*((int*)output + y * /*6*/8 + x) = sum;}}
}

输出结果就和书中的一致了:

// 书中的
22 27 19 35 41 12
21 35 10 26 48 24
27 35 29 16 31 26
25 31 33  6 34 48
22 31 39 22  9 37
16 27 43 31  0 38// 第二次
22 27 19 35 41 12
21 35 10 26 48 24
27 35 29 16 31 26
25 31 33  6 34 48
22 31 39 22  9 37
16 27 43 31  0 38

虽然结果一致,但是此时output[6][6]变量的大小变成了output[8][8],说明已经溢出了,难道get_global_id(0)get_global_id(1)都是8,如果真是这样的话,那我之前的理解就全错了,这也太恐怖了吧!

经过尝试我发现:

funcvalue
get_global_id(0)0-35
get_global_id(1)0
get_global_size(0)36

原来书中代码是以一维数组传入的:

const size_t globalWorkSize[1] = { outputSignalWidth * outputSignalHeight };
const size_t localWorkSize[1] = { 1 };// Queue the kernel up for execution across the array
errNum = clEnqueueNDRangeKernel(queue,kernel,1,NULL,globalWorkSize,localWorkSize,0,NULL,NULL);
checkErr(errNum, "clEnqueueNDRangeKernel");

所以,我将我的c++代码也进行了相应的修改:

void convolve()
{for (int y = 0; y < 1; ++y) {for (int x = 0; x < 36; ++x) {int sum = 0;for (int r = 0; r < 3; r++) {const int idxIntmp = (y + r) * 8 + x;for (int c = 0; c < 3; c++)sum += *((int*)mask + (r * 3) + c) * *((int*)input + idxIntmp + c);}*((int*)output + y * 0 + x) = sum;}}
}

这样结果就一致了:

// 书中的
22 27 19 35 41 12
21 35 10 26 48 24
27 35 29 16 31 26
25 31 33  6 34 48
22 31 39 22  9 37
16 27 43 31  0 38// 第三次
22 27 19 35 41 12
21 35 10 26 48 24
27 35 29 16 31 26
25 31 33  6 34 48
22 31 39 22  9 37
16 27 43 31  0 38

或者我修改一下原书代码,以二维数组传入:

const size_t globalWorkSize[2] = { outputSignalWidth, outputSignalHeight };
const size_t localWorkSize[2] = { 1, 1 };// Queue the kernel up for execution across the array
errNum = clEnqueueNDRangeKernel(queue,kernel,2,NULL,globalWorkSize,localWorkSize,0,NULL,NULL);
checkErr(errNum, "clEnqueueNDRangeKernel");

我的测试代码仍保持最初的模样,即:

void convolve()
{for (int y = 0; y < 6; ++y) {for (int x = 0; x < 6; ++x) {int sum = 0;for (int r = 0; r < 3; r++) {const int idxIntmp = (y + r) * 8 + x;for (int c = 0; c < 3; c++)sum += *((int*)mask + (r * 3) + c) * *((int*)input + idxIntmp + c);}*((int*)output + y * 6 + x) = sum;}}
}

这样的修改后的结果也一致,说明我的理解是正确的:

// 书中的
22 35 39 41 26 42
21 31 43 48 48 43
27 31 35 31 37 42
25 27 26 34 38 30
22 19 16  9 17 23
16 10  6  0 12 11// 第一次
22 35 39 41 26 42
21 31 43 48 48 43
27 31 35 31 37 42
25 27 26 34 38 30
22 19 16  9 17 23
16 10  6  0 12 11

现在就算真正理解了get_global_idget_global_size,最后一个疑问就是为什么以一组数组传入和以二维数组传入得到的结果不一样?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/626642.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

webpack打包可视化分析工具:webpack-bundle-analyzer

在对webpack项目进行优化的时候,可以使用webpack-bundle-analyzer这个可视化插件来快速分析我们包的结构,能快速定位需要优化的地方,对开发者非常友好 下载安装 下载依赖包 npm i webpack-bundle-analyzer 使用 const BundleAnalyzerPlugin require(webpack-bundle-analy…

qt.qpa.plugin: Could not find the Qt platform plugin “windows“ in ““

系统环境&#xff1a;Win10家庭中文版 Qt : 5.12.9 链接了一些64位的第三方库&#xff0c;程序编译完运行后出现 qt.qpa.plugin: Could not find the Qt platform plugin "windows" in "" 弹窗如下&#xff1a; 网上搜了一些都是关于pyQt的&#xff0c…

【实战记录】 vagrant+virtualbox+docker 轻松用虚拟机集成组件

用途 最近要学一大堆组件&#xff0c;不想直接安装本机上&#xff0c;然后gpt说&#xff1a;你可以用vagrant起个虚拟机&#xff08;然后docker拉取各种组件的镜像&#xff09;&#xff1b;或者k8s 实战的整体思路 首先安装virtualbox和vagrant。然后cmd依次键入三条命令 安…

负载均衡 LoadBalancer

负载均衡 负载均衡一般分为服务端负载均衡和客户端负载均衡 服务端负载均衡&#xff1a; 指在服务器端进行负载均衡的策略。在这种策略下&#xff0c;负载均衡器位于服务器端&#xff08;如 Nginx&#xff09;&#xff0c;当客户端发起服务调用时&#xff0c;根据服务器的负…

旧衣回收小程序搭建:降低企业成本,提高回收效率!

在人们环保意识提升下&#xff0c;旧衣回收行业受到了大众的关注&#xff0c;同时旧衣回收具有门槛低、利润大的优势。在我国&#xff0c;回收行业不仅帮助普通人就业获利&#xff0c;还对环保做出了较大贡献。因此&#xff0c;旧衣回收行业成为了当下的热门商业模式&#xff0…

时尚女童冲锋衣外套

上身时尚又好看的外套 日常穿着或者出行游玩 应对早晚温差&#xff0c;兼具时尚和功能 保暖也可以很轻盈 率性闲适的洒脱范 版型百搭好穿 下摆有橡筋收紧更加保暖了 简直就是一件实用与时尚并存的时尚单品

Swift爬虫程序采集招聘信息代码示例

今天我将用Swift写一个爬虫程序&#xff0c;主要是爬取招聘信息网站得。我们知道Selenops是一个简单的Swift Web爬虫工具&#xff0c;可以用于爬取网页内容。您可以使用Selenops的三种方式之一来进行爬虫操作&#xff1a;Swift游乐场、Swift脚本或马拉松脚本SwiftUI是一种用于构…

linux nginx配置链接访问图片

nginx 安装 sudo apt update sudo apt install nginxnginx 启动命令 sudo systemctl restart nginx # 重启 sudo systemctl start nginx #开启 sudo systemctl stop nginx # 关闭 sudo systemctl status nginx # 状态 sudo systemctl restart nginx.service #重启nginx安装成…

SEM优化三种方式

百度搜索引擎优化的三种方式 大搜&#xff1a;关键词推广&#xff0c;投入产出比更好百益&#xff1a;图片广告&#xff0c;这些图片广告会出现在站长的网站上&#xff0c;比如小说的网站上&#xff0c;用户点击图片了就会从账户里扣钱信息流&#xff1a;转化低&#xff0c;一…

100个实战项目——在树莓派4B+Ubuntu20.04桌面版配置下运行智能小车(一)

主机SSH远程链接从机 查看python版本 python 我的是python3.8 所以我需要安装pip3 sudo apt install python3-pip 接着安装程序需要的引脚库 sudo pip3 install RPi.GPIO 注意必须要有sudo&#xff0c;因为我是远程遥控的树莓派&#xff0c;没有权限运行程序&#xff0…

前端生成CRC16

一、代码 /**CRC16检验 用例&#xff1a;CRC.ToModbusCRC16(FF2233FF)*/ var CRC {}; CRC._auchCRCHi [0x00, 0xC1, 0x81, 0x40, 0x01, 0xC0, 0x80, 0x41, 0x01, 0xC0, 0x80, 0x41, 0x00, 0xC1, 0x81, 0x40, 0x01, 0xC0, 0x80, 0x41, 0x00, 0xC1, 0x81, 0x40, 0x00, 0xC1, 0…

如何进行时间管理 待办事项软件帮你成为时间管理大师

在这个快节奏的现代社会&#xff0c;时间显得格外宝贵。每个人都在与时间赛跑&#xff0c;试图在有限的时间里完成更多的事情。我曾经也深陷于这样的困境&#xff0c;每天都被无数的杂事裹挟着&#xff0c;仿佛永远都抓不住时间的尾巴。 那时&#xff0c;我常常感到焦虑和疲惫…

操作系统详解(5.2)——信号(Signal)的题目进阶

系列文章&#xff1a; 操作系统详解(1)——操作系统的作用 操作系统详解(2)——异常处理(Exception) 操作系统详解(3)——进程、并发和并行 操作系统详解(4)——进程控制(fork, waitpid, sleep, execve) 操作系统详解(5)——信号(Signal) 操作系统详解(5.1)——信号(Signal)的相…

SpringMVC mss整合

建库建表 CREATE TABLE account (id int(11) NOT NULL AUTO_INCREMENT,name varchar(20) DEFAULT NULL,money double DEFAULT NULL,PRIMARY KEY (id) ) ENGINEInnoDB DEFAULT CHARSETutf8;首先 &#xff1a;先创建一个工程 其次添加配置&#xff1a; pom.xml <?xml vers…

MySQL进阶45讲【1】基础架构:一条SQL查询语句是如何执行的?

1 前言 我们经常说&#xff0c;看一个事儿千万不要直接陷入细节里&#xff0c;应该先鸟瞰其全貌&#xff0c;这样能够帮助你从高维度理解问题。同样&#xff0c;对于MySQL的学习也是这样。平时我们使用数据库&#xff0c;看到的通常都是一个整体。比如&#xff0c;有个最简单的…

JavaScript类型检测【全】

类型检测的方法&#xff1a; typeofinstanceofObject.prototype.toStringconstructor typeof typeof 操作符返回一个字符串&#xff0c;表示未经计算的操作数的类型。 typeof undefined; // "undefined"typeof null; // "object"typeof 100; // "…

幽默爆笑面试法

以下是以一种幽默的方法来面试。 大家好&#xff0c;我是程序员的“面试大师”小G&#xff0c;今天我将揭示程序员必备的面试技巧&#xff0c;不仅让你技能满分&#xff0c;笑料更是足够让面试官笑到合不拢嘴&#xff0c;毕竟幽默感也是程序员的一项利器。 语言基础&#xff1…

15.【TypeScript 教程】类型保护

TypeScript 类型保护 本节介绍的类型保护 TypeScript 类型检查机制的第二个部分&#xff0c;我们可以通过 typeof、instanceof、in 和 字面量类型 将代码分割成范围更小的代码块&#xff0c;在这一小块中&#xff0c;变量的类型是确定的。 1. 解释 类型保护是指缩小类型的范围…

锐意进取,蓬勃发展|爱基百客2023全景图

岁序更迭&#xff0c;2023年已悄然离去。对我们来说&#xff0c;这是充满挑战与机遇的一年。爱基百客作为一家专注于测序服务的公司&#xff0c;我们在这一年里经历了许多挑战&#xff0c;也取得了令人鼓舞的成绩。前面我们盘点了表观产品和单细胞产品&#xff0c;今天再邀您回…

AI工具推荐:开源TTS(文本生成语音)模型集合

XTTS TTS是一个语音生成模型&#xff0c;可以通过一个简短的6秒音频片段将声音克隆到不同的语言。它不需要大量的训练数据&#xff0c;也不需要耗费大量时间。TTS支持17种语言&#xff0c;可以进行声音克隆、情感和风格转移、跨语言声音克隆以及多语言语音生成等功能。XTTS-v2…