cuda中的cooperative_groups

背景

最近看到一个代码cooperative_groups.this_grid().sync()很好奇,这里好好梳理一下

分析

以前block内部的同步是用syncthreads(), block之间没有提供同步的接口,这样是合理的,假如有block间同步API的话,如果block太多,block_n要等block_0算完退出后才能进入sm, 但是block_0为了同步又要等block_n,这样就锁死了,本质原因是因为gpu的逻辑和cpu不一样,gpu单个block寄存器的值不会暂存到显存里来切换block_0。那么问题来了,这个this_grid().sync() API咋用?

实验

#include <stdio.h>
#include <cuda_runtime.h>
#include <cooperative_groups.h>namespace cg = cooperative_groups;__global__ void kernel(int* data) {int tid = threadIdx.x + blockIdx.x * blockDim.x;data[tid] = tid * tid;cg::this_grid().sync();if (blockIdx.x == 0 && threadIdx.x == 0) {for (int i = 0; i < gridDim.x * blockDim.x; ++i) {printf("%d ", data[i]);}printf("\n");}}template<typename... Types>
inline void launch_coop(void(*f)(Types...),dim3 gridDim, dim3 blockDim, cudaStream_t stream,Types... args)
{void* va_args[sizeof...(args)] = { &args... };(cudaLaunchCooperativeKernel((const void*)f, gridDim, blockDim,va_args, 0, stream));
}int main() {const int N = 8;int* d_data;cudaMalloc((void**)&d_data, N * sizeof(int));dim3 block(8);dim3 grid(20000);launch_coop(kernel, grid, block, 0, d_data);cudaDeviceSynchronize();cudaError_t err = cudaGetLastError();printf("$$$$$$$$$$$$$$: %s \n",cudaGetErrorString(err));cudaFree(d_data);return 0;
}

结论

实验结果发现,如果想使用这个API,必须保证所有的block在加载初期就是可以全部加载到sm中的,如果不行这个kernel launch就会失败,报错“too many blocks in cooperative launch”, 这个就比较合理了。

思考

这个api主要是避免小应用需要启用多个kernel来同步数据,因为单个kernel的block间无法同步(这个说法不是很准确),启动多个kernel不仅耗时,而且来回读写也耗时,所以小任务如果需要同步,可以考虑用这个API, 但是这个玩意是不是很耗时就没验证过了,有兴趣的可以试试。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/47580.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue程序中如何设置调用springboot服务的url

在Vue程序中调用Spring Boot服务的URL&#xff0c;可以通过以下步骤实现&#xff1a; 安装Axios: Axios是一个基于Promise的HTTP库&#xff0c;可以用于浏览器和Node.js。可以使用npm或yarn安装Axios。 npm install axios # or yarn add axios创建Axios实例: 为了方便管理和复用…

Python--循环控制语句:continue 和 break

在Python编程中&#xff0c;continue 和 break 是两个非常有用的循环控制语句&#xff0c;它们允许我们以不同的方式控制循环的执行流程。 continue 语句 continue 用于中断当前循环的剩余部分&#xff0c;直接进入下一次循环的开始。它的作用是跳过当前循环中剩余的代码&…

GuLi商城-商品服务-API-属性分组-分组修改级联选择器回显

前端代码:略 后端回显接口: 递归方法: @Override publi

算法模板之单调栈【java】

算法模板之单调栈【java】 单调栈&#xff1a;在一维数组中找第一个满足某种条件的数找到数组中每个数【左侧】第一个【大于】它的数找到数组中每个数【左侧】第一个【大于或等于】它的数找到数组中每个数【左侧】第一个【小于】它的数找到数组中每个数【左侧】第一个【小于或等…

C# 反射详解

本文主要是对反射进行详细介绍&#xff0c;具体可以参照微软官方文档 首先我们来定义一个类型 public class Calculator {private int _number1 10;private int _number2 20;public int Number1 { get > _number1; set > _number1 value; }public int Number2 { get…

jquery中pdf在页面的显示和导出

jquery中pdf在页面的显示和导出 01 显示pdf01 .pdf结尾在线接口显示到页面 &#xff08;pdf.js库怎么安装及使用&#xff09;&#xff1a;只显示一页02 如何用PDF.JS显示整个PDF (而不仅仅是一页)&#xff1f;03 jQuery实现在线预览PDF文件(通过a标签链接跳转)&#xff1a; 02 …

RocketMq源码解析十二:消息消费负载

RocketMQ消息队列重新分配是由RebalancService线程来实现,一个MQClientinstance持有一个RebalanceService的实现,并随着MQClientInstance的启动而启动。我们看下下面的代码 位置:MQClientInstance:start方法 public void start() throws MQClientException {synchronized (…

‍我想我大抵是疯了,我喜欢上了写单元测试

前言 大家好我是聪。相信有不少的小伙伴喜欢写代码&#xff0c;但是对于单元测试这些反而觉得多此一举&#xff0c;想着我都在接口文档测过了&#xff01;还要写什么单元测试&#xff01;写不了一点&#xff01;&#xff01; 由于本人也是一个小小程序猿&#x1f649;&#xf…

关于HDFS、Hive和Iceberg

HDFS & Hive 如果我们将Hive比喻为储藏室&#xff0c;那么HDFS&#xff08;Hadoop Distributed File System&#xff09;就可以比作是储藏室所在的建筑物的地基和结构。 HDFS是一个分布式文件系统&#xff0c;它的设计目标是存储和管理海量数据。在我们的类比中&#xff…

华为云SQLServer 慢日志查看

作者&#xff1a;梦莱 1、背景 华为云目前只支持 SQLServer 登录数据库&#xff0c;不支持查看慢日志。对于开启慢日志的实例&#xff0c;也只能通过将慢日志下载到本地 再远程连接目标实例数据库查看。本篇将华为云 SQLServer 实例出现资源异常&#xff0c;排查问题的方案整…

QT5_C++基础

1. 什么是类和对象 C的类是一种构造类型&#xff0c;与C语言的结构体类似&#xff0c;但是进行了一些拓展&#xff0c;类的成员不但可以是变量&#xff0c;还可以是函数&#xff1b;通过类定义出来的变量也有特定的称呼&#xff0c;叫做“对象”类是创建对象的模板&#xff0c…

【java】力扣 合法分割的最小下标

文章目录 题目链接题目描述思路代码 题目链接 2780.合法分割的最小下标 题目描述 思路 这道题是摩尔算法的一种扩展 我们先可以找到候选人出来&#xff0c;然后去计算他在左右两边元素出现的次数&#xff0c;只有当他左边时&#xff0c;左边出现的次数2 >左边的长度&…

【 LCD1602显示屏】使用STC89C51控制1602显示、读写操作时序

文章目录 LCD1602显示概述&#xff1a;引脚说明控制指令接线 控制思路步骤 代码示例总结对databuffer dataShow;的理解 LCD1602显示 概述&#xff1a; LCD1602&#xff08;Liquid Crystal Display&#xff09;是一种工业字符型液晶&#xff0c;能够同时显示 1602 即 32 字符…

Android Studio的xml文件的layout布局,在添加属性的过程中,没有自动补全代码问题的解决方案

在build.gradle文件中&#xff0c;把compileSdkVersion和targetSdkVersion两个参数改成32就好了。 参考&#xff1a;关于Android Studio的xml文件的layout布局&#xff0c;在添加属性的过程中&#xff0c;不显示提示词&#xff08;没有自动补全代码&#xff09;的问题的解决方…

SpringBoot增加网关服务

一、新建gateway项目 二、添加依赖 dependencies {implementation org.springframework.cloud:spring-cloud-starter-gateway:4.0.0 } 三、增加路由规则配置 一个web服务、一个service服务 bootstrap.yaml&#xff1a; server:port: 80 spring:application:name: gatewayc…

子树的重心

描述 输入一棵树,判断每一棵子树的重心是哪一个节点。 输入描述 第一行输入n,q。n表示树的节点个数&#xff0c;q表示询问次数 第二行n-1个数&#xff0c;分别表示从节点2开始&#xff0c;各节点的父亲节点。 后面q行&#xff0c;每行一个数x&#xff0c;表示询问当前以x为根…

【STM32 HAL库】I2S的使用

使用CubeIDE实现I2S发数据 1、配置I2S 我们的有效数据是32位的&#xff0c;使用飞利浦格式。 2、配置DMA **这里需要注意&#xff1a;**i2s的DR寄存器是16位的&#xff0c;如果需要发送32位的数据&#xff0c;是需要写两次DR寄存器的&#xff0c;所以DMA的外设数据宽度设置16…

入门C语言只需一个星期(星期二)

点击上方"蓝字"关注我们 01、算术运算符 int myNum = 100 + 50;int sum1 = 100 + 50; // 150 (100 + 50)int sum2 = sum1 + 250; // 400 (150 + 250)int sum3 = sum2 + sum2; // 800 (400 + 400) + 加 将两个值相加 x + y - 减 从另一个值中减去一个值 …

探索Python自然语言处理的新篇章:jionlp库介绍

探索Python自然语言处理的新篇章&#xff1a;jionlp库介绍 1. 背景&#xff1a;为什么选择jionlp&#xff1f; 在Python的生态中&#xff0c;自然语言处理&#xff08;NLP&#xff09;是一个活跃且不断发展的领域。jionlp是一个专注于中文自然语言处理的库&#xff0c;它提供了…

Ubuntu 安装 XRDP,替代系统自带RDP远程桌面

起因&#xff0c;Ubuntu的自带RDP远程桌面很好用&#xff0c;但很傻卵&#xff0c;必须登录。 而设置了自动登录也不能解开KEYRING&#xff0c;必须必须必须用GUI手动登录。 &#xff08;我远程我用头给你坐机子面前开显示器先登录&#xff1f;&#xff1f;&#xff09; 比起VN…