cuda中的cooperative_groups

cuda中的cooperative_groups

bicheng/2025/4/4 13:26:28/文章来源:https://blog.csdn.net/feng__shuai/article/details/140489220

背景

最近看到一个代码cooperative_groups.this_grid().sync()很好奇，这里好好梳理一下

分析

以前block内部的同步是用syncthreads(), block之间没有提供同步的接口，这样是合理的，假如有block间同步API的话，如果block太多，block_n要等block_0算完退出后才能进入sm, 但是block_0为了同步又要等block_n,这样就锁死了，本质原因是因为gpu的逻辑和cpu不一样，gpu单个block寄存器的值不会暂存到显存里来切换block_0。那么问题来了，这个this_grid().sync() API咋用？

实验

#include <stdio.h>
#include <cuda_runtime.h>
#include <cooperative_groups.h>namespace cg = cooperative_groups;__global__ void kernel(int* data) {int tid = threadIdx.x + blockIdx.x * blockDim.x;data[tid] = tid * tid;cg::this_grid().sync();if (blockIdx.x == 0 && threadIdx.x == 0) {for (int i = 0; i < gridDim.x * blockDim.x; ++i) {printf("%d ", data[i]);}printf("\n");}}template<typename... Types>
inline void launch_coop(void(*f)(Types...),dim3 gridDim, dim3 blockDim, cudaStream_t stream,Types... args)
{void* va_args[sizeof...(args)] = { &args... };(cudaLaunchCooperativeKernel((const void*)f, gridDim, blockDim,va_args, 0, stream));
}int main() {const int N = 8;int* d_data;cudaMalloc((void**)&d_data, N * sizeof(int));dim3 block(8);dim3 grid(20000);launch_coop(kernel, grid, block, 0, d_data);cudaDeviceSynchronize();cudaError_t err = cudaGetLastError();printf("$$$$$$$$$$$$$$: %s \n",cudaGetErrorString(err));cudaFree(d_data);return 0;
}

结论

实验结果发现，如果想使用这个API，必须保证所有的block在加载初期就是可以全部加载到sm中的，如果不行这个kernel launch就会失败，报错“too many blocks in cooperative launch”，这个就比较合理了。

思考

这个api主要是避免小应用需要启用多个kernel来同步数据，因为单个kernel的block间无法同步（这个说法不是很准确），启动多个kernel不仅耗时，而且来回读写也耗时，所以小任务如果需要同步，可以考虑用这个API，但是这个玩意是不是很耗时就没验证过了，有兴趣的可以试试。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/bicheng/47580.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

vue程序中如何设置调用springboot服务的url

vue程序中如何设置调用springboot服务的url

在Vue程序中调用Spring Boot服务的URL，可以通过以下步骤实现： 安装Axios: Axios是一个基于Promise的HTTP库，可以用于浏览器和Node.js。可以使用npm或yarn安装Axios。 npm install axios # or yarn add axios创建Axios实例: 为了方便管理和复用…

阅读更多...

Python--循环控制语句：continue 和 break

Python--循环控制语句：continue 和 break

在Python编程中，continue 和 break 是两个非常有用的循环控制语句，它们允许我们以不同的方式控制循环的执行流程。 continue 语句 continue 用于中断当前循环的剩余部分，直接进入下一次循环的开始。它的作用是跳过当前循环中剩余的代码&…

阅读更多...

GuLi商城-商品服务-API-属性分组-分组修改级联选择器回显

GuLi商城-商品服务-API-属性分组-分组修改级联选择器回显

前端代码：略后端回显接口：递归方法： @Override publi

阅读更多...

算法模板之单调栈【java】

算法模板之单调栈【java】

算法模板之单调栈【java】单调栈：在一维数组中找第一个满足某种条件的数找到数组中每个数【左侧】第一个【大于】它的数找到数组中每个数【左侧】第一个【大于或等于】它的数找到数组中每个数【左侧】第一个【小于】它的数找到数组中每个数【左侧】第一个【小于或等…

阅读更多...

C# 反射详解

C# 反射详解

本文主要是对反射进行详细介绍，具体可以参照微软官方文档首先我们来定义一个类型 public class Calculator {private int _number1 10;private int _number2 20;public int Number1 { get > _number1; set > _number1 value; }public int Number2 { get…

阅读更多...

jquery中pdf在页面的显示和导出

jquery中pdf在页面的显示和导出

jquery中pdf在页面的显示和导出 01 显示pdf01 .pdf结尾在线接口显示到页面 （pdf.js库怎么安装及使用）：只显示一页02 如何用PDF.JS显示整个PDF (而不仅仅是一页)？03 jQuery实现在线预览PDF文件(通过a标签链接跳转)： 02 …

阅读更多...

RocketMq源码解析十二：消息消费负载

RocketMq源码解析十二：消息消费负载

RocketMQ消息队列重新分配是由RebalancService线程来实现，一个MQClientinstance持有一个RebalanceService的实现，并随着MQClientInstance的启动而启动。我们看下下面的代码位置：MQClientInstance:start方法 public void start() throws MQClientException {synchronized (…

阅读更多...

‍我想我大抵是疯了，我喜欢上了写单元测试

‍我想我大抵是疯了，我喜欢上了写单元测试

前言大家好我是聪。相信有不少的小伙伴喜欢写代码，但是对于单元测试这些反而觉得多此一举，想着我都在接口文档测过了！还要写什么单元测试！写不了一点！！ 由于本人也是一个小小程序猿🙉&#xf…

阅读更多...

关于HDFS、Hive和Iceberg

关于HDFS、Hive和Iceberg

HDFS & Hive 如果我们将Hive比喻为储藏室，那么HDFS（Hadoop Distributed File System）就可以比作是储藏室所在的建筑物的地基和结构。 HDFS是一个分布式文件系统，它的设计目标是存储和管理海量数据。在我们的类比中&#xff…

阅读更多...

华为云SQLServer 慢日志查看

华为云SQLServer 慢日志查看

作者：梦莱 1、背景华为云目前只支持 SQLServer 登录数据库，不支持查看慢日志。对于开启慢日志的实例，也只能通过将慢日志下载到本地再远程连接目标实例数据库查看。本篇将华为云 SQLServer 实例出现资源异常，排查问题的方案整…

阅读更多...

QT5_C++基础

QT5_C++基础

1. 什么是类和对象 C的类是一种构造类型，与C语言的结构体类似，但是进行了一些拓展，类的成员不但可以是变量，还可以是函数；通过类定义出来的变量也有特定的称呼，叫做“对象”类是创建对象的模板&#xff0c…

阅读更多...

【java】力扣合法分割的最小下标

【java】力扣合法分割的最小下标

文章目录题目链接题目描述思路代码题目链接 2780.合法分割的最小下标题目描述思路这道题是摩尔算法的一种扩展我们先可以找到候选人出来，然后去计算他在左右两边元素出现的次数，只有当他左边时，左边出现的次数2 >左边的长度&…

阅读更多...

【 LCD1602显示屏】使用STC89C51控制1602显示、读写操作时序

【 LCD1602显示屏】使用STC89C51控制1602显示、读写操作时序

文章目录 LCD1602显示概述：引脚说明控制指令接线控制思路步骤代码示例总结对databuffer dataShow;的理解 LCD1602显示概述： LCD1602（Liquid Crystal Display）是一种工业字符型液晶，能够同时显示 1602 即 32 字符…

阅读更多...

Android Studio的xml文件的layout布局，在添加属性的过程中，没有自动补全代码问题的解决方案

Android Studio的xml文件的layout布局，在添加属性的过程中，没有自动补全代码问题的解决方案

在build.gradle文件中，把compileSdkVersion和targetSdkVersion两个参数改成32就好了。参考：关于Android Studio的xml文件的layout布局，在添加属性的过程中，不显示提示词（没有自动补全代码）的问题的解决方…

阅读更多...

SpringBoot增加网关服务

SpringBoot增加网关服务

一、新建gateway项目二、添加依赖 dependencies {implementation org.springframework.cloud:spring-cloud-starter-gateway:4.0.0 } 三、增加路由规则配置一个web服务、一个service服务 bootstrap.yaml： server:port: 80 spring:application:name: gatewayc…

阅读更多...

子树的重心

子树的重心

描述输入一棵树,判断每一棵子树的重心是哪一个节点。输入描述第一行输入n,q。n表示树的节点个数，q表示询问次数第二行n-1个数，分别表示从节点2开始，各节点的父亲节点。后面q行，每行一个数x，表示询问当前以x为根…

阅读更多...

【STM32 HAL库】I2S的使用

【STM32 HAL库】I2S的使用

使用CubeIDE实现I2S发数据 1、配置I2S 我们的有效数据是32位的，使用飞利浦格式。 2、配置DMA **这里需要注意：**i2s的DR寄存器是16位的，如果需要发送32位的数据，是需要写两次DR寄存器的，所以DMA的外设数据宽度设置16…

阅读更多...

入门C语言只需一个星期（星期二）

入门C语言只需一个星期（星期二）

点击上方"蓝字"关注我们 01、算术运算符 int myNum = 100 + 50;int sum1 = 100 + 50; // 150 (100 + 50)int sum2 = sum1 + 250; // 400 (150 + 250)int sum3 = sum2 + sum2; // 800 (400 + 400) + 加将两个值相加 x + y - 减从另一个值中减去一个值 …

阅读更多...

探索Python自然语言处理的新篇章：jionlp库介绍

探索Python自然语言处理的新篇章：jionlp库介绍

探索Python自然语言处理的新篇章：jionlp库介绍 1. 背景：为什么选择jionlp？ 在Python的生态中，自然语言处理（NLP）是一个活跃且不断发展的领域。jionlp是一个专注于中文自然语言处理的库，它提供了…

阅读更多...

Ubuntu 安装 XRDP，替代系统自带RDP远程桌面

Ubuntu 安装 XRDP，替代系统自带RDP远程桌面

起因，Ubuntu的自带RDP远程桌面很好用，但很傻卵，必须登录。而设置了自动登录也不能解开KEYRING，必须必须必须用GUI手动登录。 （我远程我用头给你坐机子面前开显示器先登录？？） 比起VN…

阅读更多...

最新文章