[CUDA] stream使用笔记

文章目录

  • 1. stream一般用法
  • 2. stream与event:
  • 3. stream异常的排查
  • 4. stream的异步与同步行为

1. stream一般用法

cudaStream_t stream_;
cudaStreamCreate(&stream_); // create stream
// some operators running on this stream_
cudaStreamSynchronize(stream_)// in final
cudaStreamDestroy(stream_);
  • stream: Nonblocking模式 (WithFlags模式)
// stream_flags: 
// 1)cudaStreamDefault:这个和stream0默认流是同步的,启示和stream0上操作没区别
// 2)cudaStreamNonBlocking:和stream0号默认流不同步,异步,可以看reference[2]中的效果图可视化情况,更加形象
cudaStreamCreateWithFlags(&cuda_stream_, stream_flags)

2. stream与event:

cudaStream_t stream1;
cudaStream_t stream2;
cudaEvent_t event_stream2_wait_stream1_on_kernel2 = nullptr;
cudaEventCreate(&event_stream2_wait_stream1_after_kernel2, CU_EVENT_DISABLE_TIMING);
cudaStreamCreate(&stream1); // create stream1流,可以理解为任务队列1
cudaStreamCreateWithFlags(&stream2, cudaStreamNonBlocking); // create stream2,可以理解为任务队列2// kernel1 加入到任务队列1,并且排队等待执行,接着就返回来,执行下一句
kernel1<<<blocks, threads, 0, stream1>>>(n, data); 
// 这个时候,只知道kernel1已经加到队列1中去执行了,具体执行完与否不知道,开始将kernel2加入到队列1中,
// 接着kernel1执行,只有kernel1执行完毕后,才开始执行kernel2,因为他们俩都在stream1上。
kernel2<<<blocks, threads, 0, stream1>>>(n, data); 
// 在这个地方打标签,也就是在kernel2后面打标签,如果stream1上的kernel2执行完,
// 并且stream1通过了这个标签,那么后面就不用等待; 如果kernel2还没有结束,
// 则stream1还没走到这个标签,则后面就需要等待走过这个标签才可以执行。
cudaEventRecord(event_stream2_wait_stream1_after_kernel2,stream1); 
// 上面打完标签record完后,就开始执行这个wait, 这个时候,wait等待这个标签是否在stream1上被经过(被经过的解释只是形象表示,具体是什么机制触发还不清楚,可能是信号量的方式触发这一行使其不再等待),如果被经过,则这个wait就不再等待,直接放行,执行kernel3,将kernel3的任务发配到stream2上; 因为stream2是nonblocking方式,所以会很大程度上保持与stream1的并行。
cudaStreamWaitEvent(stream2, event_stream2_wait_stream1_after_kernel2);
kernel3<<<blocks, threads, 0, stream2>>>(n, data);// some operators running on this stream_
cudaStreamSynchronize(stream1);
cudaStreamSynchronize(stream2);

3. stream异常的排查

  • 有的时候cudaStreamSynchronize(stream) illegal memory不一定是stream存在问题,有可能是前面数据拷贝计算等没有完成,或者同步异常导致的后面数据非法,从而stream sync出现问题, 排查思路
    • 打印前后的数据,出错与不出错对比,前面操作的一些数据是否存在差异(是否由于前面操作非法导致的);
    • 用nsys tools工具,可视化执行流的情况,并且对比出错与不出错时的情况,查看流中函数执行的差异性;是否有越界情况。

4. stream的异步与同步行为

https://docs.nvidia.com/cuda/cuda-runtime-api/api-sync-behavior.html#api-sync-behavior__memcpy-async
需要注意的一个点:一些cudaMemcpyAsync, 不一定是异步的,比如当host和device之间传输数据的时候,虽然使用异步copy,但是会内含同步,从而导致一些block或spin行为。

2. API synchronization behavior
The API provides memcpy/memset functions in both synchronous and asynchronous forms, the latter having an "Async" suffix. This is a misnomer as each function may exhibit synchronous or asynchronous behavior depending on the arguments passed to the function.
Memcpy
In the reference documentation, each memcpy function is categorized as synchronous or asynchronous, corresponding to the definitions below.
**Synchronous**- For transfers from pageable host memory to device memory, a stream sync is performed before the copy is initiated. The function will return once the pageable buffer has been copied to the staging memory for DMA transfer to device memory, but the DMA to final destination may not have completed.- For transfers from pinned host memory to device memory, the function is synchronous with respect to the host.- For transfers from device to either pageable or pinned host memory, the function returns only once the copy has completed.- For transfers from device memory to device memory, no host-side synchronization is performed.- For transfers from any host memory to any host memory, the function is fully synchronous with respect to the host.
Asynchronous- For transfers between device memory and pageable host memory, the function might be synchronous with respect to host.- For transfers from any host memory to any host memory, the function is fully synchronous with respect to the host.- If pageable memory must first be staged to pinned memory, the driver may synchronize with the stream and stage the copy into pinned memory.- For all other transfers, the function should be fully asynchronous.
Memset
The cudaMemset functions are asynchronous with respect to the host except when the target memory is pinned host memory. The Async versions are always asynchronous with respect to the host.
Kernel Launches
Kernel launches are asynchronous with respect to the host. Details of concurrent kernel execution and data transfers can be found in the CUDA Programmers Guide.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/58786.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python酷库之旅-第三方库Pandas(189)

目录 一、用法精讲 876、pandas.Index.duplicated方法 876-1、语法 876-2、参数 876-3、功能 876-4、返回值 876-5、说明 876-6、用法 876-6-1、数据准备 876-6-2、代码示例 876-6-3、结果输出 877、pandas.Index.equals方法 877-1、语法 877-2、参数 877-3、功…

Skywalking教程一

Skywalking教程一 概述Skywalking功能特点&#xff1a; 概述 一个大型分布式系统架构&#xff0c;监控平台是必不可少的&#xff0c;常用的分布式系统监控平台有&#xff1a;SkyWalking和Prometheus。Skywalking是一款比较优秀的分布式系统监控平台&#xff0c;一款分布式系统…

mac|安装redis及RedisDesk可视化软件

一、安装 通过Homebrew安装 brew install redis 在安装过程可以得到以下信息&#xff1a; 1、启动redis或重新登陆redis brew services start redis 如果只想在前端运行&#xff0c;而不是在后端&#xff0c;则使用以下命令 /opt/homebrew/opt/redis/bin/redis-server /opt…

内网穿透含义及做法

内网穿透&#xff1a;为在局域网的设备提供一个外网可访问的地址和端口号&#xff08;可以为域名或IP&#xff09; 下面的做法我用到两个工具&#xff1a;花生壳&#xff08;内网穿透工具&#xff09;&#xff0c;网络调试助手&#xff08;服务器客户端搭建工具&#xff09; …

二、Go快速入门之数据类型

&#x1f4c5; 2024年4月27日 &#x1f4e6; 使用版本为1.21.5 Go的数据类型 &#x1f4d6;官方文档&#xff1a;https://go.dev/ref/spec#Types 1️⃣ 布尔类型 ⭐️ 布尔类型只有真和假,true和false ⭐️ 在Go中整数0不会代表假&#xff0c;非零整数也不能代替真&#…

SQL 像英语是个善意的错误

我们知道&#xff0c;SQL 很像英语&#xff0c;简单的 SQL 语句直接可以作为英语读。除了 SQL 外&#xff0c;其它主要程序设计语言都没有这样&#xff0c;语法中就算有英语单词也仅仅是作为某些概念或操作的助记符而已&#xff0c;写出来的是形式化的程序语句 (statement) 而不…

【Vue3.js】计算属性监视属性的深度解析

&#x1f9d1;‍&#x1f4bc; 一名茫茫大海中沉浮的小小程序员&#x1f36c; &#x1f449; 你的一键四连 (关注 点赞收藏评论)是我更新的最大动力❤️&#xff01; &#x1f4d1; 目录 &#x1f53d; 前言1️⃣ 计算属性概述2️⃣ 监视属性概述3️⃣ 计算属性与监视属性的对比…

PHP反序列化原生类字符串逃逸框架反序列化利用

PHP反序列化 概念 序列化的原因&#xff1a;为了解决开发中数据传输和数据解析的一个情况(类似于要发送一个椅子快递&#xff0c;不可能整个椅子打包发送&#xff0c;这是非常不方便的&#xff0c;所以就要对椅子进行序列化处理&#xff0c;让椅子分成很多部分在一起打包发送…

CentOS 文件系统扩容与缩容

一、 概述 理解Linux文件系统的管理&#xff0c;需要了解以下的一张图&#xff1a; 一般使用LVM (Logical Volume Manager) 管理磁盘存储&#xff0c;该工具允许用户更灵活地分配和管理存储空间。主要有以下几个概念&#xff1a; PV&#xff08;Physical Volume&#xff0c;物…

windows环境下,使用docker搭建redis集群

参考: https://blog.csdn.net/weixin_46594796/article/details/137864842 https://www.cnblogs.com/niceyoo/p/14118146.html 史上最详细Docker搭建Redis Cluster集群环境 值得收藏 每步都有图,不用担心学不会-腾讯云开发者社区-腾讯云 一、基础环境描述 宿主机:192.168…

大模型面试题全面总结:每一道都是硬核挑战

节前&#xff0c;我们组织了一场算法岗技术&面试讨论会&#xff0c;邀请了一些互联网大厂同学、参加社招和校招面试的同学&#xff0c;针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。 今天分享…

arcgis坐标系问题

2000数据框的工程只能打开2000坐标系的矢量数据和栅格数据&#xff08;影像图&#xff09;&#xff0c;如果打开80的数据则会投影错误&#xff0c;出现较大偏差。 解决方案&#xff1a;80数据框打开80数据&#xff0c;2000数据库打开2000数据。

六西格玛项目助力,手术机器人零部件国产化稳中求胜——张驰咨询

项目背景 XR-1000型腔镜手术机器人是某头部手术机器人企业推出的高端手术设备&#xff0c;专注于微创手术领域&#xff0c;具有高度的精确性和稳定性。而XR-1000型机器人使用的部分核心零部件长期依赖进口&#xff0c;特别是高精度电机、关节执行机构和视觉系统等&#xff0c;…

模型拆解(三):EGNet、FMFINet、MJRBM

文章目录 一、EGNet1.1编码器&#xff1a;VGG16的扩展网络 二、EMFINet2.1编码器&#xff1a;三分支并行卷积编码器2.2CFFM&#xff1a;级联特征融合模块2.3Edge Module&#xff1a;突出边缘提取模块2.4Bridge Module&#xff1a;桥接器2.5解码器&#xff1a;深度特征融合解码器…

【传知代码】图像处理解决种子计数方法

文章目录 一、背景及意义介绍研究背景农业考种需求传统计数方法的局限性人工计数仪器设备计数 研究意义提高育种效率提高计数准确性广泛的适用性数据存档与分析便利 二、概述三、材料与数据准备以及方法介绍整体流程图像采集图像预处理形态学操作腐蚀运算开运算 图像二值化种子…

【酒店管理与推荐系统】Python+Django网页界面平台+推荐算法+管理系统网站

一、介绍 酒店管理系统。基于Python开发&#xff0c;前端使用HTML、CSS、BootStrap等技术搭建页面&#xff0c;后端使用Django框架处理用户响应请求&#xff0c;主要功能如下&#xff1a; 分为普通用户和管理员两个角色普通用户&#xff1a;登录、注册、查看房间详情、收藏、…

List 列表基础用法

List 列表基础用法 列表可以完成大多数集合类的数据结构实现。列表中元素的类型可以不相同&#xff0c;它支持数字&#xff0c;字符串甚至可以包含列表&#xff08;所谓嵌套&#xff09;。 列表是写在方括号 [] 之间、用逗号分隔开的元素列表。 和字符串一样&#xff0c;列表…

UDP组播测试

支持组播的接口&#xff1a; ip a | grep MULTICAST 环回接口虽然显示不支持组播&#xff0c;实际也可以用于本地测试。 添加路由&#xff08;非必须&#xff1f;&#xff09;&#xff1a; ip route add 239.0.0.0/24 via 10.10.10.206 dev eth0 开放防火墙&#xff1a; 查…

大人能不能抱孩子坐在副驾

‌大人不能抱孩子坐在副驾驶位置‌。虽然交通法规没有明确规定抱孩子坐副驾驶是违法行为&#xff0c;但这种行为存在严重的安全隐患&#xff0c;因此不建议这样做。 安全隐患 ‌安全气囊的危害‌&#xff1a;在车辆发生碰撞时&#xff0c;安全气囊会瞬间弹出&#xff0c;可能会…

C#/.NET/.NET Core技术前沿周刊 | 第 11 期(2024年10.21-10.31)

前言 C#/.NET/.NET Core技术前沿周刊&#xff0c;你的每周技术指南针&#xff01;记录、追踪C#/.NET/.NET Core领域、生态的每周最新、最实用、最有价值的技术文章、社区动态、优质项目和学习资源等。让你时刻站在技术前沿&#xff0c;助力技术成长与视野拓宽。 欢迎投稿、推荐…