【TensorRT】DeviceToHost同步与异步拷贝的区别及带来的问题

cudaMemcpy与cudaMemcpyAsync的区别与问题

  • cudaMemcpy与cudaMemcpyAsync的区别
    • 一、认识stream流
    • 二、tensorRT推理的常规流程
    • 三、遇到的问题
    • 四、引用与参考文献

cudaMemcpy与cudaMemcpyAsync的区别

一、认识stream流

在cuda中,一个stream是由主机代码发布的一系列在设备上执行的操作,是严格保序执行的。不同streams里面的操作可以交叉执行或者并发执行。
如果我们有多个核函数,并且我们创建了一个stream,那么这些核函数在stream中都是串行执行的,但是如果我们需要并发执行,可以开启多个stream。多个stream之间是并发执行的,每个stream中是串行执行的。

二、tensorRT推理的常规流程

  1. 创建一个cuda stream流 ,将我们的主机所定义的运算操作,下放给cuda中的stream进行执行,读取模型,创建可以执行的上下文context;
  2. 将输入传给主机指针host_ptr,然后将主机指针copy到cuda上的指针(HostToDevice);
  3. 定义好输入输出节点的指针,并初始化一个bindings[]存放输入输出节点的指针(device),然后执行推理,device会自动将推理结果保存在我们定义好的device输出节点指针;
  4. 将输出节点的指针指向的内容,拷贝给主机上定义好的输出指针(DeviceToHost),然后将指针指向的内容通过mat,然后经过后处理可视化;
  5. 在不做特殊处理和不使用cudaMemcpyAsync()来进行拷贝的情况下,CUDA会默认只使用一个stream,在这种情况下,以上的推理步骤将串行处理。

三、遇到的问题

使用tensorRT推理MaskRCNN时,在执行推理完毕后,将device的指针指向的内容拷贝给host的指针时,如果此时使用cudaMemcpyAsync来进行拷贝,会随机的出现推理结果错乱的问题(观察后发现即上一张推理的结果,会在第二张的输入上呈现)。此时我们使用cudaMemcpy来进行同步拷贝,该问题解决。

四、引用与参考文献

引用:
[1]: cudaMemcpy与cudaMemcpyAsync的区别
[2]: 测试命题 cuda kernel 和 cudaMemcpy 是异步执行

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/623927.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据结构期末复习(C语言版)

一、绪论 1.数据结构的术语 数据:所有能输入计算机并被计算机程序处理的符号的总称;数据元素:数据的基本单位;数据项:组成数据元素的、有独立含义的、不可分割的最小单位;数据对象:是性质相同…

免费chartGPT网站汇总

https://s.suolj.com - (支持文心、科大讯飞、智谱等国内大语言模型,Midjourney绘画、语音对讲、聊天插件)国内可以直连,响应速度很快 很稳定 https://seboai.github.io - 国内可以直连,响应速度很快 很稳定 http://gp…

kotlin的泛型浅析

在Kotlin中,泛型是一种强大的编程概念,它允许你编写更加灵活和可重用的代码,同时提高类型安全性。Kotlin的泛型系统与Java的相似,但有一些更强大的特性。以下是关于Kotlin泛型的一些重要概念和用法: 1. 基本概念&…

数据结构学习 jz44 数字序列中某一位的数字

关键词:找规律 数学 题目:LCR 163. 找到第 k 位数字 虽然做出来了但是做了十万年,我是猪。主要还是找到准确的规律。 思路: //找规律 //0-9 占了10个位置 //10-99 占了90*2个位置 //100-999 占了900*3个位置 //1000-9999 占了90…

优思学院|质量管理五大工具和七大手法要点总结|2024

在现代企业管理中,质量管理是核心竞争力的重要组成部分。它不仅关系到产品的品质,更直接影响到企业的市场信誉和经济效益。本文将深入探讨质量管理中的五大工具及七大手法,这些工具和手法都贯穿了六西格玛DMAIC五步的方法论之中,是…

主流图片压缩格式

主流图片压缩格式主要分为两类:有损压缩和无损压缩。这些格式根据不同的应用场景和需求被广泛使用。 下面是一些常见的图片压缩格式: 有损压缩格式 JPEG (Joint Photographic Experts Group): 最常见的图片格式之一,广泛用于网页图像、摄影和…

「JavaSE」类和对象2

🎇个人主页:Ice_Sugar_7 🎇所属专栏:快来卷Java啦 🎇欢迎点赞收藏加关注哦! 类和对象2 🍉匿名对象🍉关键字static🍌static修饰成员变量🍌static修饰成员方法&…

如何正确使用数据库的读写分离

本文已收录至我的个人网站:程序员波特,主要记录Java相关技术系列教程,共享电子书、Java学习路线、视频教程、简历模板和面试题等学习资源,让想要学习的你,不再迷茫。 背景 在应用系统发展的初期,我们并不知…

uniapp使用Android Studio离线打包

环境准备 Android Studio: 下载地址APP离线SDK下载: 下载地址; 目前我使用得是“Android-SDK3.8.7.81902_20230704”;需要与hbuider版本配套使用。Appkey: 参考我 以上三步准备好后,进行接下来的不住: 准备工程 导…

SpringCloud Config配置中心详解及环境搭建

前言 我们之前介绍并且搭建过eureka、zuul、hystrix组件。本节介绍的config是SpringCloud五大组件的最后一个,还有一个是Ribbon ----- 客服端负载均衡,之前我们有简单介绍过☞Eureka、Nacos注册中心及负载均衡原理,直接使用注解LoadBalanced…

统计学习 复习(知识点+习题)

复习资料:https://github.com/RuijieZhu94/StatisticalLearning_USTC 第一章 线性回归 1. From one to two 最小二乘 课后题 有偏/无偏估计 加权最小二乘 2. Regularization 线性回归(二维情况) 求解有约束优化问题 正则化最小加权二乘…

MySQL数据库SQL优化详解

MySQL数据库SQL优化是一个涵盖广泛的主题,涉及索引、查询结构、数据类型选择、存储引擎、事务处理等多个方面。以下是一些关键的SQL优化策略和技巧: 1. 索引优化 创建合适的索引:对经常出现在 WHERE、JOIN 条件、ORDER BY 和 GROUP BY 子句…

ByConity 社区回顾|ByConity 和开发者们一起展望未来,携手共进!

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 新年伊始,我们想在这里感谢一群 ByConity 社区的小伙伴们。 正是因为有社区的开发者的支持,截止到 2023 年底,ByConity GitHub …

Python 格式化输出:精确控制你的数据表示

目录 旧式的 % 运算符(不推荐) str.format() 方法 位置和关键字参数: 格式化数字: f-string 表达式和函数调用: 格式化数字: 格式规范的微调 (核心) 对齐字符串 填充字符 …

2023年全国职业院校技能大赛软件测试赛题—单元测试卷⑥

单元测试 一、任务要求 题目1:根据下列流程图编写程序实现相应分析处理并显示结果。返回结果“ax:”(x为2、3或4);其中变量x、y均须为整型。编写程序代码,使用JUnit框架编写测试类对编写的程序代码进行测试…

Java基础 - 黑马

我是南城余!阿里云开发者平台专家博士证书获得者! 欢迎关注我的博客!一同成长! 一名从事运维开发的worker,记录分享学习。 专注于AI,运维开发,windows Linux 系统领域的分享! 知…

第二十四章 $ZF Callout 快速参考 - $ZF()调用iriszf库

文章目录 第二十四章 $ZF Callout 快速参考 - $ZF()调用iriszf库$ZF()调用iriszf库$ZF() $ZF(-3): Call by Name$ZF(-3) 第二十四章 $ZF Callout 快速参考 - $ZF()调用iriszf库 $ZF()调用iriszf库 如果调用$ZF()时不带负数参数(例如,$ZF("myFunction "&…

剖析一下Mask R-CNN获得实例分割的这三个步骤。第一步,利用先验框获得建议框。第二步,利用建议框获得预测框。第三步,利用预测框获得语义分割结果。

问题描述: 剖析一下Mask R-CNN获得实例分割的这三个步骤。第一步,利用先验框获得建议框。第二步,利用建议框获得预测框。第三步,利用预测框获得语义分割结果。 问题解答: 生成建议框(Region Proposal&…

Linux IDEA 安装及环境配置

Linux系统安装IDEA保姆级教程_linux安装idea-CSDN博客 下载tar.gz解压缩添加环境变量: vim ~/.bashrc export IDEA_HOME/usr/local/src/idea/idea-IC-213.6777.52 export PATH:$PATH:${IDEA_HOME}/bin source ~/.bashrc验证环境:echo $PATH即可在任意目录…

使用MATLAB连接USRP

文章目录 前言一、本地环境二、前期准备1、MATLAB版本、labview版本、UHD 版本对应关系2、下载 GNU Radio Companion3、确定 USRP UHD 版本①、下载一个 USRP 硬件驱动程序②、确认 MATLAB 的 UHD 版本 三、下载 USRP 通信工具箱支持包四、使用 MATLAB 连接 USRP 前言 本文记录…