解决由NVCC编译优化所产生的Bug

Bug描述

在测量如下一个简单的核函数的执行时间的时候,发现测量的时间和循环的次数完全无关,觉得很奇怪,因为循环的次数已经很大了,不管我再怎么提升循环次数,这么大的计算量,不可能保持时间的恒定。

__global__ void setRowReadRow(int * out)
{unsigned int idx=threadIdx.y*blockDim.x+threadIdx.x;for(unsigned int l0=0; l0<65536; l0++)for(unsigned int l1=0; l1<65536; l1++)for(unsigned int l2=0; l2<65536; l2++)for(unsigned int l3=0; l3<65536; l3++)for(unsigned int m=0; m<65536; m++){out[idx] +=  m  ;}
}

于是去查看该Kernel的PTX代码,发现该函数主体只有一条ret指令,用于函数返回,没有任何计算过程:

.visible .entry setRowReadRow(int*)(.param .u64 setRowReadRow(int*)_param_0
)
{ret;}

这就解释得通为什么执行时间不变了,于是尝试调小循环次数,只保留变量m这一层嵌套,此时PTX代码如下:

.visible .entry setRowReadRow(int*)(.param .u64 setRowReadRow(int*)_param_0
)
{ld.param.u64    %rd1, [setRowReadRow(int*)_param_0];cvta.to.global.u64      %rd2, %rd1;mov.u32         %r1, %tid.y;mov.u32         %r2, %ntid.x;mov.u32         %r3, %tid.x;mad.lo.s32      %r4, %r1, %r2, %r3;mul.wide.u32    %rd3, %r4, 4;add.s64         %rd4, %rd2, %rd3;ld.global.u32   %r5, [%rd4];add.s32         %r6, %r5, 2147450880;st.global.u32   [%rd4], %r6;ret;}

这里不解释每条指令的具体含义了,可以用GPT等大模型帮忙翻译一下,重点解释这两条指令:

        add.s32         %r6, %r5, 2147450880;st.global.u32   [%rd4], %r6;

%r5保存的是out[idx]的原始值,%rd4保存的是out[idx]在内存中的地址,所以这两条指令的意思就是out[idx]加上2147450880的值再存回去。

因为这部分代码只保留了m变量所在的那一层循环,分析可得,Kernel函数得到的结果就是把out[idx]的值再加上(0+1+2+3+…+65535)=2147450880。

很显然,编译器帮我们做了优化,把65536次循环加法变成了一次加法指令,再加上英伟达官方论坛的解答可以大致推测出,循环次数过多导致PTX代码只有一条ret指令的原因是编译器在做优化时,把循环的加法拿出去计算,导致了溢出了所以产生了不可预期的错误。

但是测试的时候发现把加法改成乘法后不会产生ret错误,分析ptx是因为对于乘法没有做这方面的优化,老老实实按照循环嵌套写的PTX代码,所以此时虽然out[idx]的计算会出现溢出,但是并不影响程序的运行。加法由于编译器会对循环优化,所以出现PTX的异常。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/730951.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Windows】VMware虚拟机应用(二):安装ubuntu-14.04.4

一、下载安装包 ubuntu-14.04.4-server-amd64.iso 注&#xff1a;因为我是用已有的安装包&#xff0c;所以&#xff0c;这里就不写下载步骤了。 二、安装引导 以管理员身份运行 VMware Workstation Pro 注&#xff1a;如果不是管理员身份运行&#xff0c;在安装系统时会出现…

二叉搜索树:查找+插入+删除+性能分析

文章目录 一、搜索树1.二叉搜索树的查找2.二叉搜索树的插入3.二叉搜索树的删除4.性能分析 一、搜索树 二叉搜素树 &#xff08; 二叉排序树 ) 1.要么是空树 2.如果左子树不为空&#xff0c;则左子树上所有节点的值都小于根节点的值 3.如果右子树不为空&#xff0c;则右子树上所…

7款前端实战型项目特效分享(附在线预览)

分享7款实用性的前端动画特效 其中有canvas特效、css动画、svg动画等等 下方效果图可能不是特别的生动 那么你可以点击在线预览进行查看相应的动画特效 同时也是可以下载该资源的 CSS春节灯笼特效 基于CSS实现的灯笼特效 灯笼会朝左右两个方向来回的摆动着 以下效果图只能体现…

关于Vue3的一些操作

1. 设置浏览器自动打开 在package.json 中设置 dev: vite --open 2.给src文件夹配置别名 在vite.config.ts配置文件中添加以下内容 3. 如果2中有红色波浪线的问题 ***安装一个文件包***npm install types/node3. 在tsconfig.json配置文件中&#xff0c;找到配置项compi…

Windows下Node.js安装保姆级教程

一、Node.js 下载 访问Node.js官网&#xff0c;点击下载Node.js 下载完成后即可在下载文件中查看安装包 二、安装 一&#xff09;点击安装包开始安装&#xff0c;进入Weclcome界面点击Next 二&#xff09;勾选同意协议&#xff0c;点击Next 三&#xff09;根据需要选择安装路…

Open CASCADE学习|表面着色显示模型

模型表面着色具有如下作用&#xff1a; 视觉增强&#xff1a;通过为模型表面添加着色&#xff0c;可以使其更加生动和逼真&#xff0c;提高视觉体验。 信息区分&#xff1a;在复杂的模型中&#xff0c;不同的部分或组件可能需要通过不同的颜色来区分&#xff0c;以便更清晰地…

MySQL 主键与索引的联系与区别

关系数据库依赖主键 主键有两个用途&#xff1a;惟一地标识一行。 主键还作为一个可以被外键有效引用的对象。 索引是一种特殊的文件(InnoDB数据表上的索引是表空间的一个组成部分)&#xff0c;它们包含着对数据表里所有记录的引用指针。 A. 主键是什么? 比如看书&#xff0c…

新手做抖店为什么从无货源做起?无货源怎么做?

我是电商珠珠 一说做电商&#xff0c;不管你去找机构学也好&#xff0c;还是自己上百度搜也好&#xff0c;都是推荐新手小白从无货源开始做起。部分人根本不懂&#xff0c;无货源究竟是什么&#xff0c;应该怎么做。 接下来&#xff0c;我就来给大家详细的讲一下 为什么要从…

mmlspark.lightgbm.LightGBMClassifier参数明

mmlspark.lightgbm.LightGBMClassifier 是一个用于二元分类和多类分类的机器学习模型&#xff0c;它是基于 Microsoft ML for Apache Spark (MMLSpark) 库的。这个类是为了在Spark环境中使用LightGBM实现&#xff0c;提供了大量的参数用于调整模型。下面是一些主要参数的详细中…

简介maven核心:pom项目对象模型

Maven Maven 意思是知识的积累者&#xff0c;最初是为了简化 Jakarta Turbine 项目中的构建过程。有几个项目&#xff0c;每个项目都有自己的 Ant 构建文件&#xff0c;它们都略有不同。JAR 被检入 CVS。我们想要一种标准的方式来构建项目&#xff0c;清楚地定义项目的组成&am…

Redis缓存预热-缓存穿透-缓存雪崩-缓存击穿

什么叫缓存穿透? 模拟一个场景: 前端用户发送请求获取数据,后端首先会在缓存Redis中查询,如果能查到数据,则直接返回.如果缓存中查不到数据,则要去数据库查询,如果数据库有,将数据保存到Redis缓存中并且返回用户数据.如果数据库没有则返回null; 这个缓存穿透的问题就是这个…

电力物联网系统设计

电力物联网系统设计 简介 在新能源行业从业多年&#xff0c;参与和负责过大大小小的的项目&#xff0c;发电侧、电网侧、用户侧系统都有过实际的项目经验&#xff0c;这些项目或多或少都有物联网采集方面的需求&#xff0c;本篇文章将会对电力行业物联网经验做一个总结分享。 …

ubuntu nginx

FFmpeg nginx-http-flv-module flv.js 实现视频流播放-一只小松徐吖 (xaoxu.cn) cat /etc/nginx/sites-enabled/default ## # You should look at the following URLs in order to grasp a solid understanding # of Nginx configuration files in order to fully unleash …

【Spring知识体系】1.1 Java 注解(Annotation)

文章目录 1.1 注解&#xff08;Annotation&#xff09;1.1.1 什么是注解1.1.2 内置注解1.1.3 元注解&#xff08;5种&#xff09;1.14 自定义注解1.15 注解使用场景介绍※ 本文小结 1.1 注解&#xff08;Annotation&#xff09; 1.1.1 什么是注解 注解的定义&#xff1a;它提…

2024-3-8 python管理有序序列使用bisect模块,存放数字array比list更快更省空间

bisect模块 bisect.bisect&#xff08;sequnce, target&#xff09;&#xff1a;返回target在sequence中的位置&#xff0c;该位置的标准是target放在这位置的后方&#xff0c;sequence仍然能保持有序。比如sequence [1,3,4,5,10]&#xff0c;target6&#xff0c;则bisect.bi…

基于工业边缘网关的机械状态监测与故障诊断应用

机械设备工作于各种各样的环境&#xff0c;在运行过程中必然受到力、温度、摩擦等多种物理、化学作用,使机械设备状态和性能变化,进而产生“隐性故障”。随着机械设备“隐性故障”的长期累积&#xff0c;可能造成设备损伤损坏&#xff0c;甚至影响系统整体生产和运营&#xff0…

Vue3:用computed函数实现计算属性

一、情景说明 在Vue2中&#xff0c;我们知道计算数学是通过vc实例中配置computed块来实现 这一篇&#xff0c;来学习Vue3中的计算属性如何实现。 二、案例 1、引入函数 import {ref,computed} from vue2、只读的计算属性 let fullName computed(()>{return firstName.…

从零开始学习Diffusion Models: Sharon Zhou

How Diffusion Models Work 本文是 https://www.deeplearning.ai/short-courses/how-diffusion-models-work/ 这门课程的学习笔记。 文章目录 How Diffusion Models WorkWhat you’ll learn in this course [1] Intuition[2] SamplingSetting Things UpSamplingDemonstrate i…

帮管客 CRM jiliyu SQL注入漏洞复现

0x01 产品简介 帮管客CRM是一款集客户档案、销售记录、业务往来等功能于一体的客户管理系统。帮管客CRM客户管理系统,客户管理,从未如此简单,一个平台满足企业全方位的销售跟进、智能化服务管理、高效的沟通协同、图表化数据分析帮管客颠覆传统,重新定义企业管理系统。 …

乐得瑞的一拖二100W智能分配方案更加成熟

在快节奏的现代生活中&#xff0c;手机不仅是通讯工具&#xff0c;更是我们工作、学习和娱乐的得力助手。然而&#xff0c;手机的电量问题一直是困扰我们的难题。为了解决这一问题&#xff0c;市场上应运而生了一种名为“一拖二快充线”的充电设备。它集快速充电与独特设计于一…