CUDA调整指令级原语

在GPU上运行的运算密集型应用程序,处理器的计算吞吐量可以用它在一段时间内执行操作的数量来衡量。因为GPU有很多SIMT指令和计算核心,所以其峰值计算吞吐量通常比其他的处理器高。

对应用程序的吞吐量和正确性进行优化时,理解不同低级原语的性能、数值精确度和线程安全性方面的优缺点很重要。

CUDA指令

指令是处理器中的一个逻辑单元。需要了解CUDA内核代码什么时候会产生不同的指令以及高级语言如何转化为指令很重要。

浮点指令

IEEE-754标准定义了32位和64位浮点格式。标准规定将二进制浮点数编码成三段:符号段,1比特;指数段,多比特;以及尾数段,多比特。

然而浮点数的精度是有限的,举个栗子

a,b两个值都不能在float中精确的存储,都只能近似保存,这样两者恰好相等。

在浮点数值上进行操作的指令被称为浮点指令。CUDA支持所有在浮点数值上的常见数学运算。CUDA编程模式也遵守IEEE-754标准,支持两种精度的浮点数值。

内部函数和标准函数

CUDA将所有算数函数分成内部函数和标准函数。标准函数用于支持可对主机和设备进行访问并标准化主机和设备的操作。标准函数包含来自于C标准数学库的数学运算。

CUDA内置函数只能对设备代码进行访问。如果一个函数是内部函数或者是内置函数,那么在编译时对它的行为会有特殊响应,从而产生更积极的优化和更专业化的指令生成。这对CUDA内部函数来说是真实可信的。

在CUDA中,许多内部函数与标准函数是有关联的,意味着存在于内部函数功能相同的标准函数。内部函数分解成了比与它们等价的标准函数更少的指令。导致内部函数比等价的标准函数更快,但数值精度更低

原子操作指令

一条原子指令用来执行一个数学运算,此操作是一个独立不间断的操作,且没有其他线程的干扰。当一个线程在一个变量上成功完成一个原子操作,那么不管有多少线程正在访问这个变量,这个变量的状态都已经发生了改变。在GPU的高并发环境中,保证“读-改-写”操作的完整性非常重要。CUDA提供了在全局内存或共享内存上执行“读-改-写”操作的原子函数。

与标准函数和内部函数类似,每个原子函数可以实现一个基本数学运算。不同于其他类型指令的是,在原子操作指令中,当两个竞争线程共享的内存空间进行操作时,会有一个定义好的行为。

举个栗子

__global__ void incr(int *p){int temp = *p;temp = temp + 1;*p = temp;
}

如果运行这个核函数,在多线程并行环境中,结果是不确定的。不止一个线程对同一个内存位置进行写操作,叫做数据竞争,或者称为对内存的不安全访问。数据竞争是指,多个独立的正在执行的线程访问同一个地址,而且至少有一个访问会修改该地址。

使用原子操作指令可以避免这种情况的发生。原子操作是通过CUDA API访问的函数。例如,

int atomicAdd(int *M, int V);

M是进行原子操作的地址,v是要加上的值。该原子操作将V加到M地址的变量中,并且返回操作之前的值。

另一个函数

int atomicExch(int *m, int v);

无条件的用v替换m中的值,并且返回原先存在m中的值。

程序优化指令

单精度与双精度比较

单精度与双精度浮点运算在通信和计算上的性能差异是不可忽略的。

单精度相较于双精度浮点运算计算和传输更快,但是精度更低。这些结果可能在迭代过程中被不断积累。

标准函数与内部函数比较

使用nvcc的--ptx标志能够让编译器在并行线程执行和指令集架构中生成程序的中间表达式。生成的PTX文件类似汇编的形式,可以直观的了解内核的低级别执行路径。

另外可以用一些编译指令操纵编译器指令的生成。例如,--fmad=false(默认是true)会强制命令编译器禁用混合乘法与加法的优化。具体命令在《CUDA C编程权威指南》表7-3

了解原子指令

通过使用一个原子函数,每个由CUDA提供的原子函数可以重复被执行:原子级比较并交换符(CAS)运算符。

原子级CAS是一个重要的操作,将三个内容作为输入:内存地址、存储在此地址中的期望值,以及实际想要存储在此位置的新值,然后执行

  1. 读取目标地址并将该处地址的存储值与预期值比较
  2. 如果存储值与预期值相等,那么新值将存入目标位置
  3. 如果存储值与预期值不等,那么目标位置不会发生变化
  4. 不论发生什么情况,一个CAS操作总是返回目标地址中的值。

一个原子CAS操作意味着整个CAS进程是在没有其他任何线程干扰的情况下完成的。

详细解释一下atomicCAS设备函数

int atomicCAS(int *address, int compare, int val);

进行atomicCAS时,先比较address地址当前的值是否等于compare,如果相等,则把address地址中的值变成val,如果不等,就不变,无论如何都返回比较前address中的值。

通过atomicCAS可以定义自己的原子操作。

原子操作的成本

原子函数在一些应用中很有必要而且很有帮助,但可能要付出很高的性能代价。

主要原因是,如果有多个线程对同一地址进行原子操作,那么会产生类似线程冲突的情况。只有一个线程可以原子操作成功,其他线程必须循环等待。并且,一个原子操作就意味着一个全局的读取和写入。

限制原子操作的成本

可以在使用局部操作来增强全局原子操作。比如从同一个线程块中产生不同的中间结果,在最后进行原子操作写入全局内存。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/7050.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

常见通信协议

1、串口:(串行异步全双工,先发低位) 因为是异步的,所以没有时钟线,因为是全双工,所以有两条数据传输线,实现数据的收发。 帧格式 起始位1位,数据位8位,校验…

【教程】极简Python接入免费语音识别API

转载请注明出处:小锋学长生活大爆炸[xfxuezhagn.cn] 如果本文帮助到了你,请不吝给个[点赞、收藏、关注]哦~ 安装库: pip install SpeechRecognition 使用方法: import speech_recognition as srr sr.Recognizer() harvard sr…

LeetCode 面试经典150题 228.汇总区间

题目: 给定一个 无重复元素 的 有序 整数数组 nums 。 返回 恰好覆盖数组中所有数字 的 最小有序 区间范围列表 。也就是说,nums 的每个元素都恰好被某个区间范围所覆盖,并且不存在属于某个范围但不属于 nums 的数字 x 。 列表中的每个区…

spring高级篇(九)

boot的执行流程分为构造SpringApplication对象、调用run方法两部分 1、Spring Boot 执行流程-构造 通常我们会在SpringBoot的主启动类中写以下的代码: 参数一是当前类的字节码,参数二是main的args参数。 public class StartApplication {public static…

【Linux IO基础】缓冲区

概念 缓冲区的主要作用是提高效率 --- 提高使用者的效率,因为有缓冲区的存在,我们可以积累一部分再统一发送,提高发送的效率。 刷新方式 缓冲区因为能够暂存数据,必定要有一定的刷新方式: 一般策略: 无…

Flask应用的部署和使用,以照片分割为例。

任务是本地上传一张照片,在服务器端处理后,下载到本地。 服务器端已经封装好了相关的程序通过以下语句调用 from amg_test import main from test import test main() test() 首先要在虚拟环境中安装flask pip install Flask 文件组织架构 your_pro…

基于Spring Boot的民宿管理平台设计与实现

基于Spring Boot的民宿管理平台设计与实现 开发语言:Java框架:springbootJDK版本:JDK1.8数据库工具:Navicat11开发软件:eclipse/myeclipse/idea 系统部分展示 前台首页功能界面图,在系统首页可以查看首页…

【软件开发规范篇】JAVA后端开发编程规范

作者介绍:本人笔名姑苏老陈,从事JAVA开发工作十多年了,带过大学刚毕业的实习生,也带过技术团队。最近有个朋友的表弟,马上要大学毕业了,想从事JAVA开发工作,但不知道从何处入手。于是&#xff0…

视频号小店在行业内的门槛高不高?有门槛是好事还是坏事?

大家好,我是电商小V 现在伴随着时代的慢慢发展,很多人都是想找一个好一点的创业项目,现在找创业项目都是找一些稍微有门槛的项目,没有门槛的话,要不然刚开始去做,项目就泛滥了,项目的红利期直接…

【AI】深度学习框架的期望与现实 机器学习编译尚未兑现其早期的一些承诺……

深度学习框架的期望与现实 机器学习编译尚未兑现其早期的一些承诺…… 来自:Axelera AI 资深软件工程师 Matthew Barrett 原帖是linkedin帖子: https://linkedin.com/posts/matthew-barrett-a49929177_i-think-its-fair-to-say-that-ml-compilation-ac…

Python_4-远程连接Linux

文章目录 使用Python通过SSH自动化Linux主机管理代码执行ls结果:文件传输: 使用Python通过SSH自动化Linux主机管理 在系统管理与自动化运维中,SSH(Secure Shell)是一个常用的协议,用于安全地访问远程计算机…

FTP协议与工作原理

一、FTP协议 FTP(FileTransferProtocol)文件传输协议:用于Internet上的控制文件的双向传输,是一个应用程序(Application)。基于不同的操作系统有不同的FTP应用程序,而所有这些应用程序都遵守同…

怎么给word文件名批量替换部分文字?word设置批量替换文字教程

批量替换Word文件名中的几个字,对于经常处理大量文件的人来说,是一项非常实用的技能。以下是一个详细的步骤指南,帮助你快速完成这项任务。 首先,你需要准备一个可以批量重命名文件的工具。市面上有很多这样的工具可供选择&#x…

win10禁止自动更新的终极方法

添加注册表值 1.运行,输入regedit 2.打开注册表编辑器依次进入以下路径“计算机\HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\WindowsUpdate\UX\Settings”。 3.在Settings项中,新建DWORD(32位)值(D),重命名为以下命名“Fl…

easy_ssti_ctfshow_2023愚人杯

https://ctf.show/challenges#easy_ssti-3969 2023愚人杯有提示app.zip,访问 https://1f660587-5340-4b20-b929-c4549d9a5d4b.challenge.ctf.show/app.zip得到压缩包,拿到一个py文件 可以看到参数名是name,对参数进行筛选,包含ge…

《Fundamentals of Power Electronics》——脉宽调制器建模

下图给出了一个简单脉宽调制器电路的原理图。 脉宽调制器电路产生一个用于指令转换器功率管导通和关断的逻辑信号δ(t)。该逻辑信号δ(t)是周期性的,其频率为fs,占空比为d(t)。脉宽调制器的输入是一个模拟控制信号vc(t)。脉宽调制器的作用是产生一个与模…

生产管理驾驶舱模板分享,制造业都来抄作业!

今天要讲的是一张从组织、生产车间、物料、仓库、时间等不同维度,展示产能、产量、投入成本、产能达成率等关键信息,让企业运营决策者全面了解生产产能情况、产量情况、投入成本情况、产能达成率情况的BI生产管理驾驶舱模板。这是奥威BI标准方案为设有生…

问题管理员的工作角色、职责和技能

问题管理就是识别、分析和解决反复出现的根本原因问题并永久修复它们。听起来很简单对吧,不幸的是,情况并非总是如此。对于组织来说,IT问题管理一直是一门棘手的 ITSM 学科。一个经常被忽视的关键因素是有效的问题 管理不仅仅是工具和流程。 …

Swagger使用和注释介绍

一:介绍 1、什么是Swagger Swagger是一个规范和完整的框架,用于生成、描述、调用和可视化 RESTful 风格的 Web 服务。总体目标是使客户端和文件系统作为服务器以同样的速度来更新。文件的方法,参数和模型紧密集成到服务器端的代码&#xff…

karateclub,一个超酷的 Python 库!

更多资料获取 📚 个人网站:ipengtao.com 大家好,今天为大家分享一个超酷的 Python 库 - karateclub。 Github地址:https://github.com/benedekrozemberczki/karateclub Python karateclub是一个用于图嵌入和图聚类的库&#xff…