CUDA学习备份

CUDA项目配置
1.项目属性->配置属性->常规->Windows SDK版本->选实际的版本
2.项目属性->CUDA C/C+±>Device->修改为对应CUDA型号的算力,例如算力3.5,就设置为compute_35 sm_35

概念:
gpuAdd << <1, 1 >> > (d_a1, d_b1, d_sum); 三括号内的是内核参数
maxBlock:32,maxThread:1024
CUDA事件等于是在你的CUDA应用运行的特定时刻被记录的时间戳。

分页锁定主机存储器:
cudaHostAlloc()和 cudaFreeHost()分配和释放分页锁定主机存储器;
1.cudaHostRegister()分页锁定一段使用 malloc()分配的存储器。
使用分页锁定主机存储器有许多优点:
2.在某些设备上,设备存储器和分页锁定主机存储器间
数据拷贝可与内核执行并发进行;
3.在一些设备上,分页锁定主机内存可映射到设备地址空间,减少了和设
备间的数据拷贝
4.在有前端总线的系统上,如果主机存储器是分页锁定的,主机存储器和
设备存储器间的带宽会高些,如果再加上写结合
(write-combining)的话,带宽会更高。
然而分页锁定主机存储器是稀缺资源,所以可分页内存分配得多的话,分配
会失败。另外由于减少了系统可分页的物理存储器数量,分配太多的分页锁定内
存会降低系统的整体性能。

调试记录:
头文件包含:#include “device_launch_parameters.h”
就可以用内核启动的变量,比如threadidx.x,blockidx.x

如果在主机代码读取了设备变量的话会报访问冲突
0xC0000005: 读取位置 0x0000000500C60400 时发生访问冲突

int *d_sum;
cudaFree(d_sum);
设备变量在主机代码中只能是指针类型

内核启动函数无法打断点

int* d_c 整数指针,指向d_c的地址
int** d_c 指针的指针,指针指向指针的地址

传进去内核函数的参数必须为内核参数=>用cudaMalloc开辟内存的变量

for循环加法耗时:GPU0.000,CPU0.001,30000个数据测试

CPU测试耗时:
clock_t start_h = clock();
cpuAddArray(h_a, h_b, h_c);
clock_t end_h = clock();
double time_h = (double)(end_h - start_h) / CLOCKS_PER_SEC;

超过块:33,和线程1025没有报错

gpuAdd << <1, N>> > (d_a, d_b, d_c); blockIdx.x的范围是0,threadIdx.x的范围是0-(N-1)
PS:id是从0开始的
如果其中有一个0,则不会执行任何

gpuAdd <<<1, 2>>s> blockDim.x是2,blockDim是块中线程x方向的数量
gpuAdd <<<2, 1>>> gridDim.x是2,gridDim是网格中块的x方向的数量

threadIdx.x,每个块中的线程id都是从0开始的

invalid configuration argument
原因:<<<>>>分块数据错误,参数过大,内存需求过大
△不够内存?

invalid argument
原因:实参错误,有可能因为没开辟地址

an illegal memory access was encountered
原因:共享内存分配问题
猜想:共享内存是一个块内所有线程共享的,是不是说共享内存的大小不应该大于线程数?
△假如共享内存没有赋值,那么里面的值是不定的(任意值),非默认值0

内核代码只能在cu文件下编写,不能在cpp文件下编写

内核用共享内存,内存是一个块中线程是共享的

目的是开足够的线程,每个线程对应一个运算。
现在是让每个线程对应一个像素。
首先必须满足遍历所有线程,
一维遍历:一个块,多个线程
int i = threadIdx.x;
二维遍历:多个块,多个线程
int i = blockIdx.x * blockDim.x + threadIdx.x;

任何用访问共享存储器取代访问全局存储器的机会应当被发掘,如下面的矩阵相
乘例子展示的那样。

如果在主机函数中读设备参数,可能会出现假死的状态

const char不能赋值给char 因为如果赋值了,就有机会改变其值。因此只能用strcpy来读

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/17941.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

EasyExcel实现导入导出

EasyExcel实现导入导出 目录 EasyExcel实现导入导出1、使用场景2、特点3、使用1、使用EasyExcel进行写操作&#xff08;下载Excel&#xff09;1. 在pom文件中添加对应的依赖2. 创建实体类&#xff0c;和excel数据对应3. converter自定义转换器4、性别枚举类 5.普通导出6.多shee…

Linux防火墙(以iptables为例)

目录 Linux配置防火墙1. 引言2. 什么是防火墙3. Linux中的防火墙3.1 iptablesiptables命令参数常用方式&#xff1a;3.1.1 安装iptables3.1.2 配置iptables规则3.1.3 示例一&#xff1a;使用iptables配置防火墙规则4. iptables执行过程 Linux配置防火墙 1. 引言 在互联网时代&…

【从零开始学习RabbitMQ | 第三篇】什么是延迟消息

目录 前言&#xff1a; 延迟消息&#xff1a; 延迟消息实现方式&#xff1a; 死信交换机&#xff1a; 延迟消息插件&#xff1a; 1.基于注解的方式 2.基于Bean的方式 总结&#xff1a; 前言&#xff1a; 在现代软件开发中&#xff0c;异步消息处理已成为构建可扩展、高可…

php爬虫之获取淘宝商品数据

爬取淘宝信息数据 首先需要先导入webdriver 1.from selenium import webdriver webdriver支持主流的浏览器&#xff0c;比如说&#xff1a;谷歌浏览器、火狐浏览器、IE浏览器等等 然后可以创建一个webdriver对象&#xff0c;通过这个对象就可以通过get方法请求网站 1.driver…

学习前端第四十五天(冒泡和捕获、事件委托)

一、冒泡和捕捉 1、冒泡 当一个事件发生在一个元素上&#xff0c;它会首先运行在该元素上的处理程序&#xff0c;然后运行其父元素上的处理程序&#xff0c;然后一直向上到其他祖先上的处理程序 <div class"box" onclick"console.log(1)">box<d…

全身关节活动评估训练系统:提升健康与康复的新科技

随着科技的不断进步&#xff0c;医疗和健身领域也迎来了巨大的变革。其中&#xff0c;全身关节活动评估训练系统作为一种创新的科技产品&#xff0c;正在逐渐改变我们对健康、康复以及健身的认知。本文将深入探讨这一系统的原理、功能、应用以及其对个人健康和社会福祉的潜在影…

闲鱼详情API接口探析

随着互联网的快速发展&#xff0c;我国闲置交易市场逐渐繁荣&#xff0c;闲鱼作为阿里巴巴旗下闲置交易平台&#xff0c;已经成为众多用户的选择。为了方便开发者构建第三方应用&#xff0c;闲鱼提供了详细的API接口&#xff0c;联讯数据将对闲鱼详情API接口进行深入分析&#…

时序数据库InfluxDB面试题和参考答案

目录 InfluxDB如何处理大规模数据集? 如何使用InfluxDB进行实时分析?

你真的懂firewalld吗?不妨看看我的这篇文章

一、firewalld简介 firewalld防火墙是Linux系统上的一种动态防火墙管理工具&#xff0c;它是Red Hat公司开发的&#xff0c;并在许多Linux发行版中被采用。相对于传统的静态防火墙规则&#xff0c;firewalld使用动态的方式来管理防火墙规则&#xff0c;可以更加灵活地适应不同…

TypeScript中的`let`、`const`、`var`区别:变量声明的规范与实践

TypeScript中的let、const、var区别&#xff1a;变量声明的规范与实践 引言 在TypeScript中&#xff0c;变量声明是代码编写的基础部分。let、const、var 是三种用于变量声明的关键字&#xff0c;它们各自有不同的作用域规则和可变性特点。 基础知识 作用域&#xff1a;变量…

ctfhub中的SSRF相关例题(中)

目录 上传文件 gopher协议的工作原理&#xff1a; gopher协议的使用方法&#xff1a; 相关例题: FastCGI协议 FastCGI协议知识点 相关例题&#xff1a; Redis协议 知识点&#xff1a; 相关例题 第一种方法 第二种方法 上传文件 gopher协议的工作原理&#xff1a; …

开箱元宇宙| 探索家乐福如何在The Sandbox 中重新定义零售和可持续发展

有没有想过 The Sandbox 如何与世界上最具代表性的品牌和名人的战略保持一致&#xff1f;在本期的 "开箱元宇宙 "系列中&#xff0c;我们与家乐福团队进行了对话&#xff0c;这家法国巨头率先采用web3技术重新定义零售和可持续发展。 家乐福的用户平均游玩时间为 57 …

QWidget For Android之QDialog中QLineEdit无法编辑问题

项目场景&#xff1a; QWidget For Android 问题描述 QDialog打开对话框时&#xff0c;QLineEdit输入框无法输入 this->setWindowFlags(Qt::FramelessWindowHint | Qt::Tool | Qt::WindowStaysOnTopHint);this->setAttribute(Qt::WA_TranslucentBackground);原因分析&a…

maven部署到私服

方法一:网页上传 1、账号登录 用户名/密码 2、地址 http://自己的ip:自己的端口/nexus 3、查看Repositories列表&#xff0c;选择Public Repositories&#xff0c;确定待上传jar包不在私服中 4、选择3rd party仓库&#xff0c;点击Artifact Upload页签 5、GAV Definition选…

2024上半年软考 考试心得

考试的时候感觉选择题有点偏&#xff0c;很多概念题都不知道是什么&#xff0c;好像没怎么见过&#xff0c;什么拖库洗库&#xff0c;linux权限号不会&#xff0c;python也不确定&#xff0c;但也算顺利&#xff1b;下午题的数据库竟然没考主键外键&#xff0c;我的天哪&#x…

蓝桥杯嵌入式国赛笔记(3):其他拓展板程序设计(温、湿度传感器、光敏电阻等)

目录 1、DS18B20读取 2、DHT11 2.1 宏定义 2.2 延时 2.3 设置引脚输出 2.4 设置引脚输入 2.5 复位 2.6 检测函数 2.7 读取DHT11一个位 2.7.1 数据位为0的电平信号显示 2.7.2 数据位为1的电平信号显示 2.8 读取DHT11一个字节 2.9 DHT11初始化 2.10 读取D…

exe4j --实现把jar包打成exe可执行文件

工具准备 1.Java编辑器&#xff0c;如&#xff1a;idea、eclipse等&#xff0c;下载地址&#xff1a; IntelliJ IDEA: The Capable & Ergonomic Java IDE by JetBrains https://www.jetbrains.com/idea/ 2.exe4j&#xff0c;下载地址&#xff1a; ej-technologies - Java A…

SQL试题使得每个学生 按照姓名的字⺟顺序依次排列 在对应的⼤洲下⾯

学⽣地理信息报告 学校有来⾃亚洲、欧洲和美洲的学⽣。 表countries 数据如下&#xff1a; namecontinentJaneAmericaPascalEuropeXiAsiaJackAmerica 1、编写解决⽅案实现对⼤洲&#xff08;continent&#xff09;列的 透视表 操作&#xff0c;使得每个学生 按照姓名的字⺟顺…

常用批处理命令及批处理文件编写技巧

一常用批处理命令 1.查看命令用法&#xff1a;命令 /? //如&#xff1a;cd /? 2.切换盘符目录&#xff1a;cd /d D:\test 或直接输入 d: //进入上次d盘所在的目录 3.切换目录&#xff1a;cd test 4.清屏:cls 5.“arp -a” //它会列出当前设备缓存中的所有…

特定车型专属AI模型解决方案,高清图像,稳定输出

美摄科技凭借其对人工智能领域的深刻理解和技术积累&#xff0c;为企业带来了一项革命性的解决方案——特定车型专属AI模型。这一方案以专属车型照片为基础&#xff0c;通过先进的AI生成模型训练&#xff0c;为企业提供个性化、高清、稳定的车辆图像和视频生成服务&#xff0c;…