Pytorch数据结构:GPU加速

文章目录

    • 一、GPU加速
      • 1. 检查GPU可用性:
      • 2. GPU不可用需要具体查看问题
      • 3. 指定设备
      • 4.将张量和模型转移到GPU
      • 5.执行计算:
      • 6.将结果转移回CPU
    • 二、转移原理
      • 1. 数据和模型的存储
      • 2. 数据传输
      • 3. 计算执行
      • 4. 设备管理
      • 5.小结
    • 三、to方法的参数类型

一、GPU加速

  • .to(device)方法:
    • device是指定的设备,如果'cpu''cuda'等。使用字符串'cpu'torch.device('cpu')对象在功能上是等价的
    • .to()方法可以将数据传输到指定设备的存储空间中,如CPU内存:主存,GPU内存:显存。之后计算则会在对应设备上计算。这个数据
    • .to()方法是Pytorch中张量tensor或模型继承自torch.nn.Module的类等中实现的方法,但是基本Python数据类型没有该方法。
    • 它的参数允许你指定目标设备、数据类型,以及其他几个选项,以适应不同的需求。

  GPU加速是在深度学习和其他高性能计算任务中非常重要的技术。GPU(图形处理器)具有并行处理能力,能够同时处理成千上万的计算任务,这使得它们非常适合于执行深度学习模型的训练和推理过程,因为这些过程往往涉及到大量的矩阵和向量运算。

  在PyTorch中,使用GPU加速可以显著提高张量运算的速度。这是通过将张量和模型从CPU传输到GPU来实现的。使用GPU加速,特别是在处理大型深度学习模型和数据集时,可以显著减少训练和推理时间。不过,值得注意的是,这需要你有一个支持CUDA的NVIDIA GPU。此外,与CPU相比,GPU上的内存(通常称为显存)可能更少,这可能限制你一次能处理的数据量大小。因此,在设计模型和选择批量大小时,需要考虑到显存的限制。

以下是一些基本步骤,展示了如何在PyTorch中使用GPU加速:

1. 检查GPU可用性:

首先,你需要检查GPU是否可用。

  • torch.cuda.is_available()函数来检查系统是否有可用的CUDA支持的GPU
  • torch.cuda.device_count()函数来检查系统有多少个可用GPU设备
import torch
# 检测系统中是否有可用的GPU
print("检测系统中是否有可用的GPU:",torch.cuda.is_available())if torch.cuda.is_available():# 输出可用的GPU设备数量print(f"GPU可用,可用的GPU设备数量:{torch.cuda.device_count()}")# 输出每个可用GPU设备的名称for i in range(torch.cuda.device_count()):print(f"GPU设备{i}: {torch.cuda.get_device_name(i)}")

在这里插入图片描述

2. GPU不可用需要具体查看问题

如果没有安装gpu版本的torch,则需要安装,并且在安装时,注意cuda的版本:命令行中输入nvidia-smi,可以查看可以安装的最高cuda版本。
在这里插入图片描述

torch+cuda安装教程
下载NVIDIA驱动程序教程。
如果你已经安装了Pytorch等,在执行命令行下载时,建议新建虚拟环境并可以添加--force-reinstall选项来强制重新安装PyTorch及其相关库:

pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117 --force-reinstall --user

用以下命令查看是否可用,以及torch版本是否正确

print("检测系统中是否有可用的GPU:",torch.cuda.is_available())
print(torch.__version__)

在这里插入图片描述

3. 指定设备

一旦确认GPU可用,你可以定义一个设备对象,用于后续将张量和模型转移到GPU。例如,device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")。这里"cuda:0"表示使用第一个CUDA支持的GPU,如果GPU不可用,则回退到CPU。

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

4.将张量和模型转移到GPU

你可以使用.to(device)方法将张量和模型转移到指定的设备(GPU或CPU)。例如,tensor_gpu = tensor.to(device)model.to(device)。这样,张量和模型的所有计算都将在GPU上进行,从而利用其并行计算能力加速运算。其中tensor和model分别是torch中定义的张量和模型。

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
x=torch.tensor([1,1,2,3]).to(device)
x=torch.tensor([1,1,2,3]).to(torch.device("cpu"))
x=torch.tensor([1,1,2,3]).to('cuda')#直接转移至GPU

如果没有GPU还要转移到GPU上,会产生如下报错:AssertionError: Torch not compiled with CUDA enabled
在这里插入图片描述

5.执行计算:

在张量和模型转移到GPU后,你可以正常执行计算。计算会自动在GPU上进行,利用其高性能加速计算过程。

6.将结果转移回CPU

如果需要将结果转回CPU,可以使用.to('cpu')方法。例如,result_cpu = result_gpu.to('cpu')

device=torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
x=torch.tensor([11,2,5,6]).to(device)
result=x*2
#以上tensor计算都在GPU上#将结果转入cpu,以后处理在CPU上
result=result.to('cpu')
result=result*2

二、转移原理

将张量或模型转移到GPU以及将结果转回CPU,是深度学习中常见的做法,用于利用GPU进行高速计算的同时,确保与其他不支持GPU计算的操作或数据兼容。这一过程的背后原理涉及数据在不同硬件设备之间的传输,以及计算设备的管理。

1. 数据和模型的存储

首先,了解CPU和GPU 有各自独立的内存空间 是很重要的:

  • CPU内存:通常称为主内存,由RAM(随机存取存储器)构成,用于存储程序运行中需要的数据和指令。也就是说计算机的内存是用CPU处理的,并且内存到磁盘的转移也需要用CPU协调。
  • GPU内存:也称为显存,是专门为GPU设计的,用于存储GPU处理的数据,比如渲染图形的纹理数据或进行科学计算的矩阵。

2. 数据传输

当你将一个张量或模型“转移到GPU”时,实际上是将数据从CPU内存复制到GPU内存。相应地,从GPU“转回”数据到CPU也涉及到一个从GPU内存到CPU内存的复制过程。这些操作通常通过PCI Express (PCIe)总线完成,PCIe是一种高速串行计算机扩展总线标准,用于连接主板和外部设备,比如GPU。

3. 计算执行

  • 在GPU上执行计算:将数据或模型转移到GPU后,CUDA或其他GPU加速库可以利用GPU的并行计算能力执行复杂的数学运算,如矩阵乘法、卷积等操作,这些操作是深度学习中的基本构件。
  • 处理结果:计算完成后,通常需要将结果数据从GPU内存复制回CPU内存,以便进行进一步的处理或分析,因为某些操作可能只能在CPU上执行,或者你需要将数据保存到磁盘,这通常是通过CPU来完成的。

4. 设备管理

在PyTorch等深度学习框架中,通过特定的API(应用程序接口,比如一些函数,我们只会使用,不会其实现原理这就是一种接口)调用来管理数据在设备之间的移动。例如,使用.to(device)方法指定数据或模型应该在哪个设备上运算。这种灵活性允许开发者编写设备无关的代码,框架负责在后台处理数据的移动和计算设备的选择。

5.小结

  • 转移至GPU:是一个数据从CPU内存复制到GPU内存的过程,旨在利用GPU的并行计算能力加速运算。
  • 转回至CPU:是将数据从GPU内存复制回CPU内存的过程,以便进行非GPU加速的操作或持久化存储。

这一过程核心在于,不同的计算任务根据其特性和所需的计算资源,可以在最适合的硬件上执行,从而优化整体的计算效率和性能。如果需要快速计算,那么计算时,将计算的数据放入GPU内存用GPU处理,计算完如果需要进入内存,存入磁盘等操作,那么就再把数据放入CPU内存(主存),然后在处理。

三、to方法的参数类型

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/796624.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

瑞_Redis_商户查询缓存_添加Redis缓存缓存更新策略

文章目录 项目介绍1 短信登录2 商户查询缓存2.1 什么是缓存2.1.1 缓存的应用场景2.1.2 为什么要使用缓存2.1.3 Web应用中缓存的作用2.1.4 Web应用中缓存的成本 2.2 添加Redis缓存2.2.1 背景2.2.2 缓存模型和思路2.2.3 代码实现2.2.4 测试附:IDEA控制台输出自动换行设…

【动态规划】【01背包】Leetcode 416. 分割等和子集

【动态规划】【01背包】Leetcode 416. 分割等和子集 ---------------🎈🎈416. 分割等和子集 题目链接🎈🎈------------------- 给你一个 只包含正整数 的 非空 数组 nums 。请你判断是否可以将这个数组分割成两个子集&#xff0…

竞赛 交通目标检测-行人车辆检测流量计数 - 竞赛

文章目录 0 前言1\. 目标检测概况1.1 什么是目标检测?1.2 发展阶段 2\. 行人检测2.1 行人检测简介2.2 行人检测技术难点2.3 行人检测实现效果2.4 关键代码-训练过程 最后 0 前言 🔥 优质竞赛项目系列,今天要分享的是 🚩 毕业设计…

Python3 Ubuntu

一、安装中文输入法 1.sudo apt install ibus-sunpinyin 2.点击右上角输入法,然后点击加号,输入yin添加进来,最后选中输入法即可 二、安装截屏软件 1.sudo apt install gnome-screenshot 三、安装opencv-python 1.pip3 install --upgrade…

HTTP协议报文的结构的补充和from表单以及ajax表单

响应 状态码 表示了这次请求对应的响应,是什么样的状态(成功,失败,还是其他的情况.还有及其对应的原因) 主要有这些类 成功状态码:其中200最常见,表示成功 重定向状态码:很多时候,页面跳转,就可以通过重定向来实现. 还有的时…

智慧牧场数据 7

1 体征数据采集 需求:获取奶牛记步信息 三轴加速度测量:加速度测量计反应的加速向量与当前的受力方向是相反,单位为g 陀螺仪,是用来测量角速度的,单位为度每秒(deg/s) 2000deg/s 相当于1秒钟多少转 1.1…

小米汽车su7全色系展示源码

源码简介 小米汽车全色系展示源码,小米汽车su7全色系展示源码 安装教程 纯HTML,直接将压缩包上传网站目录解压即可 首页截图 源码下载 小米汽车su7全色系展示源码-小8源码屋源码简介 小米汽车全色系展示源码,小米汽车su7全色系展示源码 …

如何不编程用 ChatGPT 爬取网站数据?

敢于大胆设想,才能在 AI 时代提出好问题。 需求 很多小伙伴,都需要为研究获取数据。从网上爬取数据,是其中关键一环。以往,这都需要编程来实现。 可最近,一位星友在知识星球提问: 这里涉及到一些个人隐私&a…

Redission--布隆过滤器解决缓存穿透问题

布隆过滤器在缓存穿透问题中的使用 布隆过滤器的核心是一个位数组 布隆过滤器的误判 使用Redission的布隆过滤器步骤 添加 Redission 依赖:首先需要将 Redission 添加到你的 Java 项目中,你可以通过 Maven 来添加 Redission 的依赖。 创建 Redissio…

深度学习相关知识

一.环境配置 1.cuda/cudnn安装: 安装cuda之前首先安装vs,vs版本从低到高安装。 a) 安装cuda:首先查看显卡支持的最高CUDA的版本,以便下载对应的CUDA安装包; cmd命令行:nvidia-smi,显示如下:…

【单片机】CJSH22-CH2O,甲醛传感器,甲醛传感器数据读取处理

原理图 解析程序 逻辑是: 1、初始化串口和定时器10ms中断 2、循环读取一帧数据到rev_CH2O_bufferdata 3、在主函数解析数据rev_CH2O_bufferdata 4、最终的pm2.5数值就是CH2O_value 使用CH2O_value的数据即可。 PPB单位,除以1000就是ppm,再…

ASP.NET Core 模型绑定

🍀介绍 在C#中,特别是在ASP.NET Core中,模型绑定是一个将HTTP请求中的数据映射到C#对象的过程。它使得开发者能够方便地从请求中提取数据,而无需手动解析请求体、查询字符串、路由数据等。ASP.NET Core提供了多种特性&#xff08…

C语言 | Leetcode C语言题解之第13题罗马数字转整数

题解: 题解: int romanToInt(char* s) {int symbolValues[26];symbolValues[I - A] 1;symbolValues[V - A] 5;symbolValues[X - A] 10;symbolValues[L - A] 50;symbolValues[C - A] 100;symbolValues[D - A] 500;symbolValues[M - A] 1000;int a…

迷茫下是自我提升

长夜漫漫,无心睡眠。心中所想,心中所感,忧愁当前,就执笔而下,写下这篇文章。 回忆过往 回想当初为啥学前端,走前端这条路,学校要求嘛,兴趣爱好嘛,还是为了钱。 时间带着…

爬虫 新闻网站 以湖南法治报为例(含详细注释,控制台版) V3.0 升级 自定义查询关键词、时间段、粗略判断新闻是否和优化营商环境相关,避免自己再一个个判断

目标网站:湖南法治报 爬取目的:为了获取某一地区更全面的在湖南法治报的已发布的和优化营商环境相关的宣传新闻稿,同时也让自己的工作更便捷 环境:Pycharm2021,Python3.10, 安装的包:requests&a…

【微信小程序】【小程序样式加载不出来】

微信小程序配置sass 第一步:找配置文件 在项目中找到 project.config.json文件,在setting属性中添加 useCompilerPlugins属性,值为sass即可,若是 less,将数组里面的值改为less即可 "useCompilerPlugins": ["sas…

HAL STM32主从定时器联级使用

HAL STM32主从定时器联级使用 具体介绍参考STM32参考手册 🌿主从定时器联级:使用一个定时器作为另一个定时器的预分频器。 🍁时钟关系: 🌿TIM1 和TIM8 控制寄存器 2(TIMx_CR2)相关位: 🔖主…

每日OJ题_优先级队列_堆④_力扣295. 数据流的中位数

目录 力扣295. 数据流的中位数 解析代码 力扣295. 数据流的中位数 295. 数据流的中位数 难度 困难 中位数是有序整数列表中的中间值。如果列表的大小是偶数,则没有中间值,中位数是两个中间值的平均值。 例如 arr [2,3,4] 的中位数是 3 。例如 arr…

AI大语言模型GPT —— R 生态环境领域数据统计分析

自2022年GPT(Generative Pre-trained Transformer)大语言模型的发布以来,它以其卓越的自然语言处理能力和广泛的应用潜力,在学术界和工业界掀起了一场革命。在短短一年多的时间里,GPT已经在多个领域展现出其独特的价值…

电商技术揭秘八:搜索引擎中的SEO内部链接建设与外部推广策略

文章目录 引言一、 内部链接结构优化1.1 清晰的导航链接1. 简洁明了的菜单项2. 逻辑性的布局3. 避免深层次的目录结构4. 使用文本链接5. 突出当前位置6. 移动设备兼容性 1.2 面包屑导航1. 显示当前页面位置2. 可点击的链接3. 简洁性4. 适当的分隔符5. 响应式设计6. 避免重复主页…