GPU显存泄露/显存溢出/显存爆炸解决方案

news/2025/4/3 16:06:05/文章来源:https://blog.csdn.net/dream6985/article/details/132150467

问题描述

最近在跑一个基于pytorch的强化学习代码，在训练过程中显存增大非常明显，迭代不到200个iteration就可以占据70G+的显存。由于博主是第一次在pytorch实现的强化学习算法上加入自己的实现，很没有应对经验，现将调试过程记录下来供有同样问题的人参考。

解决方案

1 通过逐行注释观察显存变化来确定到底是哪里出现了泄露

这个思想来自于[1]，原答主是这样回答的：

看上去很简单，但是非常有效，博主的bug就是这样找到泄露的地方的。找到了泄露的地方之后，就可以去查找对应的解决方案了（问度娘、看issues，balabala）。

2 查看常用错误对号入座

[2][3][4]记录了许多有关显存泄露的普遍错误，多与深度学习相关，感兴趣的读者可以看看，了解其中的原理，查看一下自己的代码有没有类似的错误。

3 使用显存使用展示工具memory_profiler

memory_profiler的下载链接如下：

memory-profiler · PyPI

可以使用以下指令进行安装：

pip install -U memory_profiler

在想进行分析的函数前面加上@profile，再运行

python -m memory_profiler example.py

即可打印出各行代码的内存占用结果。

附一个官方例子：

参考链接

[Debug记录] | Pytorch训练网络时出现内存泄漏 - 知乎

torch代码运行时显存溢出问题 - 简书

Tensor是如何让你的内存/显存泄漏的 - 知乎

PyTorch显存分析 - 知乎

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/27092.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

计算机网络（5） --- http协议

计算机网络（5） --- http协议

计算机网络（4） --- 协议定制_哈里沃克的博客-CSDN博客协议定制https://blog.csdn.net/m0_63488627/article/details/132070683?spm1001.2014.3001.5501 目录 1.http协议介绍 1.协议的延申 2.http协议介绍 3.URL 4.urlencode和urldecode 2.HTTP协…

阅读更多...

使用 RKE 方式搭建 K8s 集群并部署 NebulaGraph

使用 RKE 方式搭建 K8s 集群并部署 NebulaGraph

本文由社区用户 Albert 贡献，首发于 NebulaGraph 论坛，旨在提供多一种的部署方式使用 NebulaGraph。在本文，我将会详细地记录下我用 K8s 部署分布式图数据库 NebulaGraph 的过程。下面是本次实践的内容规划： 一到十章节为 K8s 集…

阅读更多...

用html+javascript打造公文一键排版系统16：更新单个附件说明排版，实现多个附件说明排版

用html+javascript打造公文一键排版系统16：更新单个附件说明排版，实现多个附件说明排版

利用公休的时间继续完善。一、更新单个附件说明排版之前实现单个附件说明排版时，我们只考虑了“附件：”中冒号为半角的情况，而没有考虑存在多任余空格的情况，我们今天先针对存在多任余空格的情况进行完善，增加了温…

阅读更多...

APP外包开发的开发语言对比

APP外包开发的开发语言对比

在开发iOS APP时有两种语言可以选择，Swift（Swift Programming Language）和 Objective-C（Objective-C Programming Language），它们是两种不同的编程语言，都被用于iOS和macOS等苹果平台的软件开发…

阅读更多...

[国产MCU]-BL602开发实例-定时器

[国产MCU]-BL602开发实例-定时器

定时器文章目录定时器1、BL602定时器介绍2、定时器驱动API介绍3、定时器使用实例3.1 单次计时3.2 持续计时通用定时器，用于定时，当时间到达我们所设置的定时时间会产生定时中断，可以用来完成定时任务。本文将详细介绍如何使用BL602的定时器功能。 1、BL602定时器介绍 BL6…

阅读更多...

如何搭建自动化测试框架？资深测试整理的PO模式，一套打通自动化...

如何搭建自动化测试框架？资深测试整理的PO模式，一套打通自动化...

目录：导读前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结（尾部小惊喜） 前言 Po模型介绍 1、简…

阅读更多...

Redis 报错 RedisConnectionException: Unable to connect to x.x.x.x:6379

Redis 报错 RedisConnectionException: Unable to connect to x.x.x.x:6379

文章目录 Redis报错类型可能解决方案 Redis报错类型 org.springframework.data.redis.connection. spingboot调用redis出错 PoolException: Could not get a resource from the pool; 连接池异常:无法从池中获取资源; nested exception is io.lettuce.core. 嵌套异常 RedisConn…

阅读更多...

ansible-playbook使用limit限制执行范围

ansible-playbook使用limit限制执行范围

使用ansible-playbook时要限制只在某些主机上执行常用的方式是增加-l 参数，但这样一个个写ip非常费劲，如下 ansible-playbook -i iplist a.yml -l 192.168.164.20,192.168.164.30,192.168.164.40, 如果我们要限制的ip范围有几十个，那写着…

阅读更多...

聊聊JDK动态代理原理

聊聊JDK动态代理原理

1. 示例首先，定义一个接口： public interface Staff {void work(); }然后，新增一个类并实现上面的接口： public class Coder implements Staff {Overridepublic void work() {System.out.println("认真写bug……");…

阅读更多...

一起学数据结构（3）——万字解析：链表的概念及单链表的实现

一起学数据结构（3）——万字解析：链表的概念及单链表的实现

上篇文章介绍了数据结构的一些基本概念，以及顺序表的概念和实现，本文来介绍链表的概念和单链表的实现，在此之前，首先来回顾以下顺序表的特点： 1.顺序表特点回顾： 1. 顺序表是一组地址连续的存储单元依次存…

阅读更多...

图像提示词攻略--基于 stable diffusion v2

图像提示词攻略--基于 stable diffusion v2

Stable Diffusion 是一种潜在的文本到图像扩散模型，能够在给定任何文本输入（称为提示）的情况下生成逼真的图像。在本文中，我将讨论和探索一些提高提示有效性的方法。从在提示中添加某些关键字和组合词、从更改单词顺序及其标点符…

阅读更多...

24v转3.3v输出3A用什么芯片

24v转3.3v输出3A用什么芯片

问：客户需要一个能够将24V输入电压转换为3.3V输出电压，并且能够提供1-3A的电流输出的芯片。还希望它能够内置MOS管。有什么推荐的型号吗？（vin24v、5v，vout3.3v，Io1-3A） 答：推荐使用…

阅读更多...

HCIA---TCP/UDP协议

HCIA---TCP/UDP协议

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录目录文章目录一.UDP协议简介 UDP协议的特点： 二.TCP协议简介 TCP协议特点三.TCP和UDP的区别思维导图一.UDP协议简介 UDP（User …

阅读更多...

【福建事业单位-推理判断】08逻辑论证-加强-原因解释-日常总结

【福建事业单位-推理判断】08逻辑论证-加强-原因解释-日常总结

福建事业单位-推理判断】08逻辑论证-加强一、加强题1.1 建立联系——搭桥1.2 补充论据必要条件（没它不行）补充论据（解释原因和举例论证） 总结二、原因解释题三、日常结论复习建议一、加强题加强的题型，一般只加强…

阅读更多...

替换开源LDAP，某科技企业用宁盾目录统一身份，为业务敏捷提供支撑

替换开源LDAP，某科技企业用宁盾目录统一身份，为业务敏捷提供支撑

客户介绍某高科技企业成立于2015年，是一家深耕于大物流领域的人工智能公司，迄今为止已为全球16个国家和地区，120余家客户打造智能化升级体验，场景覆盖海陆空铁、工厂等货运物流领域。该公司使用开源LDAP面临的挑战挑战1 开源…

阅读更多...

详解Kafka分区机制原理｜Kafka 系列二

详解Kafka分区机制原理｜Kafka 系列二

Kafka 系列第二篇，详解分区机制原理。为了不错过更新，请大家将本号“设为星标”。点击上方“后端开发技术”，选择“设为星标” ，优质资源及时送达上一篇文章介绍了 Kafka 的基本概念和术语，里面有个概念是分区(Part…

阅读更多...

高翔《自动驾驶中的SLAM技术》代码详解 — 第6章 2D SLAM

高翔《自动驾驶中的SLAM技术》代码详解 — 第6章 2D SLAM

目录 6.2 扫描匹配算法 6.2.1 点到点的扫描匹配 6.2 扫描匹配算法 6.2.1 点到点的扫描匹配 // src/ch6/test_2dlidar_io.cc // Created by xiang on 2022/3/15. // #include <gflags/gflags.h> #include <glog/logging.h> #include <opencv2/highgui.hpp>…

阅读更多...

解释器模式(Interpreter)

解释器模式(Interpreter)

解释器模式是一种行为设计模式，可以解释语言的语法或表达式。给定一个语言，定义它的文法的一种表示，然后定义一个解释器，使用该文法来解释语言中的句子。解释器模式提供了评估语言的语法或表达式的方式。 Interpreter is a behav…

阅读更多...

PB从入坑到放弃（六）动态SQL应用

PB从入坑到放弃（六）动态SQL应用

写在前面动态 SQL 语句是部分或者整个 SQL 语句在运行时才能确定，可以更好的与用户进行交互，大大提高了SQL的灵活性一、执行SQL语句 1.1 执行无入参SQL ① 语法 EXECUTE IMMEDIATE SQLStatement {USING TransactionObject} ;② 说明 SQLStatement …

阅读更多...

行业追踪，2023-08-07

行业追踪，2023-08-07

自动复盘 2023-08-07 凡所有相，皆是虚妄。若见诸相非相，即见如来。 k 线图是最好的老师，每天持续发布板块的rps排名，追踪板块，板块来开仓，板块去清仓，丢弃自以为是的想法，板块去留让…

阅读更多...

最新文章