减少内存占用的两种方法|torch.no_grad和disable_torch_init

方法区别

在 PyTorch 中,disable_torch_inittorch.no_grad() 是两种完全不同的机制,它们的作用和目的不同,以下是它们的区别:

1. disable_torch_init

  • 作用disable_torch_init 通常用于某些特定的框架或库中,目的是禁用 PyTorch 的默认初始化逻辑。例如,在某些情况下,框架可能希望自定义模型参数的初始化方式,而不是使用 PyTorch 默认的初始化方法。
  • 显存优化原理:禁用默认初始化可以减少初始化过程中不必要的显存分配。例如,某些框架可能会在初始化时创建额外的临时张量或执行复杂的初始化逻辑,这些操作可能会占用显存。通过禁用这些默认初始化,可以节省这部分显存。
  • 使用场景:通常用于框架内部的优化,或者在某些特定的模型加载或训练准备阶段。

2. torch.no_grad()

  • 作用torch.no_grad() 上下文管理器或装饰器,用于禁用梯度计算。在 torch.no_grad() 的上下文内,所有张量操作都不会记录梯度信息,也不会构建计算图。
  • 显存优化原理:在默认情况下,PyTorch 会为每个需要梯度的张量(requires_grad=True)保存中间结果,以便在反向传播时计算梯度。这些中间结果会占用显存。通过禁用梯度计算,torch.no_grad() 可以避免这些中间结果的存储,从而显著减少显存占用。
  • 使用场景:主要用于模型的推理(inference)阶段,或者在不需要计算梯度的场景中。例如,在模型评估、数据预处理、特征提取等场景中,torch.no_grad() 是常用的优化手段。

3. 具体区别

特性disable_torch_inittorch.no_grad()
作用范围禁用模型参数的初始化逻辑禁用梯度计算和计算图构建
显存优化原理减少初始化过程中不必要的显存分配避免存储中间梯度和计算图,减少显存占用
使用场景模型加载或训练准备阶段模型推理、评估、数据预处理等
是否影响模型结构可能影响模型参数的初始化方式不影响模型结构,仅影响梯度计算
是否需要手动启用需要框架或用户显式调用可通过上下文管理器或装饰器显式启用

4. 总结

  • disable_torch_init 是一种针对模型初始化过程的优化机制,主要用于减少初始化阶段的显存占用。
  • torch.no_grad() 是一种禁用梯度计算的工具,主要用于推理阶段,通过避免计算图的构建和梯度存储来减少显存占用。

两者虽然都可以减少显存占用,但作用机制和使用场景完全不同。在实际应用中,torch.no_grad() 是更常用且更通用的显存优化手段,而 disable_torch_init 更多是框架内部的优化策略。

(常见)在评估前@torch.no_grad()

源代码:

class no_grad(_DecoratorContextManager):r"""Context-manager that disabled gradient calculation.Disabling gradient calculation is useful for inference, when you are surethat you will not call :meth:`Tensor.backward()`. It will reduce memoryconsumption for computations that would otherwise have `requires_grad=True`.In this mode, the result of every computation will have`requires_grad=False`, even when the inputs have `requires_grad=True`.This context manager is thread local; it will not affect computationin other threads.Also functions as a decorator. (Make sure to instantiate with parenthesis.).. note::No-grad is one of several mechanisms that can enable ordisable gradients locally see :ref:`locally-disable-grad-doc` formore information on how they compare... note::This API does not apply to :ref:`forward-mode AD <forward-mode-ad>`.If you want to disable forward AD for a computation, you can unpackyour dual tensors.Example::>>> # xdoctest: +SKIP>>> x = torch.tensor([1.], requires_grad=True)>>> with torch.no_grad():...     y = x * 2>>> y.requires_gradFalse>>> @torch.no_grad()... def doubler(x):...     return x * 2>>> z = doubler(x)>>> z.requires_gradFalse"""def __init__(self) -> None:if not torch._jit_internal.is_scripting():super().__init__()self.prev = Falsedef __enter__(self) -> None:self.prev = torch.is_grad_enabled()torch.set_grad_enabled(False)def __exit__(self, exc_type: Any, exc_value: Any, traceback: Any) -> None:torch.set_grad_enabled(self.prev)

(放在评估函数里面)disable_torch_init()

源代码:

def disable_torch_init():"""Disable the redundant torch default initialization to accelerate model creation."""import torchsetattr(torch.nn.Linear, "reset_parameters", lambda self: None)setattr(torch.nn.LayerNorm, "reset_parameters", lambda self: None)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/896442.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据挖掘工程师的技术图谱和学习路径

数据挖掘工程师的技术图谱和学习路径: 1.基础知识 数据挖掘工程师是负责从大量数据中发现潜在模式、趋势和规律的专业人士。以下是数据挖掘工程师需要掌握的基础知识: 数据库知识:熟悉关系数据库和非关系数据库的基本概念和操作,掌握SQL语言。 统计学基础:了解统计学的基…

UE5 Computer Shader学习笔记

首先这里是绑定.usf文件的路径&#xff0c;并声明是用声明着色器 上面就是对应的usf文件路径&#xff0c;在第一张图进行链接 Shader Frequency 的作用 Shader Frequency 是 Unreal Engine 中用于描述着色器类型和其执行阶段的分类。常见的 Shader Frequency 包括&#xff1a…

提示学习(Prompting)

提示学习&#xff08;Prompting&#xff09;是一种利用预训练语言模型&#xff08;Pre-trained Language Models, PLMs&#xff09;来完成特定任务的方法。它的核心思想是通过设计特定的提示&#xff08;Prompt&#xff09;&#xff0c;将任务转化为预训练模型能够理解的形式&a…

解决单元测试 mock final类报错

文章目录 前言解决单元测试 mock final类报错1. 报错原因2. 解决方案3. 示例demo4. 扩展 前言 如果您觉得有用的话&#xff0c;记得给博主点个赞&#xff0c;评论&#xff0c;收藏一键三连啊&#xff0c;写作不易啊^ _ ^。   而且听说点赞的人每天的运气都不会太差&#xff0…

2025系统架构师(一考就过):案例之三:架构风格总结

软件架构风格是描述某一特定应用领域中系统组织方式的惯用模式&#xff0c;按照软件架构风格&#xff0c;物联网系统属于&#xff08; &#xff09;软件架构风格。 A:层次型 B:事件系统 C:数据线 D:C2 答案&#xff1a;A 解析&#xff1a; 物联网分为多个层次&#xff0…

数据如何安全“过桥”?分类分级与风险评估,守护数据流通安全

信息化高速发展&#xff0c;数据已成为企业的核心资产&#xff0c;驱动着业务决策、创新与市场竞争力。随着数据开发利用不断深入&#xff0c;常态化的数据流通不仅促进了信息的快速传递与共享&#xff0c;还能帮助企业快速响应市场变化&#xff0c;把握商业机遇&#xff0c;实…

Docker数据卷操作实战

什么是数据卷 数据卷 是一个可供一个或多个容器使用的特殊目录&#xff0c;它绕过 UFS&#xff0c;可以提供很多有用的特性: 数据卷 可以在容器之间共享和享用对 数据卷 的修改立马生效对 数据卷 的更新&#xff0c;不会影响镜像数据卷 默认会一直存在&#xff0c;即时容器被…

kafka stream对比flink

Kafka Streams 和 Apache Flink 虽然都支持实时计算&#xff0c;但它们的定位、架构和适用场景存在显著差异。选择哪一个取决于具体的需求、场景和技术栈。以下是两者的核心区别和适用场景分析&#xff1a; 1. 定位与架构差异 Kafka Streams 定位&#xff1a;轻量级库&#x…

二叉树的先序、中序和后序 【刷题反思】

1. 已知中序和后序&#xff0c;求前序 1.1 题目 题目描述&#xff1a;给一棵二叉树的中序和后序排列&#xff0c;求它的先序排列。 输入描述&#xff1a;共两行&#xff0c;均为大写字母组成的字符串&#xff0c;分别表示一棵二叉树的中序和后序 输入&#xff1a;BADC BDCA…

华宇TAS应用中间件与统信最新版本操作系统完成兼容互认证

近日&#xff0c;华宇TAS应用中间件与统信服务器操作系统经过技术迭代与优化&#xff0c;在原先UOS V20的基础上完成了UOS V25的兼容互认证。此次认证涵盖了众多主流的国产CPU平台&#xff0c;包括鲲鹏920、飞腾FT2000/64、飞腾腾云S2500等。 经过严格测试&#xff0c;双方产品…

Docker 搭建 Redis 数据库

Docker 搭建 Redis 数据库 前言一、准备工作二、创建 Redis 容器的目录结构三、启动 Redis 容器1. 通过 redis.conf 配置文件设置密码2. 通过 Docker 命令中的 requirepass 参数设置密码 四、Host 网络模式与 Port 映射模式五、检查 Redis 容器状态六、访问 Redis 服务总结 前言…

35. Spring Boot 2.1.3.RELEASE 应用监控【监控信息可视化】

在 Spring Boot 2.1.3.RELEASE 中实现监控信息可视化可以通过多种方式&#xff0c;下面为你详细介绍使用 Spring Boot Actuator 结合 Grafana 和 Prometheus 以及使用 Spring Boot Admin 这两种常见方法。 方法一&#xff1a;Spring Boot Actuator Grafana Prometheus 1. 添…

服务器间迁移conda环境

注意&#xff1a;可使用迁移miniconda文件 or 迁移yaml文件两种方式&#xff0c;推荐前者&#xff0c;基本无bug&#xff01; 一、迁移miniconda文件&#xff1a; 拷贝旧机器的miniconda文件文件到新机器: 内网拷贝&#xff1a;scp -r mazhf192.168.1.233:~/miniconda3 ~/ 外…

在VSCode中安装jupyter跑.ipynb格式文件

个人用vs用的较多&#xff0c;不习惯在浏览器单独打开jupyter&#xff0c;看着不舒服&#xff0c;直接上教程。 1、在你的环境中pip install ipykernel 2、在vscode的插件中安装jupyter扩展 3、安装扩展后&#xff0c;打开一个ipynb文件&#xff0c;并且在页面右上角配置内核 …

20250223下载并制作RTX2080Ti显卡的显存的测试工具mats

20250223下载并制作RTX2080Ti显卡的显存的测试工具mats 2025/2/23 23:23 缘起&#xff1a;我使用X99的主板&#xff0c;使用二手的RTX2080Ti显卡【显存22GB版本&#xff0c;准备学习AI的】 但是半年后发现看大码率的视频容易花屏&#xff0c;最初以为是WIN10经常更换显卡/来回更…

WordPress R+L Carrier Edition sql注入漏洞复现(CVE-2024-13481)(附脚本)

免责申明: 本文所描述的漏洞及其复现步骤仅供网络安全研究与教育目的使用。任何人不得将本文提供的信息用于非法目的或未经授权的系统测试。作者不对任何由于使用本文信息而导致的直接或间接损害承担责任。如涉及侵权,请及时与我们联系,我们将尽快处理并删除相关内容。 0x0…

深入了解 NAT 模式:网络地址转换的奥秘

深入了解 NAT 模式&#xff1a;网络地址转换的奥秘 在计算机网络的世界里&#xff0c;NAT 模式&#xff08;Network Address Translation&#xff0c;网络地址转换&#xff09;扮演着至关重要的角色。它就像是网络中的翻译官&#xff0c;在不同网络地址之间进行转换&#xff0…

Git版本控制系统---本地操作(万字详解!)

目录 git基本配置 认识工作区、暂存区、版本库 添加文件--情况一&#xff1a; 添加文件-情况二: 修改文件: 版本回退&#xff1a; git基本配置 1.初始化本地仓库&#xff0c;注意&#xff1a;一定要在一个目录下进行&#xff0c;一般都是新建一个文件夹&#xff0c;在文件…

Jupyter Notebook切换虚拟环境(Kernel管理)

我们在使用Jupyter Notebook的时候&#xff0c;打开文件发现只有一个Python3(ipykernel)&#xff0c;我们自己在conda中创建的虚拟环境为什么没有显示出来&#xff0c;今天我就来和大家一起讨论一下&#xff01; 在 Jupyter Notebook 中&#xff0c;kernel 是执行代码的核心。管…

【网络安全】常见的web攻击

1、SQL注入攻击 定义&#xff1a; 攻击者在HTTP请求中注入恶意的SQL代码&#xff0c;当服务器利用参数构建SQL语句的时候&#xff0c;恶意的SQL代码被一起构建,并在数据库中执行。 示例&#xff1a; 用户登录&#xff1a; 输入用户名xx&#xff0c; 密码 or 1 …