PyTorch 节省显存技巧:Activation Checkpointing

参考资料
  • 官方文档: https://pytorch.org/docs/2.0/checkpoint.html
  • 官方博客:https://medium.com/pytorch/how-activation-checkpointing-enables-scaling-up-training-deep-learning-models-7a93ae01ff2d

Activation Checkpointing 介绍

激活检查点 (Activation Checkpointing) 是一种用于减小内存占用的技术,代价是需要更多的计算资源。它利用一个简单的观察,即如果我们只是在需要时重新计算反向传播所需的中间张量,就可以避免保存这些中间张量。

目前在 PyTorch 中有两种 Activation Checkpointing 的实现,即可重新进入 (reentrant) 和不可重新进入(non-reentrant)。不可重新进入版本是后来实现的,以解决可重新进入检查点的一些限制,这些限制在 PyTorch 的官方文档中有详细说明。可以通过传递 use_reentrant 标志来指定使用哪个版本的检查点。目前,use_reentrant 标志是可选的,可重新进入版本是默认的。然而,在 2.1 版本中,不明确传递该标志将被弃用。在 PyTorch 的将来版本中,不可重新进入版本将成为默认值。

在本文中,我们首先提供一些关于 PyTorch 自动求导如何工作的一般背景。然后,我们探讨了激活检查点的新的不可重新进入实现,并将其与早期的可重新进入实现进行了比较。所呈现的实现将被简化以便于读者理解。

PyTorch 中的自动求导

PyTorch 中的自动求导

在我们深入讨论之前,让我们简要回顾一些后续需要的概念。

PyTorch 用于存储和操作数据的基本构建块是张量(tensor)。默认情况下,张量与带有 GPU 支持的 NumPy 数组没有太大区别。当一个张量的 .requires_grad 属性被设置为 True 时,自动求导引擎就会启动。

然后对张量应用的每个变换都会创建一个特殊的对象,该对象除了包含生成的张量外,还知道如何计算反向传播的转换。可以通过结果张量的 .grad_fn 属性访问该对象。

同样的对象还连接到其他类似的对象,所有这些对象都作为有向无环图(DAG)中的节点,称为计算图。当创建一个新节点时,自动求导通过使其 .next_functions 属性指向创建它的现有节点,将其添加到图中。

让我们关注一个具体的例子。在以下代码片段中:

a = torch.tensor([2.], requires_grad=True)
b = torch.tensor([3.], requires_grad=True)
c = a + b
d = c.sin()

cd 分别对应于加法和正弦函数的反向传播的节点。

ab 是直接创建而不是作为操作的一部分创建的张量,被称为叶子张量。

这样的节点具有一个特殊的 AccumulateGrad 节点,该节点具有一个指向它们张量的 .variable 属性。

一个有帮助的思考方式是将它们视为两个层次 - 一个用于张量,一个用于构建计算图的反向函数。一个层次(图中的底部)由不相互连接的张量组成,但可以通过 .grad_fn 属性连接到反向函数;另一个层次(图中的顶部)用于反向函数,这些函数不知道张量 - 除了 AccumulateGrad 特殊函数外 - 并使用 .next_functions 属性连接。

在这里插入图片描述

对具有 requires_grad 的张量执行的每个操作都会在计算图中创建一个新节点,这种行为可以在 torch.no_grad() 上下文管理器中禁用,并在内部的 torch.enable_grad() 上下文管理器中重新启用。

然而,并不是张量类的所有函数都会在计算图中创建节点 - 例如,torch.detach() 复制没有 .grad_fn 的张量,作为一个与任何计算图断开连接的新张量。

torch.nn 包中的更高级模块,如 LinearMultiheadAttention,在计算图中并不直接参与。相反,当它们被调用时,它们只是添加了它们由低级节点组成的图。

例如,考虑一个 Linear 块,它由多个操作组成,包括与权重张量的矩阵乘法和与偏置张量的加法:

x = torch.tensor([2.])
fc = nn.Linear(1, 1)
y = fc(x)

为了简化,将临时中间张量分组,这是它在内部的样子:
在这里插入图片描述

一旦构建了计算图,对 tensor.backward() 的调用 - 实际上是调用 torch.autograd.backward() - 将递归地计算梯度,直到存储了 .grad 的叶子节点。当这个过程停止时,计算图的角色结束并被丢弃(除非指定了 retain_graph=True)。

基于钩子的非可重入变体

激活检查点的非可重入变体利用了autograd的保存变量钩子机制。

以下是如何使用钩子的简单示例:

storage = []def pack(x):storage.append(x)return len(storage) - 1def unpack(x):return storage[x]x = torch.randn(1024, requires_grad=True)
with torch.autograd.graph.saved_tensors_hooks(pack, unpack):y = torch.square(x)
y.sum().backward()

在幕后,square 操作符保存了其输入以进行反向计算(因为 f(x) = x² 的导数是 2*x)。在这里,我们不是保存“大”张量,而是只存储其在图中的(轻量级)索引,并在以后使用该索引进行重构。尽管在这个简单的示例中实际张量也被存储了(因此没有节省空间),但这将成为激活检查点的实际非可重入版本的基础。

有了这个理解,让我们来探讨基于保存张量钩子的激活检查点的非可重入实现。为了清晰起见,它已经被简化,但整体结构保持不变:

class Frame:  # 用于共享变量的结构def __init__(self):self.recomputed = []self.count = 0class RecomputationHook(torch.autograd.graph.saved_tensors_hooks):def __init__(self, frame):def pack(x):frame.recomputed.append(x.detach())return x.detach()def unpack(X):  # 仅适用于更复杂的场景return xsuper().__init__(pack, unpack)class CheckpointHook(torch.autograd.graph.saved_tensors_hooks):def __init__(self, frame, run_function, args):def pack(unused_x): i = frame.countframe.count += 1return idef unpack(i):if not frame.recomputed:  # 仅一次,在反向传播期间解包第一个张量时with RecomputationHook(frame), torch.autograd.enable_grad():run_function(*args)res = frame.recomputed[i]frame.recomputed[i] = Nonereturn ressuper().__init__(pack, unpack)def checkpoint_without_reentrant(run_function, *args):with CheckpointHook(Frame(), run_function, args):res = run_function(*args)return res

在调用非可重入激活检查点时,函数的前向传递在 CheckpointHook 上下文管理器中运行。在此上下文管理器下,为反向传递打包和保存的任何张量都会被丢弃,并替换为占位符(这里我们任意使用其索引 i)。

在反向传递期间,尝试访问和解包其保存的张量的第一个反向函数会触发使用 RecomputationHook 重新计算 forward() 函数,该钩子截取任何保存的张量以将它们存储在 recomputed 列表中(从计算图中分离以避免引用循环)。重要的是要注意整个机制依赖于在前向和反向中按相同顺序访问 recomputed 张量。为确保这一点,实际的实现还包含保存/恢复全局状态的代码(例如,保留 RNG 状态,这对于确保像 Dropout 这样的模块在对 run_function 的两次调用中产生相同的输出很重要)。

这里未显示更复杂的情况 - 在实际代码中,每个变量的张量每个图只保存一次,并且还有一种早期停止机制以最小化不必要的计算。然而,总体结构是相同的。

torch 2.1 版本新特性

以下是2.1版本中的非可重入激活检查点的一些支持的情景:

  1. 嵌套检查点:在检查点内调用另一个被检查点的函数。这个功能允许用户在内存和计算之间做出更极端的权衡,可能将理论最小值进一步降低到 O(log(n))(在非嵌套情况下是 O(sqrt(n))):

    def inner1(x):...def inner2(x):...def outer(x):y = checkpoint(inner1, x)z = checkpoint(inner2, y)return za = torch.ones(1, requires_grad=True)
    out = checkpoint(outer, a)
    out.backward()
    
  2. 在检查点内调用 .grad()/.backward() 的支持:这对于高阶梯度计算很有用。

  3. 非确定性的改进检查和更好的调试性:从 torch 2.1 版本开始,将存储和检查基本张量元数据,以帮助验证原始和重新计算的前向调用必须以完全相同的顺序保存张量用于反向。此外,如果任何非确定性检查失败,用户可以使用 debug=True 运行检查点,这可以提供在原始运行和重新计算运行期间执行的操作的跟踪,以及在调用这些操作的时间点的堆栈跟踪,以帮助用户准确定位非确定性发生的地方。

  4. 在指定 retain_graph 时的内存节省改进

有关更多信息,请参阅文档。代码内还有一些详细的注释,详细说明了处理的各种情况,可能需要查阅以获得完整的理解。这个设计文档还包含一些关于为什么做出这些选择以及支持了哪些新情景的信息。

可重入变体

早期的实现,称为可重入变体,不使用保存的变量钩子,而是使用自定义的 autograd Function,修改了计算图。

由于官方实现包含了许多细节,我们只关注一个简化的版本:

class Checkpoint(torch.autograd.Function):@staticmethoddef forward(ctx, run_function, input):ctx.run_function = run_functionctx.save_for_backward(input)with torch.no_grad():output = run_function(input)return output@staticmethoddef backward(ctx, output_grad):run_function = ctx.run_functioninput = ctx.saved_tensorsdetached_input = input.detach()detached_input.requires_grad_(input.requires_grad)with torch.enable_grad():output = run_function(detached_input)torch.autograd.backward(output, output_grad)return None, input.grad

在前向传递中,我们计算给定输入上给定 run_function 模块的输出。由于调用在 with torch.no_grad() 上下文管理器内,不会创建中间节点和反向节点 - 操作的输出直接通过 CheckpointBackward 连接到输入的反向函数。

在反向传递中,我们首先加载传递给前向传递的对象。然后,我们分离输入并重新运行前向计算,这次在 torch.enable_grad() 上下文管理器中,以允许构建一个直到输出的计算图,然后我们通过该图反向传播以更新此块内的参数。请注意,我们必须返回两个值,一个是给 run_function,另一个是给 input,但前者是 None,因为模块不是可微分张量。

值得注意的是梯度计算不再是主要计算图的一部分 - 每次都会构建一个“迷你计算图”,在其中进行实际的梯度计算,而原始图只是协调和转发梯度。

下面以图表形式展示了这些动态:
请添加图片描述

内部图不是完全独立的 - 我们确实需要将 grad_output 传递给它,并将它计算的 input.grad 返回给外部图的其余部分。但是,当前块的所有参数,隐藏在 run_function 背后,都会在该内部 backward() 调用中得到其 .grad 属性的填充。

为简化起见,我们省略了一些详细信息,例如为第二次前向传递保存/恢复全局状态,允许不同数量的参数和输出,其中不是所有都是张量。

这个实现被称为可重入变体,因为它使用了嵌套的反向传递,在 PyTorch 术语中称为“可重入反向传递”。虽然使用嵌套的反向传递可能看起来很简单,但实际上,这个实现有一些限制,例如在某些情况下无法很好地与 DDP 和 FSDP 一起使用。

用法

幸运的是,这两种设计的复杂性都包装在一个简单易用的 API 中 - 要使用的新实现是通过 use_reentrant 标志指定的,其中使用 False(即新实现)将在将来的版本中成为默认值:

from torch.utils.checkpoint import checkpointcheckpoint(run_function, args, use_reentrant=False)

总结

本文介绍了 PyTorch 中的激活检查点技术,旨在减小内存占用,同时提供更多计算资源。其中详细讨论了 PyTorch 中的自动求导机制,以及两种激活检查点的实现方式:可重新进入(reentrant)和不可重新进入(non-reentrant)。特别关注了非可重新进入版本的新特性,包括嵌套检查点、在检查点内调用 .grad()/.backward() 的支持、非确定性检查和调试性的改进、在指定 retain_graph 时的内存节省等。同时,还介绍了可重新进入变体的实现方式,并提供了简单的用法示例。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/590359.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【致远OA】按人员编码获取所有待办事项

接口说明 按人员编码获取所有待办事项 兼容版本 since V7.0 请求方式 http请求方式:GET http://ip:port/seeyon/rest/affairs/pending/code/{memberCode} 如 http://127.0.0.1/seeyon/rest/affairs/pending/code/9981 效果参考 响应结果 参考对象实例&#x…

事件循环的理解

1.单线程 Js是一个单线程的语言,代码只能一行一行去执行,遇到同步的代码就直接执行了,如果遇到异步的代码怎么办? 不可能等到异步的代码执行完,在去执行后面同步的代码。 2.主线程 遇到同步的代码,就在主线程里面直接执行了。 3.任务队列 遇到异步的…

ROS TF坐标变换 - 静态坐标变换

目录 一、静态坐标变换(C实现)二、静态坐标变换(Python实现) 如前文所属,ROS通过广播的形式告知各模块的位姿关系,接下来详述这一机制的代码实现。 模块间的位置关系有两种类型,一种是相对固定…

Django开发3

Django开发3 Django开发编辑用户9.靓号管理9.1 表结构9.2 靓号列表9.3 新建靓号9.4 编辑靓号9.5 搜索手机号9.6 分页 10.时间插件11.ModelForm和BootStrap操作 各位小伙伴想要博客相关资料的话关注公众号:chuanyeTry即可领取相关资料! Django开发 部门管…

RK3588取经之路【序章】2024/01/01

文章目录 RK3588取经之路【序章】关于本文的规划 开篇开发板整体图外设介绍 结束 RK3588取经之路【序章】 2023年前入手买了这个广州英码出场的一款开发板EVM3588-A24EG-C-B2AA(裸板),花了2800左右,是不是脑子有点毛病&#xff0…

超详细YOLOv8目标检测全程概述:环境、训练、验证与预测详解

目录 yolov8导航 YOLOv8(附带各种任务详细说明链接) 搭建环境说明 不同版本模型性能对比 不同版本对比 模型参数解释 不同版本说明 训练 训练示意代码 训练用数据集与 .yaml 配置方法 .yaml配置 数据说明 数据集路径 训练参数说明 训练过程…

linux下docker搭建Prometheus +SNMP Exporter +Grafana进行核心路由器交换机监控

一、安装 Docker 和 Docker Compose https://docs.docker.com/get-docker/ # 安装 Docker sudo apt-get update sudo apt-get install -y docker.io# 安装 Docker Compose sudo apt-get install -y docker-compose二、创建配置文件及测试平台是否正常 1、选个文件夹作为自建…

Airtest的iOS实用接口介绍

前段时间Airtest更新了1.3.0.1版本,里面涉及非常多的iOS功能新增和改动,今天想详细跟大家聊一下里面的iOS设备接口。 PS:本文示例均使用本地连接的iOS设备,Airtest版本为1.3.0.1 。 安装接口:install、install_app …

2.1 DFMEA步骤一:策划和准备

2.1.1 目的 设计FMEA的“策划和准备”步骤旨在确定将要执行的FMEA类型,以及根据进行中的分析类型(如系统、子系统或组件)明确每个FMEA的范围。设计FMEA(DFMEA)的主要目标包括: 项目识别项目计划:涵盖目的、时间安排、团队、任务和工具(5T)分析边界:界定分析的范围,…

GPT4-AIl本地部署-chat AI本地使用

文章目录 GPT4-AIl本地部署GPT4客户端下载地址:对应的下载下载后的文件点击安装,改一下文件存放路径,下面都是默认下一步进度条100%后,点击完成 安装完桌面生成图标,点击选择都是NO,不进行数据上传点击后&a…

大数据 - 大数据入门第一篇 | 关于大数据你了解多少?

🐶1.1 概述 大数据(BigData):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 大数据主要解决、海量数据的采…

【C++】命名空间、输入输出、缺省参数和函数重载详解

文章目录 前言命名空间命名空间的定义命名空间的使用 C输入输出缺省参数缺省参数定义缺省参数分类 函数重载函数重载的概念函数名修饰规则extern "C"的使用 总结 前言 提示:这里可以添加本文要记录的大概内容: C 是一门强大而灵活的编程语言…

Embedding模型在大语言模型中的重要性

引言 随着大型语言模型的发展,以ChatGPT为首,涌现了诸如ChatPDF、BingGPT、NotionAI等多种多样的应用。公众大量地将目光聚焦于生成模型的进展之快,却少有关注支撑许多大型语言模型应用落地的必不可少的Embedding模型。本文将主要介绍为什么…

C ++类

定义一个Person类,私有成员int age,string &name,定义一个Stu类,包含私有成员double *score,写出两个类的构造函数、析构函数、拷贝构造和拷贝赋值函数,完成对Person的运算符重载(算术运算符、条件运算…

【ROS2】MOMO的鱼香ROS2(四)ROS2入门篇——ROS2节点通信之话题与服务

ROS2节点通信之话题与服务点 引言1 理解从通信开始1.1 TCP(传输控制协议)1.2 UDP(用户数据报协议)1.3 基于共享内存的IPC方式 2 ROS2话题2.1 ROS2话题指令2.2 话题之RCLPY实现2.2.1 编写发布者2.2 2 编写订阅者2.2.3 运行测试 3 R…

OSG读取和添加节点学习

之前加载了一个模型,代码是, osg::Group* root new osg::Group(); osg::Node* node new osg::Node(); node osgDB::readNodeFile("tree.osg"); root->addChild(node); root是指向osg::Group的指针; node是 osg:…

字节高级Java面试真题

今年IT寒冬,大厂都裁员或者准备裁员,作为开猿节流主要目标之一,我们更应该时刻保持竞争力。为了抱团取暖,林老师开通了《知识星球》,并邀请我阿里、快手、腾讯等的朋友加入,分享八股文、项目经验、管理经验…

appium入门基础

介绍 appium支持在不同平台的UI自动化,如web,移动端,桌面端等。还支持使用java,python,js等语言编写自动化代码。主要用于自动化测试脚本,省去重复的手动操作。 Appium官网 安装 首先必须环境有Node.js用于安装Appium。 总体来…

设计模式—行为型模式之模板方法模式

设计模式—行为型模式之模板方法模式 在模板模式(Template Pattern)中,一个抽象类公开定义了执行它的方法的方式模板。它的子类可以按需要重写方法实现,但调用将以抽象类中定义的方式进行。 模板方法(Template Metho…

TransNeXt:稳健的注视感知ViT学习笔记

论文地址:https://arxiv.org/pdf/2311.17132.pdf 代码地址: GitHub - DaiShiResearch/TransNeXt: Code release for TransNeXt model 可以直接在ImageNet上训练的分类代码:GitHub - athrunsunny/TransNext-classify 代码中读取数据的部分修改…