Gradient-checkpointing的原理

Gradient-checkpointing的原理

pingmian/2025/7/16 4:38:15/文章来源:https://blog.csdn.net/smartcat2010/article/details/139220291

原文：

将更大的网络安装到内存中。|by 雅罗斯拉夫·布拉托夫 |张量流 |中等 (medium.com)

前向传播时，隔几层就保留一层activation数据，其余层的activation都释放掉；

反向传播时，从最近的checkpoint去重新跑forward，这次跑的不删除；计算梯度每用完一层，才释放掉该层的activation；

N层网络，使用sqrt(N)个checkpoint，activation内存峰值是2*sqrt(N)，计算额外增加N层的forward计算；

一般大模型中，该功能增加20%计算时间，减少20%显存占用；

更激进的做法：如果有SSD等高速存储，可以将所有activation层落盘，backward时从SSD中load进显存，每次只load一层用完即删；

最激进的做法：model weights、optimizer states、lr等，也落盘；随用随读；

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/pingmian/16130.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

React 如何自定义 Hooks

React 如何自定义 Hooks

自定义 Hooks React 内部自带了很多 Hooks 例如 useState、useEffect 等等，那么我们为什么还要自定义 Hooks？使用 Hooks 的好处之一就是重用，可以将代码从组件中抽离出来定义为 Hooks，而不用每个组件中重复去写相同的代码。首先是…

阅读更多...

Ps：消失点滤镜 - 测量工具

Ps：消失点滤镜 - 测量工具

Ps菜单：滤镜/消失点 Filter/Vanishing Point 快捷键：Ctrl Alt V “消失点”滤镜中的测量工具 Measure Tool用于在透视平面内测量图像中对象的大小，适用于建筑师、设计师、法医和木工等需要精确测量的用户。快捷键：R ◆ ◆ ◆…

阅读更多...

基于springboot+vue的4S店车辆管理系统

基于springboot+vue的4S店车辆管理系统

开发语言：Java框架：springbootJDK版本：JDK1.8服务器：tomcat7数据库：mysql 5.7（一定要5.7版本）数据库工具：Navicat11开发软件：eclipse/myeclipse/ideaMaven包：…

阅读更多...

CMS Full GC流程以及调优配置

CMS Full GC流程以及调优配置

个人博客 CMS Full GC流程以及调优配置 | iwts’s blog CMS CMS 收集器是以实现最短 STW 时间为目标的收集器，所以对于偏业务的后台开发而言，基本上都无脑选CMS了。多线程收集器，工作在老年代，采用标记清除算法。比较特殊&am…

阅读更多...

React开发必须掌握这些es6语法-03

React开发必须掌握这些es6语法-03

箭头函数其实就是java的lamda编程，它的特点是单向无环流，没有变量，源数据状态不能被改变。基本语法 ()> {} //表示一个空函数，和function(){}功能一样，如果只有一行语句则，{}可省略 lef fn arg &g…

阅读更多...

【QNX】Qnx IPC通信 Message-passing

【QNX】Qnx IPC通信 Message-passing

Qnx IPC通信 Message-passing Message-passing介绍 QNX提供了多种IPC(Interprocess Communication )通信方式，包括Message-passing、Plus（脉冲）、Event、Signal、共享内存、Pipe，当然还有socket。 Message-passing是Qnx IPC的主…

阅读更多...

机器学习 - 特征预处理 - 分箱

机器学习 - 特征预处理 - 分箱

分箱（Binning）是一种数据预处理技术，将连续变量分割成离散的组别或区间，有助于减少数据的噪音，提高模型的稳定性。以下是五种常见的分箱方法及其详细介绍： 1. 卡方分箱（Chi-square Binning&…

阅读更多...

《Fundamentals of Power Electronics》——重要量1/（1+T）和T/（1+T）及闭环传递函数的构造

《Fundamentals of Power Electronics》——重要量1/（1+T）和T/（1+T）及闭环传递函数的构造

阅读更多...

【数据结构与算法经典例题】判断链表是否带环

【数据结构与算法经典例题】判断链表是否带环

💓 博客主页：倔强的石头的CSDN主页 📝Gitee主页：倔强的石头的gitee主页 ⏩ 文章专栏：数据结构与算法刷题系列（C语言） 期待您的关注目录

阅读更多...

渗透测试框架之CobaltStrike，Metasploit域名上线隐藏IP

渗透测试框架之CobaltStrike，Metasploit域名上线隐藏IP

概述为什么要隐藏IP 在拿下了目标机之后，目标机在内网里面，使用msf或者CS时，用自己的VPS做服务器的话，导致很容易被溯源。域名上线原理当我们访问域名时会经过域名解析域名解析就是域名到IP地址的转换过程，那么…

阅读更多...

头歌传送指令第1关：传送指令 mov

头歌传送指令第1关：传送指令 mov

编程要求根据下方的所给的汇编代码，在右侧编辑器的代码文件的 Begin - End 区域内补充 C 语言代码。 mov %esp,%ebpand $0xfffffff0,%espsub $0x20,%espmovl $0xa,0x18(%esp)mov 0x18(%esp),%eaxmov %eax,0x1c(%esp)mov 0x1c(%esp),%eaxmov %eax,0x8(%esp)mov 0x18…

阅读更多...

dubbo复习：（9）配置中心的大坑，并不能像spring cloud那样直接从配置中心读取自定义的配置

dubbo复习：（9）配置中心的大坑，并不能像spring cloud那样直接从配置中心读取自定义的配置

配置中心只是为 Dubbo 配置提供管理使用的（比如配置服务超时时间等)。不要尝试通过Value类似的方式从dubbo 配置中心(比如nacos、zookeeper、Apollo)来获取数据 https://github.com/apache/dubbo/issues/11200可以在application.yml中主要写注册中心的配置&#xf…

阅读更多...

【深度学习基础】NumPy数组库的使用

【深度学习基础】NumPy数组库的使用

目录写在开头一、数组的类型与维度数组的类型数组的维度二、数组的创建递增数组同值数组随机数数组三、数组的索引访问/修改单个元素花式索引数组的切片四、数组的变形数组的转置数组的翻转数组的形状改变数组的拼接五、数组的运算数…

阅读更多...

Linux系统启动原理

Linux系统启动原理

Linux系统启动原理及故障排除 Centos6系统启动过程修改系统启动级别 vim /etc/inittabCentos7启动流程加载BIOS信息，进行硬件检测根据BIOS设定读取设备中的MBR，加载Boot loader 加载内核，内核初始化以后以模块的形式动态加载硬件并且加…

阅读更多...

FFmpeg的流程

FFmpeg的流程

文章目录前序代码结构FFmpeg.cffmpeg_opt.c 小结前序之前看过FFmpeg的各种命令，然后不是很理解。相信很多人都不是很理解，毕竟，单纯的去记住那些命令行本身就需要很大的内存，我们的大脑内存又有限，所以&#xff0c…

阅读更多...

java “错误：编码GBK 的不可映射字符”

java “错误：编码GBK 的不可映射字符”

环境：JDK-17 本机编码：utf-8 代码编码：GBK 错误：java “错误：编码GBK 的不可映射字符” 解决1：记事本打开java源文件，另存为选择ANSI编码解决2：复制代码再将编码格式改为utf-8,…

阅读更多...

内网环境基础

内网环境基础

什么是内网渗透? 在得到webshell后下一步渗透就是内网渗透内网渗透就是拿到企业或者公司的内网权限，然后从内网得到最有价值的战果。内网渗透和外网渗透有啥区别? 内网渗透：比如公司内部局域网或者酒店内部局域网等。从内部寻找安全问题外网渗…

阅读更多...

错题本之＜数据结构＞

错题本之＜数据结构＞

已知指针 p 指向单向不循环链表中的某一个节点，且不知道头结点。问：如何删除 p 指向的节点？ 答： 如果 p 指向的不是最后一个节点定义一个指针 q 保存 p->next; 然后将 q 的数据域和指针域都覆盖到 p 指向的节点中最后释放 …

阅读更多...

java欢迪迈手机商城设计与实现源码(springboot+vue+mysql)

java欢迪迈手机商城设计与实现源码(springboot+vue+mysql)

风定落花生，歌声逐流水，大家好我是风歌，混迹在java圈的辛苦码农。今天要和大家聊的是一款基于springboot的欢迪迈手机商城设计与实现。项目源码以及部署相关请联系风歌，文末附上联系信息。项目简介： 欢迪迈手机商城…

阅读更多...

[emailprotected]（10）HOC高阶组件和横切关注点

[emailprotected]（10）HOC高阶组件和横切关注点

目录 1，什么是HOC2，什么是横切关注点2.1，简单理解2.2，常见解决方式 3，HOC 举例3.1，全局功能3.2，小范围使用 4，HOC 使用注意点4.1，不要在 render 中使用4.2，不…

阅读更多...

最新文章