accelerate 笔记:梯度同步的时间效率

1 介绍 

  • PyTorch 的分布式模块通过在系统中所有GPU之间进行来回通信来操作。
    • 这种通信需要时间,并且确保所有进程了解彼此的状态
    • 在使用ddp模块时会在特定的触发点发生
      • 这些触发点被添加到PyTorch模型中,特别是它们的 forward() 和 backward() 方法中
  • 当通过 optimizer.step() 更新模型参数时。如果不进行梯度累积,所有模型实例需要更新它们计算、汇总和更新的梯度,然后才能继续到下一批数据。
    • 这种无谓的进程间通信可能会导致显著的减速
  • 进行梯度累积时,会累积 n 个损失梯度并跳过 optimizer.step(),直到达到 n 批次
  • 如果不注意梯度同步和GPU通信,当这些GPU在不必要的时期相互通信时,可能会浪费大量时间

1.1直观感受一下速度的差异

先直观看一下不进行任何改进的话,每个batch都进行通信,会是什么样的速度:

考虑以下设置:

  • 两个单GPU节点、一个有两个GPU的节点
  • 每个GPU都是T4,并托管在GCP上
  • 每个GPU的批次大小为16,梯度每4步累积一次

比较的内容:

  • 基线:没有使用任何同步实践【同步实践后面会说】
  • no_sync使用不当:只在backward调用时使用no_sync,而不是在forward
  • 正确使用no_sync:正确使用no_sync模式
  • 使用accumulate:正确使用accumulate()

以下是每种设置在单节点和双节点设置上迭代29批数据的平均秒数:

2 解决方法1:no_sync

  • 通过 no_sync 上下文管理器
  • 在此上下文管理器下,PyTorch 将跳过在调用 .backward() 时同步梯度
  • 此上下文管理器外的第一次调用 .backward() 将触发同步

另一种写法是:

3 解决方法2:accumulate 梯度累计

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/22733.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2024-06-05 Android app jni里面c语言函数申请的局部变量数组过大会导致程序崩溃的问题分析

一、下面是一个app jni里面一个函数,函数里面定义一个数组,实际运行的时候发现数组过大的时候会导致app崩溃。 JNIEXPORT jint JNICALL JNI_FUNCTION(native_1getcapture_1data)(JNIEnv *env, jobject obj,jbyteArray des_data,jbyteArray src_data,jin…

Linux 多线程 生产者消费者 问题

在 Linux 系统中,生产者和消费者问题是一个经典的多线程同步问题,用于描述如何在多线程环境中协调多个线程对共享资源的访问。这个问题通常涉及两个类型的线程:生产者线程和消费者线程。生产者线程负责生成数据并将其放入缓冲区,而…

3D开发工具HOOPS助力PLM/PDM系统创新,高效实现复杂数据精细处理、3D模型交互可视化!

在现代制造和工程领域,PLM(产品生命周期管理)和PDM(产品数据管理)已成为企业优化流程和提升竞争力的关键工具。 随着技术的飞速发展,PLM和PDM应用程序需要更先进的工具来处理复杂的CAD数据、实现高效的3D可…

九泰智库-注册讲堂 | 浙江省eRPS系统上线后提交文件要求

浙械eRPS系统(https://ylqx.certca.cn/ylqxonline/)已正式上线启用。 在过渡期内,注册申请人需要同时进行线上医疗器械注册电子申报和提交纸质资料,以确保审评审批工作的顺利进行。过渡期结束时间另行通知。 以下是对电子申报资料格式要求的总结&#…

从零开始:如何通过美颜SDK构建自己的直播美颜工具

今天,我将详细介绍如何通过美颜SDK从零开始构建自己的直播美颜工具。 一、了解美颜SDK 什么是美颜SDK 开发者可以通过集成SDK,快速在应用中实现这些功能,而无需从头编写复杂的图像处理算法。 选择合适的美颜SDK 选择时可以根据以下几个方…

南京观海微电子-----555函数信号发生器电路分析

电路图 整个电路的工作过程: 首先,555芯片通过外围电阻电容组成一个多谐振荡器,输出一个方波。 555多谐振荡器输出方波后,经电容C1耦合到由R3,C3组成的积分网络。输出三角波。这也是一个电容充放电的过程&#xff0c…

第44集《摄大乘论》

请大家打开《讲义》第一四三页,我们看第一行的地方: 庚一、地前位 谓此菩萨,不着财位,不犯尸罗,于苦无动,于修无懈。于如是等散动因中不现行时,心专一境,便能如理简择诸法&#xf…

学生问的一道CSS3媒体查询,实现响应式设计的题

目录 题目要求: 解题思路: 解题: 1)大屏、3个DIV水平排列 2)中屏、前2个DIV水平占一半,第三个另起一行,宽度占满 3)小屏,3个DIV铺满,垂直排列 题目要求&…

2024年端午节放假通知

致尊敬的客户以及全体同仁: 2024年端午节将至,根据国务院办公厅通知精神,结合公司的实际情况,现将放假事宜通知如下: 2024年6月8日(星期六)至6月10日(星期一)&#xff…

科普丨什么是数字孪生灌区(平台)?如何建设?有何好处?

在农业发展的新时代,数字孪生灌区的概念逐渐走进大众视野,成为推动农业现代化、提升粮食安全保障能力的关键力量。那么,究竟什么是数字孪生灌区?它又是如何建设的?又能为我们带来哪些好处呢? 数字孪生灌区…

Java基础教程 - 10 异常

更好的阅读体验:点这里 ( www.doubibiji.com ) 10 异常 10.1 异常的概念 什么是异常? 异常(Exceptions)是指在程序执行过程中出现的错误或异常情况,导致程序无法继续正常执行的事件。 但是…

R_AARCH64_ADR_PREL_PG_HI21问题说明

目录 问题现象: 问题原因 问题机理 问题现象: 客户现场加载out文件出现如下问题: 打印“Relocation of type ‘R_AARCH64_ADR_PREL_PG_HI22…..’”,明确是ARDP指令引起的问题 问题原因 ARDP的寻址范围是4GB范围,加载的位置…

Linux C语言学习:数据类型

一、 为什么要引入数据类型 • 计算机中每个字节都有一个地址(类似门牌号) • CPU通过 地址 来访问这个字节的空间 0x20001103 1 0 0 1 0 0 1 1 0x20001102 1 1 1 0 1 1 1 0 0x20001101 1 1 1 1 0 1 0 1 0x20001100 0 …

密码学基本概念(补充)

BiBa模型的*特性规则:主体不能修改更高完整级的客体(主题不能向上写) Diffie-Hellman密钥交换协议的安全性基于求解离散对数的困难性,既对于C^d M mod P,在已知C和P的前提下,由d求M很容易,但是…

js:关于颜色处理的一些常用函数

解析字符串css样式 const themeColor --btn-radius: 44rpx;--theme-color: #41c2a6;--theme-color-op: rgba(55, 176, 172, 0.3);/*** 根据key获取value* param {string} themeColor * param {string} key * returns value*/ const getThemeColor (themeColor, key) > {c…

Transformer系列:图文详解KV-Cache,解码器推理加速优化

前言 KV-Cache是一种加速Transformer推理的策略,几乎所有自回归模型都内置了KV-Cache,理解KV-Cache有助于更深刻地认识Transformer中注意力机制的工作方式。 自回归推理过程知识准备 自回归模型采用shift-right的训练方式,用前文预测下一个…

刷题记录(20240605)

1.数组构造 题目描述 小红的数组构造小红希望你构造一个数组满足以下条件: 1.数组共有 n个元素,且所有元素两两不相等。 2.所有元素的最大公约数等于 k。 3.所有元素之和尽可能小。请你输出数组元素之和的最小值。 输入描述: 两个正整数 n 和 k。 输出描述&#xff…

EditPlus 输入错误: 没有文件扩展“.js”的脚本引擎

原因 JS扩展名的文件被其他软件关联了,需要取消关联 解决办法 cmd窗口,输入 regedit 进入注册表, 打开注册表编辑器,定位[HKEY_CLASSES_ROOT\.js]这一项,双击默认值将其改为“JSFile”即可

记一次Python matplotlib使用ffmpeg和imagemagick错误

问题出现 朋友找我画一个摆线图,手工画起来抓急,于是求助于程序,想把绘制动画表达出来发给朋友,用ffmpeg和imagemagick分别存储视频和动图格式,结果出现如下两种错误: MovieWriter ffmpeg unavailable; us…

amd64

MD64,或"x64",是一种64位元的电脑处理器架构。它是基于现有32位元的x86架构,由AMD公司所开发,应用AMD64指令集的自家产品有Athlon(速龙) 64、Athlon 64 FX、Athlon 64 X2、Turion(炫龙) 64、Opteron(皓龙)、Sempron(闪龙…