accelerate 笔记:梯度同步的时间效率

1 介绍 

  • PyTorch 的分布式模块通过在系统中所有GPU之间进行来回通信来操作。
    • 这种通信需要时间,并且确保所有进程了解彼此的状态
    • 在使用ddp模块时会在特定的触发点发生
      • 这些触发点被添加到PyTorch模型中,特别是它们的 forward() 和 backward() 方法中
  • 当通过 optimizer.step() 更新模型参数时。如果不进行梯度累积,所有模型实例需要更新它们计算、汇总和更新的梯度,然后才能继续到下一批数据。
    • 这种无谓的进程间通信可能会导致显著的减速
  • 进行梯度累积时,会累积 n 个损失梯度并跳过 optimizer.step(),直到达到 n 批次
  • 如果不注意梯度同步和GPU通信,当这些GPU在不必要的时期相互通信时,可能会浪费大量时间

1.1直观感受一下速度的差异

先直观看一下不进行任何改进的话,每个batch都进行通信,会是什么样的速度:

考虑以下设置:

  • 两个单GPU节点、一个有两个GPU的节点
  • 每个GPU都是T4,并托管在GCP上
  • 每个GPU的批次大小为16,梯度每4步累积一次

比较的内容:

  • 基线:没有使用任何同步实践【同步实践后面会说】
  • no_sync使用不当:只在backward调用时使用no_sync,而不是在forward
  • 正确使用no_sync:正确使用no_sync模式
  • 使用accumulate:正确使用accumulate()

以下是每种设置在单节点和双节点设置上迭代29批数据的平均秒数:

2 解决方法1:no_sync

  • 通过 no_sync 上下文管理器
  • 在此上下文管理器下,PyTorch 将跳过在调用 .backward() 时同步梯度
  • 此上下文管理器外的第一次调用 .backward() 将触发同步

另一种写法是:

3 解决方法2:accumulate 梯度累计

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/22733.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2024-06-05 Android app jni里面c语言函数申请的局部变量数组过大会导致程序崩溃的问题分析

一、下面是一个app jni里面一个函数,函数里面定义一个数组,实际运行的时候发现数组过大的时候会导致app崩溃。 JNIEXPORT jint JNICALL JNI_FUNCTION(native_1getcapture_1data)(JNIEnv *env, jobject obj,jbyteArray des_data,jbyteArray src_data,jin…

Linux 多线程 生产者消费者 问题

在 Linux 系统中,生产者和消费者问题是一个经典的多线程同步问题,用于描述如何在多线程环境中协调多个线程对共享资源的访问。这个问题通常涉及两个类型的线程:生产者线程和消费者线程。生产者线程负责生成数据并将其放入缓冲区,而…

3D开发工具HOOPS助力PLM/PDM系统创新,高效实现复杂数据精细处理、3D模型交互可视化!

在现代制造和工程领域,PLM(产品生命周期管理)和PDM(产品数据管理)已成为企业优化流程和提升竞争力的关键工具。 随着技术的飞速发展,PLM和PDM应用程序需要更先进的工具来处理复杂的CAD数据、实现高效的3D可…

九泰智库-注册讲堂 | 浙江省eRPS系统上线后提交文件要求

浙械eRPS系统(https://ylqx.certca.cn/ylqxonline/)已正式上线启用。 在过渡期内,注册申请人需要同时进行线上医疗器械注册电子申报和提交纸质资料,以确保审评审批工作的顺利进行。过渡期结束时间另行通知。 以下是对电子申报资料格式要求的总结&#…

从零开始:如何通过美颜SDK构建自己的直播美颜工具

今天,我将详细介绍如何通过美颜SDK从零开始构建自己的直播美颜工具。 一、了解美颜SDK 什么是美颜SDK 开发者可以通过集成SDK,快速在应用中实现这些功能,而无需从头编写复杂的图像处理算法。 选择合适的美颜SDK 选择时可以根据以下几个方…

南京观海微电子-----555函数信号发生器电路分析

电路图 整个电路的工作过程: 首先,555芯片通过外围电阻电容组成一个多谐振荡器,输出一个方波。 555多谐振荡器输出方波后,经电容C1耦合到由R3,C3组成的积分网络。输出三角波。这也是一个电容充放电的过程&#xff0c…

学生问的一道CSS3媒体查询,实现响应式设计的题

目录 题目要求: 解题思路: 解题: 1)大屏、3个DIV水平排列 2)中屏、前2个DIV水平占一半,第三个另起一行,宽度占满 3)小屏,3个DIV铺满,垂直排列 题目要求&…

2024年端午节放假通知

致尊敬的客户以及全体同仁: 2024年端午节将至,根据国务院办公厅通知精神,结合公司的实际情况,现将放假事宜通知如下: 2024年6月8日(星期六)至6月10日(星期一)&#xff…

科普丨什么是数字孪生灌区(平台)?如何建设?有何好处?

在农业发展的新时代,数字孪生灌区的概念逐渐走进大众视野,成为推动农业现代化、提升粮食安全保障能力的关键力量。那么,究竟什么是数字孪生灌区?它又是如何建设的?又能为我们带来哪些好处呢? 数字孪生灌区…

Java基础教程 - 10 异常

更好的阅读体验:点这里 ( www.doubibiji.com ) 10 异常 10.1 异常的概念 什么是异常? 异常(Exceptions)是指在程序执行过程中出现的错误或异常情况,导致程序无法继续正常执行的事件。 但是…

R_AARCH64_ADR_PREL_PG_HI21问题说明

目录 问题现象: 问题原因 问题机理 问题现象: 客户现场加载out文件出现如下问题: 打印“Relocation of type ‘R_AARCH64_ADR_PREL_PG_HI22…..’”,明确是ARDP指令引起的问题 问题原因 ARDP的寻址范围是4GB范围,加载的位置…

Linux C语言学习:数据类型

一、 为什么要引入数据类型 • 计算机中每个字节都有一个地址(类似门牌号) • CPU通过 地址 来访问这个字节的空间 0x20001103 1 0 0 1 0 0 1 1 0x20001102 1 1 1 0 1 1 1 0 0x20001101 1 1 1 1 0 1 0 1 0x20001100 0 …

密码学基本概念(补充)

BiBa模型的*特性规则:主体不能修改更高完整级的客体(主题不能向上写) Diffie-Hellman密钥交换协议的安全性基于求解离散对数的困难性,既对于C^d M mod P,在已知C和P的前提下,由d求M很容易,但是…

Transformer系列:图文详解KV-Cache,解码器推理加速优化

前言 KV-Cache是一种加速Transformer推理的策略,几乎所有自回归模型都内置了KV-Cache,理解KV-Cache有助于更深刻地认识Transformer中注意力机制的工作方式。 自回归推理过程知识准备 自回归模型采用shift-right的训练方式,用前文预测下一个…

EditPlus 输入错误: 没有文件扩展“.js”的脚本引擎

原因 JS扩展名的文件被其他软件关联了,需要取消关联 解决办法 cmd窗口,输入 regedit 进入注册表, 打开注册表编辑器,定位[HKEY_CLASSES_ROOT\.js]这一项,双击默认值将其改为“JSFile”即可

Codeforces Round 948 (Div. 2) A~D

A. Little Nikita (思维) 题意: 小 A A A决定用一些立方体建一座塔。一开始,塔上没有任何立方体。在一次移动中,小 A A A要么正好把 1 1 1 个立方体放到塔顶,要么正好从塔顶移走 1 1 1 个立方体。存不存…

信息可溯、安全可控 | SW-LIMS 采测分离监测模式解析

数据的准确性在环境监测过程中至关重要,为了确保环监数据的真实有效,并满足“全程留痕、全程监控、信息可溯、安全可控”的要求,采测分离监测模式是一个有效的解决方案。 这种模式通过将样品采集和样品检测交由不同的单位完成,形成了相互独立、相互监督的工作机制,有助于减少潜…

LeetCode刷题之HOT100之跳跃游戏

2024/6/5 今天下起了绵密细雨,空气清新很多。昨晚做的梦较魔幻,可能也是导致我睡觉时业已破损的小米手环8的表腕断裂的因素之一。来到实验室,打扫一下卫生,听听歌,做道题。好不自在呀! 1、题目描述 2、逻辑…

mysql中optimizer trace的作用

大家好。对于MySQL 5.6以及之前的版本来说,查询优化器就像是一个黑盒子一样,我们只能通过EXPLAIN语句查看到最后 优化器决定使用的执行计划,却无法知道它为什么做这个决策。于是在MySQL5.6以及之后的版本中,MySQL新增了一个optimi…

我国液碱产量逐渐增长 行业集中度有望不断提升

我国液碱产量逐渐增长 行业集中度有望不断提升 液碱是由氢氧化钠(NaOH)、氢氧化钾(KOH)等化合物以及水组成的一种碱性化合物。液碱的相对分子质量为40.00,密度为1.318g/cm,在常温常压下多表现为一种无色、无…