Megatron-DeepSpeed与Megatron-LM在reduce grad上的差异

Megatron-DeepSpeed与Megatron-LM在reduce grad上的差异

  • 一.Megatron-DeepSpeed 实现【deepspeed/runtime/engine.py】
  • 二.ModelLink 实现【ParamAndGradBuffer】
    • 1.ParamAndGradBuffer功能介绍
    • 2.实现原理
      • A.分配一大块内存
      • B.获取视图
      • C.all_reduce grad

测试DP=1,TP=2,PP=1,MBS=1,zero_stage=0时Megatron-DeepSpeed与Megatron-LM的性能差异
发现它们在处理gradients时方法不同
目前Megatron-DeepSpeed还没有合入Megatron-LM ParamAndGradBuffer的修改

一.Megatron-DeepSpeed 实现【deepspeed/runtime/engine.py】

flatten->all_reduce->unflatten 【二次IO】

Megatron-DeepSpeed链接

def allreduce_bucket(self, bucket, dp_group):tensor = self.flatten(bucket)tensor_to_allreduce = tensorif self.communication_data_type != tensor.dtype:tensor_to_allreduce = tensor.to(self.communication_data_type)if self.postscale_gradients():if self.gradient_predivide_factor() != 1.0:tensor_to_allreduce.mul_(1.0 / self.gradient_predivide_factor())dist.all_reduce(tensor_to_allreduce, group=dp_group)if self.gradient_average:if self.gradient_predivide_factor() != dist.get_world_size(group=dp_group):tensor_to_allreduce.mul_(self.gradient_predivide_factor() / dist.get_world_size(group=dp_group))else:tensor_to_allreduce.mul_(1. / dist.get_world_size(group=dp_group))dist.all_reduce(tensor_to_allreduce, group=dp_group)if self.communication_data_type != tensor.dtype and tensor is not tensor_to_allreduce:tensor.copy_(tensor_to_allreduce)return tensordef allreduce_and_copy(self, small_bucket, dp_group):allreduced = self.allreduce_bucket(small_bucket, dp_group)for buf, synced in zip(small_bucket, self.unflatten(allreduced, small_bucket)):buf.copy_(synced)

在这里插入图片描述

二.ModelLink 实现【ParamAndGradBuffer】

分配一大块连续内存,通过视图的方式给相关的grad使用,all_reduce时不需要多余的IO

ModelLink链接

1.ParamAndGradBuffer功能介绍

https://github.com/NVIDIA/Megatron-LM/commit/293e10419fd1b79c8680a0f4a206fc0a373729b5
Lay out params in a contiguous buffer using a new ParamAndGradBuffer
- Re-map parameters only when using the distributed optimizer
- Remove unnecessary param copying logic after all-gather
- Unmap weight_tensor attributes if they exist to reduce memory footprint

2.实现原理

A.分配一大块内存

data_start_index = 0
for param in params[::-1]:if not param.requires_grad:continuethis_numel = param.data.nelement()data_end_index = data_start_index + this_numelself.param_index_map[param] = (data_start_index,data_end_index,bucket_id,)bucket_params.add(param)data_start_index = data_end_index
self.numel = data_end_index
self.grad_data = torch.zeros(self.numel,dtype=self.grad_dtype,device=torch.cuda.current_device(),requires_grad=False)

B.获取视图

def _get(self, shape: torch.Size, start_index: int, buffer_type: BufferType) -> torch.Tensor:"""Return a tensor with the input `shape` as a view into the 1-D data starting at`start_index`."""end_index = start_index + shape.numel()assert end_index <= self.numel, 'Requested tensor is out of buffer range'if buffer_type == BufferType.PARAM:assert self.param_data is not Nonebuffer_tensor = self.param_data[start_index:end_index]elif buffer_type == BufferType.GRAD:buffer_tensor = self.grad_data[start_index:end_index]else:raise Exception("Illegal buffer type provided to GradBuffer._get() function")buffer_tensor = buffer_tensor.view(shape)return buffer_tensor

C.all_reduce grad

def start_grad_sync(self):self.communication_handle = torch.distributed.all_reduce(self.grad_data, group=self.data_parallel_group, async_op=self.overlap_grad_reduce)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/40030.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用Java实现实时地图应用

使用Java实现实时地图应用 大家好&#xff0c;我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编&#xff0c;也是冬天不穿秋裤&#xff0c;天冷也要风度的程序猿&#xff01;今天我们来探讨如何使用Java实现一个实时地图应用。 实时地图应用在现代互联网应用中…

Java_Spring框架:Bean的生命周期

在Spring框架中&#xff0c;Bean的生命周期包括以下几个阶段&#xff1a; 实例化&#xff08;Instantiation&#xff09;&#xff1a;在这个阶段&#xff0c;Spring会根据配置或注解创建Bean的实例。这可以通过构造函数实例化、工厂方法或者Bean容器中的其他方式来实现。 属性…

【信即是功夫】人皆有良知在心中

良知就是做人、做事的准则&#xff0c;良知就是天理&#xff1b;实实在在地自信 每个人心中都有一个圣人&#xff0c;只因自己不能真的相信&#xff0c;把这个圣人埋没了 良知在每个人心中&#xff0c;无论你如何做&#xff0c;也无法泯灭它。即使身为盗贼的人&#xff0c;他…

力扣1124.表现良好的最长时间段

力扣1124.表现良好的最长时间段 哈希表存最小的下标 当s[i] > 0 那么他到头可以构成一个合法时间段否则 找到之前的 s[i] - 1 的下标&#xff1a; 因为连续的前缀和一定只相差1若想算更小的s[i] - 2,s[i] - 3…一定会先算到s[i] - 1那么这些更小数必然在 s[i]−1 首次出现的…

WebStorm配置路径别名(jsconfig.json)

项目是 ViteVueTs 新建一个 jsconfig.json文件 {"compilerOptions": {"baseUrl": ".","paths": {"/*": ["./src/*"]}},"exclude": ["node_modules", "dist"] }然后在 vite.confi…

Sping源码(九)—— Bean的初始化(非懒加载)—mergeBeanDefinitionPostProcessor

序言 前几篇文章详细介绍了Spring中实例化Bean的各种方式&#xff0c;其中包括采用FactoryBean的方式创建对象、使用反射创建对象、自定义BeanFactoryPostProcessor以及构造器方式创建对象。 创建对象 这里再来简单回顾一下对象的创建&#xff0c;不知道大家有没有这样一个疑…

day01-切片和索引

day01-切片和索引 ndarray对象的内容可以通过索引或切片来访问和修改&#xff0c;与 Python 中list 的切片操作一样。 ndarray数组可以基于0-n的下标进行索引 注意&#xff0c;数组切片并不像列表切片会重新开辟一片空间&#xff0c;而是地址引用&#xff0c;需要使用.copy()…

算法day1 两数之和 两数相加 冒泡排序 快速排序

两数之和 最简单的思维方式肯定是去凑两个数&#xff0c;两个数的和是目标值就ok。这里两遍for循环解决。 两数相加 敲了一晚上哈哈&#xff0c;结果超过int范围捏&#xff0c;难受捏。 public class Test2 {public static void main(String[] args) { // ListNode l1 …

IO多路复用学习

Linux中的I/O多路复用 相关基础概念 在学习I/O多路复用之前&#xff0c;先学习一些相关的基础概念&#xff0c;便于理解。 内核缓冲区和用户缓冲区 &#x1f62e; CPU 上会运行两种程序&#xff0c;一种是操作系统的内核程序&#xff08;也称为系统程序&#xff09;&#x…

【HarmonyOS4学习笔记】《HarmonyOS4+NEXT星河版入门到企业级实战教程》课程学习笔记(二十)

课程地址&#xff1a; 黑马程序员HarmonyOS4NEXT星河版入门到企业级实战教程&#xff0c;一套精通鸿蒙应用开发 &#xff08;本篇笔记对应课程第 30 节&#xff09; P30《29.数据持久化-用户首选项》 实现数据持久化在harmonyOS中有很多种方式&#xff0c;比较常见的是以下两…

高项-组织通用管理

1、人力资源管理内容&#xff1a;规划、招聘、维护、提升、评价。 2、工作分析的作用&#xff1a;招聘和选择员工、发展和评价员工、薪酬政策、组织与岗位设计。 工作分析四个阶段(范围、确定方法、收集、评价): 第一阶段&#xff1a;明确工作分析范围 (1) 确定工作分析的目的 …

OpenCV教程02:图像处理系统1.0(翻转+形态学+滤波+缩放+旋转)

-------------OpenCV教程集合------------- Python教程99&#xff1a;一起来初识OpenCV&#xff08;一个跨平台的计算机视觉库&#xff09; OpenCV教程01&#xff1a;图像的操作&#xff08;读取显示保存属性获取和修改像素值&#xff09; OpenCV教程02&#xff1a;图像处理…

Redis深度解析:场景、锁、队列、Big Key与缓存优化

引言 简要介绍RedisRedis的优势和适用场景 一、Redis使用场景 缓存系统&#xff1a;缓存热点数据&#xff0c;减轻数据库压力&#xff0c;提高应用响应速度。会话存储&#xff1a;替代传统的服务器端会话存储&#xff0c;减轻服务器负载&#xff0c;实现会话数据的快速存取。…

WIN32核心编程 - 数据类型 错误处理 字符处理

公开视频 -> 链接点击跳转公开课程博客首页 -> 链接点击跳转博客主页 目录 数据类型 基本数据类型 Win32基本数据类型 错误处理 C语言中的错误处理 C中的错误处理 Win32中的错误处理 字符处理 C/C WIN32 字符处理 数据类型 基本数据类型 C/C语言定义了一系列…

Rocky Linux 9 系统OpenSSH CVE-2024-6387 漏洞修复

Rocky Linux 9系统 OpenSSH CVE-2024-6387 漏洞修复 1、漏洞修复2、修复思路3、修复方案3.1、方案一3.2、方案二 4、总结5、参考 1、漏洞修复 CVE-2024-6387&#xff1a;regreSSHion&#xff1a;OpenSSH 服务器中的远程代码执行&#xff08;RCE&#xff09;&#xff0c;至少在…

【目标检测】DINO

一、引言 论文&#xff1a; DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection 作者&#xff1a; IDEA 代码&#xff1a; DINO 注意&#xff1a; 该算法是在Deformable DETR、DAB-DETR、DN-DETR基础上的改进&#xff0c;在学习该算法前&#…

find命令-查找

find命令基本用法 find命令是Linux系统中用于在文件系统中搜索文件和目录的强大工具。它可以根据多种条件来筛选文件,包括文件名、文件类型、文件大小、文件修改时间等。 常见选项和参数 -name <filename>:按照文件名进行搜索。-type <file_type>:按照文件类型进…

《IT 领域准新生暑期预习指南:开启未来科技之旅》

IT专业入门&#xff0c;高考假期预习指南 高考的落幕&#xff0c;只是人生长途中的一个逗号&#xff0c;对于心怀 IT 梦想的少年们&#xff0c;新的征程已然在脚下铺展。这个七月&#xff0c;当分数尘埃落定&#xff0c;你们即将迈向新的知识殿堂&#xff0c;而这个假期&#…

【高考志愿】交通运输工程

目录 一、专业概述 二、课程设置 三、就业前景 四、报考注意 五、未来发展 六、交通运输工程专业排名 高考志愿选择交通运输工程专业&#xff0c;无疑是一个既具远见又富有挑战性的决定。这个专业以其综合性强、实用性高的特点&#xff0c;吸引了大批有志于投身交通事业的…

centos7升级gcc到7.3.0

1、下载gcc-7.3.0源码 wget ftp.gnu.org/gnu/gcc/gcc-7.3.0/gcc-7.3.0.tar.gz 2、解压gcc-7.3.0 tar -xvf gcc-7.3.0.tar.gz3、安装依赖 cd gcc-7.3.0 ./contrib/download_prerequisites ./contrib/download_prerequisites会下载对应的依赖包&#xff0c;如果下载不了的话&a…