pytorch DDP模式下, 获取数据的的preftech + stream

直接上代码
- DDP forward

if self.device_ids:if len(self.device_ids) == 1:inputs, kwargs = self.to_kwargs(inputs, kwargs, self.device_ids[0])output = self.module(*inputs[0], **kwargs[0])else:inputs, kwargs = self.scatter(inputs, kwargs, self.device_ids)outputs = self.parallel_apply(self._module_copies[:len(inputs)], inputs, kwargs)output = self.gather(outputs, self.output_device)
else:output = self.module(*inputs, **kwargs)
def scatter(self, inputs, kwargs, device_ids):return scatter_kwargs(inputs, kwargs, device_ids, dim=self.dim)
def scatter_kwargs(inputs, kwargs, target_gpus, dim=0):r"""Scatter with support for kwargs dictionary"""inputs = scatter(inputs, target_gpus, dim) if inputs else []kwargs = scatter(kwargs, target_gpus, dim) if kwargs else []if len(inputs) < len(kwargs):inputs.extend([() for _ in range(len(kwargs) - len(inputs))])elif len(kwargs) < len(inputs):kwargs.extend([{} for _ in range(len(inputs) - len(kwargs))])inputs = tuple(inputs)kwargs = tuple(kwargs)return inputs, kwargs
def scatter(inputs, target_gpus, dim=0):r"""Slices tensors into approximately equal chunks anddistributes them across given GPUs. Duplicatesreferences to objects that are not tensors."""def scatter_map(obj):if isinstance(obj, torch.Tensor):return Scatter.apply(target_gpus, None, dim, obj)if is_namedtuple(obj):return [type(obj)(*args) for args in zip(*map(scatter_map, obj))]if isinstance(obj, tuple) and len(obj) > 0:return list(zip(*map(scatter_map, obj)))if isinstance(obj, list) and len(obj) > 0:return [list(i) for i in zip(*map(scatter_map, obj))]if isinstance(obj, dict) and len(obj) > 0:return [type(obj)(i) for i in zip(*map(scatter_map, obj.items()))]return [obj for targets in target_gpus]# After scatter_map is called, a scatter_map cell will exist. This cell# has a reference to the actual function scatter_map, which has references# to a closure that has a reference to the scatter_map cell (because the# fn is recursive). To avoid this reference cycle, we set the function to# None, clearing the celltry:res = scatter_map(inputs)finally:scatter_map = Nonereturn res

torch/nn/parallel/_functions.py,默认tensor to gpu,已经有了stream的加持。

from torch.nn.parallel._functions import Scatter, Gatherclass Scatter(Function):@staticmethoddef forward(ctx, target_gpus, chunk_sizes, dim, input):target_gpus = [_get_device_index(x, True) for x in target_gpus]ctx.dim = dimctx.input_device = input.get_device() if input.device.type != "cpu" else -1streams = Noneif torch.cuda.is_available() and ctx.input_device == -1:# Perform CPU to GPU copies in a background streamstreams = [_get_stream(device) for device in target_gpus]outputs = comm.scatter(input, target_gpus, chunk_sizes, ctx.dim, streams)# Synchronize with the copy streamif streams is not None:for i, output in enumerate(outputs):with torch.cuda.device(target_gpus[i]):main_stream = torch.cuda.current_stream()main_stream.wait_stream(streams[i])output.record_stream(main_stream)return outputs@staticmethoddef backward(ctx, *grad_output):return None, None, None, Gather.apply(ctx.input_device, ctx.dim, *grad_output)

结论:目前DDP模式下,已经有了preftech + stream的加持。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/750514.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GAMES104-现代游戏引擎 1

主要学习重点还是面向就业&#xff0c;重点复习八股和算法 每天早上八点到九点用来学习这个课程 持续更新中... 第一节 游戏引擎导论 第二节 引擎架构分层

OLLAMA:如何像云端一样运行本地大语言模型

简介&#xff1a;揭开 OLLAMA 本地大语言模型的神秘面纱 您是否曾发现自己被云端语言模型的网络所缠绕&#xff0c;渴望获得更本地化、更具成本效益的解决方案&#xff1f;那么&#xff0c;您的探索到此结束。欢迎来到 OLLAMA 的世界&#xff0c;这个平台将彻底改变我们与大型…

橡胶工厂5G智能制造数字孪生可视化平台,推进橡胶工业数字化转型

橡胶5G智能制造工厂数字孪生可视化平台&#xff0c;推进橡胶工业数字化转型。随着信息技术的迅猛发展和智能制造的不断推进&#xff0c;数字化转型已成为制造业转型升级的重要方向。橡胶工业作为传统制造业的重要领域&#xff0c;正面临着产业升级和转型的迫切需求。橡胶5G智能…

软考79-上午题-【面向对象技术3-设计模式】-结构型设计模式02

一、组合模式 1-1、意图 将对象组合成树型结构&#xff0c;以表示"部分-整体"的层次结构。Composite使得用户对单个对象和组 合对象的使用具有一致性。 示例&#xff1a;对象&#xff1a;文件、文件夹 1-2、结构 Component 为组合中的对象声明接口&#xff1b;在适…

决策树 | 分类树回归树:算法逻辑

目录 一. 决策树(Decision Tree)1. 决策树的构建1.1 信息熵(Entropy)1.1.1 信息量&信息熵 定义1.1.2 高信息熵&低信息熵 定义1.1.3 信息熵 公式 1.2 信息增益(Information Gain)1.2.1 信息增益的计算1.2.2 小节 2. 小节2.1 算法分类2.2 决策树算法分割选择2.3 决策树算…

C# 单例模式

单例模式介绍 单例模式只允许被其自身实例化一次&#xff0c;且向外部提供了一个访问该实例的接口。 通常来说&#xff0c;单例对象进行实例化时一般不带参数&#xff0c;因为如果不同的实例化请求传递的参数不同的话会导致问题的产生。 单例模式主要特点 全局唯一性&#xf…

提升物流效率,快递平台实战总结与分享

随着电商行业的蓬勃发展&#xff0c;物流配送服务变得愈发重要。快递平台作为连接电商企业和消费者的桥梁&#xff0c;扮演着至关重要的角色。本篇博客将分享快递平台实战经验&#xff0c;总结关键要点&#xff0c;帮助物流从业者提升物流效率、优化服务质量。 ### 快递平台实…

汽车网络基础知识 要点

在以太网开发中&#xff0c;常常会听到一些专业名词&#xff0c;例如PHY&#xff0c;MAC&#xff0c;MII&#xff0c;switch&#xff0c;下面是解释 PHY PHY 是物理接口收发器&#xff0c;它实现物理层。包括 MII/GMII (介质独立接口) 子层、PCS (物理编码子层) 、PMA (物理介…

SQLiteC/C++接口详细介绍之sqlite3类(十四)

返回目录&#xff1a;SQLite—免费开源数据库系列文章目录 上一篇&#xff1a;SQLiteC/C接口详细介绍之sqlite3类&#xff08;十三&#xff09; 下一篇&#xff1a;SQLiteC/C接口详细介绍之sqlite3类&#xff08;十五&#xff09; 43.sqlite3_preupdate_hook sqlite3_preup…

PHP获取并分析过期删除.cn域名3-5数字(无4非0开)/2-4字母(声母)/三杂等品类域名

用途:获取分析最近过期删除.cn域名中3-5数字(无4非0开)/2-4字母(声母)/三杂等品类域名 先创建rec文件夹,用于按天缓存域名列表(不自动创建哦) 推荐宝塔灯自带的定时任务访问本文件网址&#xff0c;每早5-6点执行 获取两天后删除的cn域名名单并提取几个有价值类目的域名 <…

什么可以让你快速穿越低谷?

1. 变环境 当我们对当前生活状态感到彻底失望&#xff0c;当我们看透了人世间的冷暖&#xff0c;见证了人性的撕裂与拉扯&#xff0c;就会意识到需要改变环境。这可能包括搬离现居之地&#xff0c;寻找新的斗争之地。就像寻找宝玉发光之地一样&#xff0c;我们需要找到能让自己…

基于springboot的高校化学试剂仓储管理系统

文章目录 项目介绍主要功能截图&#xff1a;部分代码展示设计总结项目获取方式 &#x1f345; 作者主页&#xff1a;超级无敌暴龙战士塔塔开 &#x1f345; 简介&#xff1a;Java领域优质创作者&#x1f3c6;、 简历模板、学习资料、面试题库【关注我&#xff0c;都给你】 &…

VMware NSX Advanced Load Balancer (NSX ALB) 22.1.6 - 多云负载均衡平台

VMware NSX Advanced Load Balancer (NSX ALB) 22.1.6 - 多云负载均衡平台 应用交付&#xff1a;多云负载均衡、Web 应用防火墙和容器 Ingress 服务 请访问原文链接&#xff1a;https://sysin.org/blog/vmware-nsx-alb-22/&#xff0c;查看最新版。原创作品&#xff0c;转载请…

194 基于matlab的日历GUI制作

基于matlab的日历GUI制作&#xff0c;可实时显示当前的日期和时间&#xff0c;精确到秒。非常漂亮&#xff0c;也很基础&#xff0c;学习GUI的不错程序&#xff0c;程序已调通&#xff0c;可直接运行。 194 matlab 日历制作 GUI可视化 - 小红书 (xiaohongshu.com)

sqlplus设置提示符

作为DBA&#xff0c;需要管理好多数据库&#xff0c;经常会有一台服务器安装多个oracle实例的情况&#xff0c;为避免误操作实例&#xff0c;我们需要在执行sqkplus前&#xff0c;先通过$ echo $ORACLE_SID或 SQL>select name from v$database查看当前实例&#xff0c;这样难…

前端小白的学习之路(CSS3 一)

提示&#xff1a;CSS3 是 Cascading Style Sheets&#xff08;层叠样式表&#xff09;的第三个主要版本&#xff0c;引入了许多新的特性和增强功能&#xff0c;用于设计和布局网页。本章记录CSS3新增选择器&#xff0c;盒子模型。 目录 一、C3新增选择器 1) 属性选择器 1.[c…

Python语言基础与应用-北京大学-陈斌-P40-39-基本扩展模块/上机练习:计时和文件处理-给算法计时-上机代码

Python语言基础与应用-北京大学-陈斌-P40-39-基本扩展模块/上机练习&#xff1a;计时和文件处理-给算法计时-上机代码 上机代码&#xff1a; # 基本扩展模块训练 给算法计时 def factorial(number): # 自定义一个计算阶乘的函数i 1result 1 # 变量 result 用来存储每个数的阶…

小结:Node.js Express VS Koa

Express 是一个基于 Node.js 平台的极简、灵活的 web 应用开发框架&#xff0c;主要基于 Connect 中间件&#xff0c;并且自身封装了路由、视图处理等功能&#xff0c;使用人数众多。 Koa 是 Express 原班人马基于 ES6 新特性重新开发的框架&#xff0c;主要基于 co 中间件&am…

RTP 控制协议 (RTCP) 反馈用于拥塞控制

摘要 有效的 RTP 拥塞控制算法&#xff0c;需要比标准 RTP 控制协议(RTCP)发送方报告(SR)和接收方报告(RR)数据包提供的关于数据包丢失、定时和显式拥塞通知 (ECN) 标记的更细粒度的反馈。 本文档描述了 RTCP 反馈消息&#xff0c;旨在使用 RTP 对交互式实时流量启用拥塞控制…

MongoDB数据备份与迁移

MongoDB数据备份与迁移 参考链接&#xff1a; https://www.cnblogs.com/you-men/p/14675290.html#_label2https://docs.mongoing.com/guan-li/mongodb-backup-methods#shi-yong-mongodump-bei-fenhttps://www.cnblogs.com/dbabd/p/13259147.html MongoDB备份工具简介 mongo…