torch分布式通信基础

torch分布式通信基础

  • 1. 点到点通信
  • 2. 集群通信

官网文档:WRITING DISTRIBUTED APPLICATIONS WITH PYTORCH

1. 点到点通信

在这里插入图片描述

# 同步,peer-2-peer数据传递
import os
import torch
import torch.distributed as dist
import torch.multiprocessing as mpdef test_send_recv_sync(rank, size):tensor = torch.zeros(1)if rank == 0:tensor += 1dist.send(tensor=tensor, dst=1) # 需要指定dst,发送的目标else:dist.recv(tensor=tensor, src=0) # 需要指定src,从哪儿接收print('Rank ', rank, ' has data ', tensor[0])# 异步
def test_send_recv_async(rank, size):tensor = torch.zeros(1)req = Noneif rank == 0:tensor += 1req = dist.isend(tensor=tensor, dst=1)else:req = dist.irecv(tensor=tensor, src=0)req.wait()print('Rank ', rank, ' has data ', tensor[0])def init_process(rank, size, backend='gloo'):""" 这里初始化分布式环境,设定Master机器以及端口号 """os.environ['MASTER_ADDR'] = '127.0.0.1'os.environ['MASTER_PORT'] = '29598'dist.init_process_group(backend, rank=rank, world_size=size)#test_send_recv_sync(rank, size)test_send_recv_async(rank, size)if __name__ == "__main__":size = 2processes = []mp.set_start_method("spawn")for rank in range(size):p = mp.Process(target=init_process, args=(rank, size))p.start()processes.append(p)for p in processes:p.join()

2. 集群通信

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

import os
import torch
import torch.distributed as dist
import torch.multiprocessing as mpdef test_broadcast(rank, size):tensor = torch.zeros(1)if rank == 0:tensor += 2else:tensor += 1dist.broadcast(tensor=tensor,src=0) # src指定broad_cast的源print("******test_broadcast******")print('Rank ', rank, ' has data ', tensor) # 结果都是 2def test_scatter(rank, size):tensor = torch.zeros(1)if rank == 0:tensor_list = [torch.tensor([1.0]), torch.tensor([2.0]), torch.tensor([3.0]), torch.tensor([4.0])]dist.scatter(tensor, scatter_list = tensor_list, src = 0)else:dist.scatter(tensor, scatter_list = [], src = 0)print("******test_scatter******")print('Rank ', rank, ' has data ', tensor) # 结果是[[1], [2], [3], [4]]def test_reduce(rank, size):tensor = torch.ones(1)dist.reduce(tensor=tensor, dst=0) # dst指定哪个进程进行reduce, 默认操作是加法print("******test_reduce******")print('Rank ', rank, ' has data ', tensor)def test_all_reduce(rank, size):tensor = torch.ones(1)dist.all_reduce(tensor=tensor,op=dist.ReduceOp.SUM)print("******test_all_reduce******")print('Rank ', rank, ' has data ', tensor)  # 结果都是 4def test_gather(rank, size):tensor = torch.ones(1)if rank == 0:output = [torch.zeros(1) for _ in range(size)]dist.gather(tensor, gather_list=output, dst=0)else:dist.gather(tensor, gather_list=[], dst=0)if rank == 0:print("******test_gather******")print('Rank ', rank, ' has data ', output)  # 结果是 [[1,1,1,1]]def test_all_gather(rank, size):output = [torch.zeros(1) for _ in range(size)]tensor = torch.ones(1)dist.all_gather(output, tensor)print("******test_all_gather******")print('Rank ', rank, ' has data ', output)  # 结果都是 [1,1,1,1]def init_process(rank, size, backend='gloo'):""" 这里初始化分布式环境,设定Master机器以及端口号 """os.environ['MASTER_ADDR'] = '127.0.0.1'os.environ['MASTER_PORT'] = '29596'dist.init_process_group(backend, rank=rank, world_size=size)test_reduce(rank, size)test_all_reduce(rank, size)test_gather(rank, size)test_all_gather(rank, size)test_broadcast(rank, size)test_scatter(rank, size)if __name__ == "__main__":size = 4processes = []mp.set_start_method("spawn")for rank in range(size):p = mp.Process(target=init_process, args=(rank, size))p.start()processes.append(p)for p in processes:p.join()

需要注意的一点是:
这里面的调用都是同步的,可以理解为,每个进程都调用到通信api时,真正的有效数据传输才开始,然后通信完成之后,代码继续往下跑。实际上有些通信进程并不获取数据,这些进程可能并不会被阻塞。

文档最后,提供了一个简单的类似 DDP 的实现,里面核心的部分就是:
在这里插入图片描述
在这里插入图片描述
这也进一步阐释了DDP的核心逻辑:
反向计算完成之后,汇总梯度信息(求均值),然后再更新参数

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/3427.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

php 开发微信 h5 支付 APIv3 接入超详细流程

✨ 目录 🎈 申请商户号🎈 申请商户证书🎈 设置V3密钥🎈 开通H5支付🎈 设置支付域名🎈 SDK 下载🎈 第一次下载平台证书🎈非第一次下载平台证书🎈 H5下单 🎈 申…

【前端知识】React 基础巩固(二十八)——StrictMode

React 基础巩固(二十八)——StrictMode StrictMode StrictMode 是一个用来突出显示应用程序中潜在问题的工具 与 Fragment 一样,StrictMode 不会渲染任何可见的 UI为后代出发额外的检测和警告严格模式检查仅在开发模式下运行,不影响生产构建 严格模式检…

【DBA课程-笔记】第 3 章:MongoDB数据库核心知识

内容 一、MongoDB 数据库架构 A. MongoDB数据库体系架构 1. 存储引擎(MongoDB Storage Engines): 2. MongoDB 数据逻辑架构 二、MongoDB 存储引擎 A. 查看mongodb服务器的状态 B. 查看引擎信息(4.2.1 没有这个命令&#xf…

搭载下一代人工智能技术,微软推出Power Automate流程挖掘产品

在近日的Microsoft Inspire大会中,微软揭晓了他们即将推出的Power Automate流程挖掘产品,并计划在8月1日正式对外开放。 试用地址:https://powerautomate.microsoft.com/zh-cn/#home-signup 这款产品搭载了下一代人工智能技术,有…

基于 Fedora 38 的预期版本 Nobara 38 发布

导读基于 Fedora 38 的预期版本 Nobara 38 终于发布了,它带来了一系列用户友好的修复和功能增强。Nobara 是 Fedora Linux 的修改版本,旨在解决用户面临的常见问题,并提供开箱即用的顺滑的游戏、流媒体和内容创建体验。凭借一系列附加软件包和…

深度学习ai学习方向如何规划,算法竞赛,机器学习,搭建环境等答疑

目录 1了解人工智能的背景知识 2 补充数学或编程知识 3 熟悉机器学习工具库 4 系统的学习人工智能 5 动手去做一些AI应用 1了解人工智能的背景知识 一些虽然存在但是在研究或者工业上不常用的知识,为自己腾出更多的时间来去学习,研究。 人工智能里…

天翎MyApps低代码平台唯品会金牌客服管理系统

项目痛点: 作为一家知名的创新大型电商,唯品会秉承“传承品质生活,提升幸福体验”的企业使命。基于客服铁军锻造项目,实现基于金牌案例的提交、评审、积分,学习功能。 项目中的晋升机制、案例产生学习机制、双激励机制…

linux 基于debian_ubuntu AB系统适配(三)- overlayroot

Overlayroot Overlayroot是一个实用工具,允许您创建一个只读的根文件系统和一个可写的覆盖文件系统。这对于创建一个更安全和稳定的系统很有用,因为对系统所做的任何更改都将存储在覆盖文件系统中,可以很容易地丢弃或重置。 在Debian下,分离的系统在/userdata/rootfs_ove…

手把手教你搭建SpringCloud项目(九)集成OpenFeign服务接口调用

什么是微服务?一看就会系列! 一、手把手教你搭建SpringCloud项目(一)图文详解,傻瓜式操作 二、手把手教你搭建SpringCloud项目(二)生产者与消费者 三、手把手教你搭建SpringCloud项目&#x…

JAVA----基本类型与运算

目录 一、Java提供了哪些基本数据类型? 二、在Java语言中null值是什么?在内存中null是什么? 三、如何理解赋值语句String x=null? 四、int和Integer有什么区别? 五、什么是不可变类 六、在Java语言中&…

【iOS】ARC实现

ARC由以下工具来实现: clang(LLVM编译器)3.0以上objc4 Objective-C运行时库493.9以上 下面我们,我们将围绕clang汇编输出和objc4库的源代码探究ARC实现 1. __strong修饰符 1.1 赋值给附有__strong修饰符的变量 看下面代码 {…

注释气泡图函数(更新)

之前我们写过一个原创可视化函数Dotplot_anno.R,nature级别图表:一个注释气泡热图函数(适用于单细胞及普通数据)。主要解决的问题是1) 单细胞基因可视化分组注释。2) Bulk RNA差异基因热图、气泡图。3) 富集分析结果气泡图展示。这…

ElementUI —— Upload 文件上传

前言&#xff1a; 实现单文件上传&#xff01;此文章仅记录代码如何实现&#xff0c;便于后期项目学习使用&#xff01;&#xff01; 代码实现&#xff1a; <!--********** View ********** --> <el-uploadclass"upload-demo":http-request"UploadFi…

通过concurrently 包,在一个终端中通过npm script运行两个项目

npm script可以通过 && 串行&#xff0c;& 并行执行两个任务&#xff0c;但是不能在同个打开的终端中运行两个项目&#xff0c;可以通过concurrently包解决 安装 npm i concurrently -Dscript命令 "dev":"concurrently \"npm run start\&quo…

Numpy—ndarray对象

NumPy 最重要的一个特点是其N维数组对象 ndarray&#xff0c;它是一系列同类型数据的集合&#xff0c;以 0 下标为开始进行集合中元素的索引。 ndarray 对象是用于存放同类型元素的多维数组。ndarray 中的每个元素在内存中都有相同存储大小的区域。ndarray 内部由以下内容组成…

【分布式训练】基于Pytorch的分布式数据并行训练

基于Pytorch的分布式数据并行训练 动机为什么要并行分布数据&#xff1f;现有资料的不足 Outline整体框架图带解释的最小demo示例没有multiprocessing开启multiprocessing 分布式训练启动方式混合精度训练&#xff08;采用apex&#xff09; 参考资料 简介&#xff1a; 在PyTorc…

【ROS】ROS1人机界面开发:第一个最简ROS+QtGui程序(按钮启动发布者)

【ROS】郭老二博文之:ROS目录 1、创建工程 1)新建工程:Other Project --> ROS Workspace 2)设置工程名称、路径 3)可以通过点击“Browse”来创建目录 注意:使用自带ros插件的qtcreator-ros,无法创建目录、也不能选择目录,这是个bug,因此需要在终端手动创建目录…

密码学学习笔记(十六 ):Schnorr签名算法

交互式零知识证明 零知识证明(ZKP)就是不会将证据泄露给验证者的知识证明。Schnorr身份认证识别协议是一个交互式ZKP&#xff0c;它满足了完备性、可靠性、零知识性。所谓的交互式ZKP方案通常包含3个步骤&#xff08;承诺、挑战和证明&#xff09;&#xff0c;在文献中通常被称…

elastic elasticsearch 源码解析之选主选举过程

选主 选举算法 角色定义 这里的选主为什么提角色? 是因为不同角色在选主中起到不同的作用.master的非voting_only节点不但参与投票同时还可以参与竞选, master 的voting_only角色仅投票不参与竞选,其余角色不参与. 支持的角色 master data data_content data_hot data_wa…

django框架向DRF框架演变过程详解

一、Django框架实现项目查询接口 主要知识点&#xff1a; Django框架视图函数 1、在 Django 项目中创建一个应用&#xff08;如果还没有创建&#xff09;&#xff1a; python manage.py startapp projects 2、在项目的 models.py 文件中定义项目模型 from django.db impor…