学习使用DDP: DistributedDataParallel

Introduction

  • “DistributedDataParalled” 是Pytorch中用于分布式训练的模块,相较与比较老的DataParallel更高效,易用(我在使用DataParallel时经常遇到参数和数据没有在一块卡的报错情况,非常烦人)。
  • 它允许在多个GPU甚至多个节点上并行,在每个GPU上分发参数并建立模型副本。每个进程都会加载不同的数据,DDP会自动处理跨GPU的梯度同步,每个GPU上的模型都会在自己的数据上进行前向反向传播,然后通过梯度同步机制更新模型参数。

名次定义

  • WORLD_SIZE:总进程数量,通常每个进程都会被分配一个唯一的 rank,而 world_size 就是所有进程的总数量。
  • MASTER_ADDRMASTER_PORT:这两个环境变量用于指定主进程的地址和端口号。在分布式训练中,主进程通常用于协调其他进程的工作。
  • LOCAL_RANKLOCAL_SIZE: 这两个环境变量是 torch.distributed.launch 工具特有的,用于指定当前进程在本地节点上的 local_rank 和节点上 GPU 的总数量 local_size。
  • RANKWORLD_SIZE(对于 torch.multiprocessing): 在使用 torch.multiprocessing 进行分布式训练时,RANKWORLD_SIZE 是用于指定进程全局排名和总进程数量的环境变量。

具体步骤

  1. 初始化分布式环境
	import torch.distributed as dist# 在 torch.distributed.launch 中设置 local_rank 和 ranklocal_rank = int(os.environ['LOCAL_RANK']) #这里的local_rank相当于告诉程序这是第几个进程rank = int(os.environ['RANK'])# 初始化分布式环境dist.init_process_group(backend='nccl', init_method='tcp://localhost:23456', world_size=world_size, rank=rank)# 使用 local_rank 指定当前进程在本地节点上的 GPU 设备torch.cuda.set_device(local_rank)device = torch.device("cuda", local_rank)
  • 这里我的理解是:在命令行中通过torch.distributed.launch启动了多个进程,每个进程都运行main.py, 同时通过分配local_rank来识别每个进程。

2.通过torch.nn.parallel.DistributedDataParallel定义模型。

	model = MyModel()model.to(device)model = torch.nn.parallel.DistributedDataParallel(model)
  • 创建你的神经网络模型,并将其放在 DistributedDataParallel 中。DistributedDataParallel 将模型的参数分发到每个 GPU 上,并在每个 GPU 上创建一个模型副本。
  1. 加载数据:
  • 确保每个进程都获得不同的数据切片。
	train_dataset = MyDataset()train_sampler = torch.utils.data.distributed.DistributedSampler(train_dataset)train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=batch_size, sampler=train_sampler)
  1. 训练
	for epoch in range(num_epochs):# 新增2:设置sampler的epoch,DistributedSampler需要这个来维持各个进程之间的相同随机数种子trainloader.sampler.set_epoch(epoch)for data, label in trainloader:training...
  1. 销毁
    训练完成后需清理分布式环境,释放资源。
	torch.distributed.destroy_process_group()

启动

如果只是在一台机子上运行,

python -m torch.distributed.launch --nproc_per_node=n --batch-size=n main.py
  • –nproc_per_node specifies how many GPUs you would like to use. In the example above, it is 8.
  • –batch-size is now the Total batch-size. It will be divided evenly to each GPU. (这里的batch-size也可以不设置,在代码中设置每个进程的batch_size)

报错及解决方案

  • 如果是创建了多个文件夹,log文件等,则需给相关语句加上if 条件,只让local_rank == 0 时输出或者记录。
  • 保存模型时要保存 model.module
  • 如果出现报错有些参数在反向传播时未使用,则需要加上find_unused_parameters = True.
	 model = torch.nn.parallel.DistributedDataParallel(model, find_unused_parameters = True)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/229560.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C语言预处理详解及其指令

预处理详解 1.预定义符号2.#define定义常量基本使用方法举例子如果在define定义的表示符后面加上分号会发生什么?用一下来解释 3. #define定义宏举例例1例2 4. 带有副作用的宏参数例如: 5. 宏替换的规则6. 宏函数的对比宏和函数的一个对比 7. #和##7.1 #运算符7.2 #…

全套SpringBoot讲义01

hello,我是小索奇,全套SpringBoot教程~一起来学习叭 文章目录 SpringBoot文档更新日志前言课程内容说明课程前置知识说明 SpringBoot基础篇JC-1.快速上手SpringBootJC-1-1.SpringBoot入门程序制作(一)JC-1-2.SpringBoot入门程序制…

数据库交付运维高级工程师-腾讯云TDSQL

数据库交付运维高级工程师-腾讯云TDSQL上机指导,付费指导,暂定99

Python一键升级所有Package的办法

对于一个有强迫症的人来说,总是希望自己使用的是最新的Package,一个个去升级那就太侮辱Python了,一键升级的办法有的是呢,在cmd窗口中就能完成: 第一步:升级默认更新网站 作为内网用户,连接外…

【PostgreSQL】从零开始:(十三)PostgreSQL-SQL语句操作架构(模式) Schema

Schema概述 PostgreSQL 数据库集群包含一个或多个命名数据库。角色和一些其他对象类型在整个集群中共享。与服务器的客户端连接只能访问单个数据库中的数据,该数据库在连接请求中指定。 用户不一定有权访问集群中的每个数据库。共享角色名称意味着不能在同一集群中…

wsl kafka的简单应用

安装并配置单机版kafka所需环境 wsl2 环境可用性较高,如下介绍在该环境中安装单机版本kafka的详细过程。 启动命令行工具启动wsl:wsl --user root --cd ~,(以root用户启动,进入wsl后当前路径为~“用户主目录”&#…

【数据结构】复习题(一)

一、选择题 1.组成数据的基本单位是()。 A. 数据项 B.数据类型 C.数据元素 D.数据变量 2.设数据结构A{D,R},其中D&#xff5b;1,2,3,4},R{r},r{<1,2>,<2,3>,< 3,4>,<4,1>}&#xff0c;则数据结构A是()。 A.线性结构 B.树型结构 C.图型结构 D.集合 3.…

分布式定时任务系列7:XXL-job源码分之任务触发

传送门 分布式定时任务系列1&#xff1a;XXL-job安装 分布式定时任务系列2&#xff1a;XXL-job使用 分布式定时任务系列3&#xff1a;任务执行引擎设计 分布式定时任务系列4&#xff1a;任务执行引擎设计续 分布式定时任务系列5&#xff1a;XXL-job中blockingQueue的应用 …

60道KafKa高频题整理(附答案背诵版)

废话不多说&#xff0c;直接上干货 简述什么是 Kafka 的 Topic &#xff1f; Kafka 的 Topic 是一个存储消息的逻辑概念&#xff0c;可以认为是一个消息集合。每条消息发送到 Kafka 集群的消息都有一个类别&#xff0c;这个类别就是 Topic。物理上来说&#xff0c;不同的 Top…

【Linux】模拟实现shell命令行解释器

需要云服务器等云产品来学习Linux的同学可以移步/–>腾讯云<–/官网&#xff0c;轻量型云服务器低至112元/年&#xff0c;优惠多多。&#xff08;联系我有折扣哦&#xff09; 文章目录 1. 主要思路2. 流程图3. 实现过程3.1 初步实现3.2 当前路径3.3 内建命令/外部命令3.4…

Springboot启动出现Error to process server push response的解决方法

目录 前言1. 问题所示2. 原理分析3. 解决方法前言 注意,此篇博客只提供一种bug排查思路,毕竟每个项目引起的依赖包冲突都不一致! 1. 问题所示 启动Springboot的时候,5秒刷一次这个,大致如下: 2023-12-17 13:02:01.166 WARN 20196 --- [ main] o.s.boot.ac…

数据库全面知识详细讲解

大约一年前&#xff0c;我在考虑下一个项目应该选择哪个数据库时&#xff0c;发现自己对数据库的区别了解得还不够。我浏览了不同的数据库网站&#xff0c;看到的大多是市场营销和我不理解的词汇。 这时&#xff0c;我决定阅读 Alex Petrov 所著的《Database Internals》和 Ma…

Harmony4.0鸿蒙应用开发初识+实践小案例

Harmony4.0鸿蒙应用开发初识实践小案例 一、华为的“18N”产品战略 在华为HarmonyOS及全场景新品发布会上&#xff0c;华为介绍了华为“18N”三圈层全场景智慧生态解决方案&#xff0c;从而打造面向未来的全新生态&#xff0c;其中&#xff0c;1指的是手机&#xff0c;8指的是…

neuq-acm预备队训练week 9 P1330 封锁阳光大学

题目描述 曹是一只爱刷街的老曹&#xff0c;暑假期间&#xff0c;他每天都欢快地在阳光大学的校园里刷街。河蟹看到欢快的曹&#xff0c;感到不爽。河蟹决定封锁阳光大学&#xff0c;不让曹刷街。 阳光大学的校园是一张由 n 个点构成的无向图&#xff0c;n 个点之间由 m 条道…

flutter学习-day13-功能型组件和状态共享

&#x1f4da; 目录 导航返回拦截InheritedWidget数据共享跨组件状态共享 事件总线EventBus依赖注入Provider 颜色和主题 颜色字符串转成color对象颜色亮度MaterialColor类主体 异步UI更新 FutureBuilderStreamBuilder 对话框 本文学习和引用自《Flutter实战第二版》&#xff…

第3章 多模型思维

目录 1. 孔多塞陪审团定理和多样性预测定理2. 分类模型3. 适当的模型粒度4. 一对多更高的幂超级油轮身体质量指数代谢率女性CEO 5. 多模型思维 1. 孔多塞陪审团定理和多样性预测定理 孔多塞陪审团定理&#xff08;Condorcet jury theorem&#xff09; 从一个解释多数规则长处的…

小程序开发使用vant库

初始化项目步骤就不做阐述。 第一步&#xff1a;安装依赖 vant/weapp npm下载命令&#xff1a;npm i vant/weapp -S --production npm下载命令&#xff1a;yarn add vant/weapp -S --production 第二步 &#xff1a;修改配置 1、找到miniprogram文件下的app.json 将 app.j…

小程序中的合法域名的作用及条件有哪些?

小程序的合法域名是指小程序项目中使用的各种接口、资源文件等所在的域名。在小程序开发中&#xff0c;需要将这些域名添加到小程序后台的“开发设置”-“服务器域名”中进行配置&#xff0c;才能够正常使用。 合法域名的作用&#xff1a; 1.作为小程序请求的 API 服务器域名…

玩转Docker(五):网络

文章目录 〇、关于linux系统网络一、none网络二、host网络三、bridge网络四、user-defined网络 Docker安装时会自动在host上创建三个网络&#xff0c;我们可用docker network ls命令查看&#xff1a; docker network ls那么这几种网络分别有什么含义呢&#xff1f;在回答这个问…

Hive高级语法

-- 通过 hive 加载数据 -- 创建数据表 USE myhivebook; CREATE TABLE IF NOT EXISTS student ( id int, name string ) comment 学生表 row FORMAT delimited fields terminated BY ,; desc formatted student; -- 创建数据 vi /root/data/student.dat 1001,tom 100…