Pytorch：数据并行和模型并行，解决训练过程中内存分配不均衡的问题

news/2025/4/26 1:41:22/文章来源:https://blog.csdn.net/weixin_43402775/article/details/114289595

文章目录

数据并行

单机多卡训练，即并行训练。并行训练又分为数据并行 (Data Parallelism) 和模型并行两种。

数据并行指的是，多张 GPU 使用相同的模型副本，但是使用不同的数据批进行训练。而模型并行指的是，多张GPU 分别训练模型的不同部分，使用同一批数据。

数据并行

torch.nn.DataParallel(module, device_ids=None, output_device=None, dim=0)

【参数】

module ： 要进行并行的 module。这里隐含了一点，即网络中的某一层也是可以进行数据并行的，但是一般不会这么使用。
device_ids : CUDA 列表，可以为 torch.device 类型，也可以是编号组成的 int 列表。默认使用全部 GPU
output_device : 某一 GPU 编号或 torch.device 。指定输出的 GPU，默认为第一个，即 device_ids[0]

数据并行的具体原理流程为：

1.将模型加载至主设备上，作为 controller，一般设置为 cuda:0
在每次迭代时，执行如下操作：
2.将 controller 模型复制（broadcast）到每一个指定的 GPU 上
将总输入的数据 batch，进行均分，分别作为各对应副本的输入 (scatter)
3.每个副本独立进行前向传播，并进行反向传播，但只是求取梯度
4.将各副本的梯度汇总（gather）到 controller 设备，并进行求和 (reduced add) During the backwards pass, gradients from each replica are summed into the original module.
5.更具总体度，更新 controller 设备上的参数

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/535162.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

DataParallel 和 DistributedDataParallel 的区别和使用方法

DataParallel 和 DistributedDataParallel 的区别和使用方法

1.DataParallel DataParallel更易于使用（只需简单包装单GPU模型）。 model nn.DataParallel(model)它使用一个进程来计算模型参数，然后在每个批处理期间将分发到每个GPU，然后每个GPU计算各自的梯度，然后汇总到GPU0中…

阅读更多...

torch.cuda.is_available()，torch.cuda.device_count()，torch.cuda.get_device_name(0)

torch.cuda.is_available()，torch.cuda.device_count()，torch.cuda.get_device_name(0)

torch.cuda.is_available() cuda是否可用； torch.cuda.device_count() 返回gpu数量； torch.cuda.get_device_name(0) 返回gpu名字，设备索引默认从0开始； torch.cuda.current_device() 返回当前设备索引；

阅读更多...

windows, 放方向键设置为vim格式，autohotkey-windows

windows, 放方向键设置为vim格式，autohotkey-windows

安装 Autohotkey https://www.autohotkey.com/download/ 设置快捷键随便找个目录,鼠标右键新建一个autohotkey的脚本。映射一个键——上左下右经常打字的人都知道,我们编辑文本时要上下左右移动光标,难免要将手移到方向键再移回来打字。对我这样的懒癌后期患者,这简直不能…

阅读更多...

window设置快捷键左右方向键

window设置快捷键左右方向键

autohotkey-windows快捷键设置神器使用方法地址

阅读更多...

Hbase数据模型及Hbase Shell

Hbase数据模型及Hbase Shell

目录 1 数据模型 1.1 相关名词概念 1.2 模型分析 2 Hbase Shell操作 2.1 命名空间 2.2 表操作 2.2.1 创建表 2.2.2 更改表结构 2.2.3 表的其他操作 2.3 数据操作 2.3.1 添加数据(put) 2.3.2 删除数据(delete) 2.3.3 获取数据(get|scan) 3 过滤器 3.1 比较运算符…

阅读更多...

非关型数据库之Hbase

非关型数据库之Hbase

目录 1 Hbase简介 1.1 初识Hbase 1.2 Hbase的特性 2 HDFS专项模块 2.1 HDFS的基本架构 2.1.1 HDFS各组件的功能： 2.2 HFDFS多种机制 2.2.1 分块机制 2.2.2 副本机制 2.2.3 容错机制 2.2.4 读写机制 3 Hbase组件及其功能 3.1 客户端 3.2 Zookeeper 3.3 …

阅读更多...

MongoDB Shell操作

MongoDB Shell操作

目录 1 数据库操作 2 集合操作 3 文档操作 3.1 插入文档(insert|insertOne|insertMany) 3.2插入、删除的循环操作 3.2 删除文档(remove|deleteOne|deleteMany) 3.3 更新文档(update|save) 3.4 查询文档(find) 4 游标 5 索引 6 聚合 1 数据库操作当新创建的数据库里…

阅读更多...

MongoDB副本集、分片集的伪分布式部署(保姆级教程)

MongoDB副本集、分片集的伪分布式部署(保姆级教程)

目录 1 集群架构(概念篇) 1.1 MongoDB核心组件 1.2 主从复制 1.3 副本集 1.4 分片集 2 集群搭建 2.1 部署副本集(伪分布式) 2.2 分片集部署(伪分布式) 2.3 副本集与分片集区别 1 集群架构(概念篇) MongoDB有三种集群部署模式，分别是主从复制(Master-Slave)…

阅读更多...

非关型数据库之MongoDB

非关型数据库之MongoDB

目录 1 MongoDB简介 1.1 初识MongoDB 1.2 MongoDB与传统的关系型数据库的区别 1.3 MongoDB存储结构 1.4 BSON支持的数据类型 2 MongoDB Shell操作 3 MongoDB集群操作 1 MongoDB简介 1.1 初识MongoDB MongoDB来源自英文单词"Humongous”，译为“庞大的”…

阅读更多...

【手把手脑把脑】教会你使用idea基于MapReduce的统计数据分析(从问题分析到代码编写)

【手把手脑把脑】教会你使用idea基于MapReduce的统计数据分析(从问题分析到代码编写)

目录 1 编程前总分析 1.1 数据源 1.2 需要掌握的知识 1.2.1 Hadoop对比java的数据类型 1.2.2 MapReduce流程简介 1.3.3 MapReduce流程细分 2 编码阶段 2.1 导入依赖 2.2 mapper 2.3 reducer 2.4 main 1 编程前总分析 1.1 数据源英语,李沐,85,男,20 数学,李沐,54,男…

阅读更多...

【细节拉满】Hadoop课程设计项目，使用idea编写基于MapReduce的学生成绩分析系统(附带源码、项目文件下载地址)

【细节拉满】Hadoop课程设计项目，使用idea编写基于MapReduce的学生成绩分析系统(附带源码、项目文件下载地址)

目录 1 数据源(学生成绩.csv) 2 hadoop平台上传数据源 3 idea代码 3.1 工程框架 3.2 导入依赖 3.3 系统主入口(menu) 3.4 六个mapreduce 3.4.1 计算每门成绩的最高分、最低分、平均分(Mma) 3.4.2 计算每个学生的总分及平均成绩并进行排序(Sas) 3.4.3 统计所有学生的信…

阅读更多...

【单位换算】存储单位(bit Byte KB MB GB TB PB EB ZB YB BB)时间单位(ms μs ns ps)长度单位(dm cm mm μm nm pm fm am zm ym)

【单位换算】存储单位(bit Byte KB MB GB TB PB EB ZB YB BB)时间单位(ms μs ns ps)长度单位(dm cm mm μm nm pm fm am zm ym)

存储单位相邻单位相差2⁰，记忆时可以此类推一字节等于八比特 1 Byte 8 bit 1KB 1024 B 2⁰ B 1MB 1024 KB 2⁰ B 1GB 1024 MB 2⁰ B 1TB 1024 GB 2⁴⁰ B 1PB 1024 TB 2⁵⁰ B 1EB 1024 PB 2⁶⁰ B 1ZB 1024 EB 2⁷⁰ B 1YB 1024 ZB 2⁸⁰ B 1B…

阅读更多...

Git 的安装、使用、分支、命令一篇博客全都学会

Git 的安装、使用、分支、命令一篇博客全都学会

目录 1 版本控制 1.1 什么是版本控制 1.2 为什么需要版本控制 2 Git概述 2.1 Git的工作机制 2.2 分布式版本控制工具与集中式的区别 2.3 Git是如何诞生的 3 Git的安装 4 Git常用命令 4.1 用户签名的设置和修改 4.2 查看用户签名的设置 4.3 初始化本地库 4.4 添加、…

阅读更多...

生成一个GitHub的token用于git推送本地库至远程库

生成一个GitHub的token用于git推送本地库至远程库

1 一步步选择设置 2 使用链接直接跳转到最后一步的设置页 git push 的时候需要token，所以在GitHub上生成一个临时的token 1 一步步选择设置 2 使用链接直接跳转到最后一步的设置页前提是你已经在这个浏览器上登陆了GitHub https://github.com/settings/tokens

阅读更多...

都2021年了，还不会使用GitHub创建、推送、拉取、克隆远程库、团队协作开发？

都2021年了，还不会使用GitHub创建、推送、拉取、克隆远程库、团队协作开发？

1 对自己的远程库操作 1.1 在GitHub上创建远程库 1.2 推送本地库至远程库 1.3 拉取远程库到本地库 1.4 克隆远程仓库到本地 2 对别人的远程库两种操作方式 2.1 使用GitHub进行团队内协作开发 2.2 使用GitHub进行跨团队协作开发众所周知，GitHub是一个大型的国…

阅读更多...

2021 最新 IDEA集成Gitee、Gitee迁移GitHub【图文讲解】

2021 最新 IDEA集成Gitee、Gitee迁移GitHub【图文讲解】

1 创建远程库 2 IDEA集成Gitee 2.1 安装gitee插件并绑定账号 2.2 IDEA推送本地库至远程库的两种方式 2.3 修改后推送本地库至远程库 2.4 拉取远程库 2.5 使用IDEA克隆远程库 3 Gitee迁移GitHub的远程库的两种方式 3.1 自己的账户之间迁移 3.2 使用链接进行迁移 3.3 强制刷…

阅读更多...

只需五步学会Maven 3.6.1OR 3.6.3及其他版本的下载安装与配置【图文详解】

只需五步学会Maven 3.6.1OR 3.6.3及其他版本的下载安装与配置【图文详解】

第一步，下载并解压缩包第二步，配置两个环境变量第三步，测试是否安装成功第四步，指定本地仓库的路径第五步，修改镜像仓库第一步，下载并解压缩包 Maven官方下载地址：https://mav…

阅读更多...

只需四步完成java JDK1.8的下载安装与配置【图文详解】

只需四步完成java JDK1.8的下载安装与配置【图文详解】

第一步，下载安装包并安装第二步，安装JDK 第三步，配置三个环境变量第四步，测试是否安装成功第一步，下载安装包并安装 Oracle的官方下载地址：https://www.oracle.com/java/technologies/downloads/#ja…

阅读更多...

从Maven中央仓库网站下载jar包的两种方式，将会伴随java后端开发者的整个职业生涯

从Maven中央仓库网站下载jar包的两种方式，将会伴随java后端开发者的整个职业生涯

这个肥肠重要的网站就是：https://mvnrepository.com/ 下面我会以mysql-connector-java-8.0.26.jar为例，教会你使用两种方式下载使用jar包资源首先在搜索栏使用全称或者是关键字对jar包进行搜索选择你想要的版本方式一：导入pom文件依赖(…

阅读更多...

2021 使用IDEA创建并编写你的第一个Maven项目【图文详解】

2021 使用IDEA创建并编写你的第一个Maven项目【图文详解】

1 使用IDEA创建你的第一个Maven项目 2 使用IDEA编写一个Maven项目 1 使用IDEA创建你的第一个Maven项目新建一个空白项目 File-->New-->Project-->Empty Project 在IDEA中配置JDK 在IDEA中配置Maven 新建一个Maven模块在test目录下面新建一个resources文件夹 2 使…

阅读更多...

最新文章