三、Distributed DataParallel分布式数据并行原理与应用

帮up宣传一下,优质up值得信赖!

B站UP:你可是处女座啊
在这里插入图片描述

文章目录

  • 原理
    • 一、 DDP
    • 二、基本概念
    • 三、分布式训练中的通信
  • 实战
    • 初始化进程组
    • 当前 进程 到底使用哪些数据?
    • 模型处理
    • 启动
    • 改造 loss 打印
    • 改造准确率
    • 改造数据划分
    • 训练前数据打乱
    • batch_size 是多少?
  • Trainer
  • DDP vs DP 效率对比
  • 总结

  • 简称 DDP

原理

image.png

一、 DDP

image.png

  • 补充一下 DP 原理


image.png


二、基本概念

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

  • 解释概念,Global 是全局信息,Local 是局部信息

image.png

三、分布式训练中的通信

image.png

  • t 代表数据

image.png
image.png

  • 注意,不局限于求和计算(可以其余计算,例如平均)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传


实战

image.png


初始化进程组

image.png


当前 进程 到底使用哪些数据?

Pytorch 自己实现了(借助采样器就可以实现不同的 GPU 选择不同数据)
image.png
image.png


模型处理

image.png


启动

torchrun --nproc_per_node=2 ddp.py
nproc_per_node 每个节点的进程数

image.png


改造 loss 打印

  • 自己写通信

image.png

  • loss 打印结果一致

image.png
继续优化:只在一个进程中打印,用 gloabl_rank 指定进程号
image.png
效果:只打印一次
image.png


改造准确率

  • dist.all_reduce() 默认就是 sum

image.png


改造数据划分

  • 每个进程都会进行一次随机数据划分,训练集和测试集必定存在重叠(需要保证划分一致)

image.png

  • 看数据打印是否一致即可

image.png


训练前数据打乱

image.png


batch_size 是多少?

设置的 batch_size * 2

  • 注意:如果验证集数量不够多个进程均分会导致准确率不准,accelerate 解决

Trainer

  • 不需要任何修改就可以跑 DDP

image.png

  • 准确率的坑:数据划分的随机性导致

image.png


DDP vs DP 效率对比

image.png
image.png


总结

image.png


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/720174.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网络编程 24/3/4 作业

1、广播 发送端 #include <myhead.h> int main(int argc, const char *argv[]) {//创建套接字int sfdsocket(AF_INET,SOCK_DGRAM,0);if(sfd-1){perror("socket error");return -1;}//设置当前套接字允许广播属性int broadcast1;if(setsockopt(sfd,SOL_SOCKET…

vue点击按钮同时下载多个文件

点击下载按钮根据需要的id调接口拿到返回需要下载的文件 再看返回的数据结构 数组中一个对象&#xff0c;就是一个文件&#xff0c;多个对象就是多个文件 下载函数 // 下载tableDownload(row) {getuploadInventoryDownload({ sysBatch: row.sysBatch, fileName: row.fileName…

调用第三方接口前进行生成Token及校验Token

文章目录 一、生成及校验Token 一、生成及校验Token 1.实例代码 public static final String equipmentSecret "Equipment_Secret";PostMapping("/getToken/app") ApiOperation("获取鉴权token") public Message.DataRespone<AppTokenVo&g…

深入了解直播美颜SDK,美颜SDK是什么?

在实现直播美颜功能的背后&#xff0c;美颜SDK扮演了重要的角色。今天&#xff0c;笔者将为大家讲解美颜SDK的定义、功能以及在直播行业中的应用。 一、美颜SDK的定义 美颜SDK是一种软件开发工具包&#xff0c;旨在为应用开发者提供一套实现美颜功能的接口和算法。它通常包含…

【C语言】动态内存管理------常见错误,以及经典笔试题分析,柔性数组【图文详解】

欢迎来CILMY23的博客喔&#xff0c;本篇为【C语言】动态内存管理------常见错误&#xff0c;以及经典笔试题分析&#xff0c;柔性数组【图文详解】&#xff0c;感谢观看&#xff0c;支持的可以给个一键三连&#xff0c;点赞关注收藏。 前言 在了解完内存操作中最关键的一节---动…

13 环境变量

基本概念 一般指在操作系统中用来指定操作系统运行环境的一些参数 如c/c链接的时候我们不知道动静态库在哪里&#xff0c;照样可以连接成功&#xff0c;原因就是有相关环境编译帮助编译器查找 环境变量有特殊用途&#xff0c;在系统中通常具有全局属性 常见环境变量 PATH&am…

【神经网络与深度学习】时间卷积网络(TCN)

概述 时间卷积网络&#xff08;Temporal Convolutional Network&#xff0c;TCN&#xff09;是一种用于处理时序数据的深度学习模型。它基于卷积神经网络&#xff08;CNN&#xff09;的思想&#xff0c;通过卷积操作来提取和学习时序数据中的特征&#xff0c;并在一系列时序预…

leetcode 热题 100_和为 K 的子数组

题解一&#xff1a; 前缀和数组哈希表&#xff1a;可以计算所有子数组之和暴力求解&#xff0c;但复杂度太高。对于子数组求和的过程&#xff0c;我们可以采用前缀和数组进行优化&#xff0c;前缀和数组中pre[index]代表nums[0]~nusm[index]之和&#xff0c;当我们要计算子数组…

迅速上手:CentOS 系统下 SSH 服务配置指南

前言 掌握 SSH 服务&#xff0c;就像拥有了一把解锁网络世界的钥匙。本文深入浅出地介绍了如何使用 SSH&#xff08;Secure Shell&#xff09;服务&#xff0c;从连接远程服务器到安全文件传输&#xff0c;让你轻松驾驭远程管理与数据传输&#xff0c;提高工作效率&#xff0c…

HLS的硬件加速器设计

完整可点击跳转 目录 硬件加速器的设计方法高层次综合HLSHLS与电路地对应关系HLS的设计规范HLS优化延迟优化降低单个循环的延迟循环展开(Unroll)循环展平(Flatten)多个循环的并行化循环合并循环函数化数据流执行(Dataflow)吞吐量优化循环/函数流水线数据流优化调试硬件加…

Unity 使用AddListener监听事件与取消监听

在Unity中&#xff0c;有时候我们会动态监听组件中的某个事件。当我们使用代码动态加载多次&#xff0c;每次动态加载后我们会发现原来的和新的事件都会监听&#xff0c;如若我们只想取代原来的监听事件&#xff0c;那么就需要取消监听再添加监听了。 如实现如下需求&#xff…

vue对两个多重数组对象进行筛选过滤

两个数组对象&#xff0c;进行筛选 两个数组options 里面数据被选中时&#xff0c;返回datas中对应的数据最近当点击时调用过滤方法 两个数组 数组1&#xff1a; options [ {activeValue:value值11 , name:名称1, value:value值1}, {activeValue: null , name:名称2, value:v…

大数据开发(Hadoop面试真题-卷二)

大数据开发&#xff08;Hadoop面试真题&#xff09; 1、在大规模数据处理过程中使用编写MapReduce程序存在什么缺点&#xff1f;如何解决这些问题&#xff1f;2、请解释一下HDFS架构中NameNode和DataNode之间是如何通信的&#xff1f;3、请解释一下Hadoop的工作原理及其组成部分…

关于axios的小知识

发请求1 axios({method: GET, //请求类型url:路径, //设置请求路径data:{ //设置请求体title: "afafa"author: "afafa"} }).then(response > {console.log(response); }) 发请求2 axios.request({method: GET,url: 路径 }).then(response &…

【力扣白嫖日记】626.换座位

前言 练习sql语句&#xff0c;所有题目来自于力扣&#xff08;https://leetcode.cn/problemset/database/&#xff09;的免费数据库练习题。 今日题目&#xff1a; 626.换座位 表&#xff1a;Seat 列名类型idintstudentvarchar id 是该表的主键&#xff08;唯一值&#xf…

寒假作业Day 06

寒假作业Day 06 一、选择题 1、关于内存管理&#xff0c;以下有误的是&#xff08; &#xff09; A: malloc在分配内存空间大小的时候是以字节为单位 B: 如果原有空间地址后面还有足够的空闲空间用来分配&#xff0c;则在原有空间后直接增加新的空间&#xff0c;使得增加新空…

初阶数据结构:二叉树(补充扩展)

目录 1. 堆排序1.1补充&#xff1a;建堆的时间复杂度1.2 堆排序&#xff1a;升序与降序 2. TopK问题3. 二叉树的链式结构及其遍历方式3.1 二叉树的链式结构3.2 二叉树的前序遍历2.2 二叉树的中序遍历2.3 后序遍历2.4 层序遍历 4. 二叉树OJ练习4.1 单值二叉树4.2 判断两棵二叉树…

Qt之QPluginLoader使用插件子项目及插件间通信(简易框架)(含部分源码+注释)

文章目录 一、项目示例1.导航栏操作页面操作示例图2.打开所有页面操作示例图3.打开指定界面操作示例图3.插件重载操作演示 二、插件逻辑个人理解1.QPluginLoader的简单使用2.子插件的基本要素 三、项目结构&#xff08;思路&#xff09;简述1.定义插件接口类2.定义插件类别一个…

提取阿里国际站商家电话的爬虫软件

引言: 随着电子商务的快速发展&#xff0c;越来越多的商家选择在阿里国际站上开设店铺。然而&#xff0c;对于想要联系某些商家或者进行商务合作的人来说&#xff0c;商家的联系电话往往是非常重要的信息。在这篇文章中&#xff0c;我们将介绍如何使用爬虫软件提取阿里国际站商…

装箱问题(贪婪策略:首次适应递减(First Fit Decreasing, FFD))

装箱问题&#xff08;贪婪策略:首次适应递减&#xff08;First Fit Decreasing, FFD&#xff09;&#xff09; 装箱问题是一种典型的组合优化问题&#xff0c;它可以用多种贪婪&#xff08;greedy&#xff09;策略来解决。贪婪算法通过在每一步选择当前最优的解决方案&#xf…