Transformer模型分布式并行通信量浅析

Transformer模型分布式并行通信量浅析

news/2025/4/10 8:08:43/文章来源:https://blog.csdn.net/qq_19716143/article/details/136436423

1.数据并行DP（朴素数据并行，Zero数据并行之后补充）

$O(h^2*l)$
每台机器做完自己的梯度后需要做一次All reduce操作来累积梯度，故一个batch计算发送的数据量为每层梯度大小 $h^2$ 乘以层数 $l$

优点：运用简单，效率高，计算和通讯之间可以做异步。

缺点：有时候单个GPU无法容纳下整个大模型做训练。

流水线并行PP（Gpipe）

$O (b * s * h * l / k)$
每个pp层之间发送中间变量大小（和输入x相同大小）为 $b * s * h$ ，乘以正向和反向一共要传递的次数 $2 * (l / k - 1)$ ，得到上述大致的数量级

优点：通讯量小，数据无关。

缺点：要保证模型能均匀切分，否则会影响性能。需要用到重计算，来支持更大的批量 $b$ ，从而保证流水能发挥作用。反传之前需要等待所以微批量计算。

张量模型并行TMP

$O (b * s * h * l)$
MLP层第一个W1纵向切，第二个W2横向切能保证一个MLP只做一次All reduce操作通讯。同理attn根据头数来切分投影层。两者每次的发送数据大小和PP一样都是 $O (b * s * h)$ ，不同是，TMP发送量和模型Transformer层数成线性关系。

优点：能切分很大的Transformer模型。

缺点：通讯量大，且通信一般只在节点内部的多卡通讯，不做跨节点通讯。头数需要被GPU整除。

一般而言 $b s$ 略大于 $h$ ， $k$ 是 $l$ 的1/10，故一般而言，通讯量TMP>DP>PP.在实际的工程中，一般TMP和PP都在节点内通讯，只有数据并行会做跨节点通讯。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/718744.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【李沐论文精读】Resnet精读

【李沐论文精读】Resnet精读

论文地址：Deep Residual Learning for Image Recognition 参考：撑起计算机视觉半边天的ResNet【论文精读】、ResNet论文逐段精读【论文精读】、【李沐论文精读系列】一、导论深度神经网络的优点：可以加很多层把网络变得特别深，…

阅读更多...

力扣周赛387

力扣周赛387

第一题代码 package Competition.The387Competitioin;public class Demo1 {public static void main(String[] args) {}public int[] resultArray(int[] nums) {int ans[]new int[nums.length];int arr1[]new int[nums.length];int arr2[]new int[nums.length];if(nums.leng…

阅读更多...

Linux系统Docker部署RStudio Server

Linux系统Docker部署RStudio Server

文章目录前言1. 安装RStudio Server2. 本地访问3. Linux 安装cpolar4. 配置RStudio server公网访问地址5. 公网远程访问RStudio6. 固定RStudio公网地址前言 RStudio Server 使你能够在 Linux 服务器上运行你所熟悉和喜爱的 RStudio IDE，并通过 Web 浏览器进行访问…

阅读更多...

第二十四章：Docker 部署 SpringBoot

第二十四章：Docker 部署 SpringBoot

第二十四章：Docker SpringBoot 配置文件容器外加载部署 Docker version 25.0.3, build 4debf41 ,Docker Compose version v2.24.2容器运行后，若需修改配置文件，只需修改宿主机的application-prod.yml ，重启容器即可。 Springboot 2.x 版本部署规划服务器IP192.168.92…

阅读更多...

4. 编写app组件

4. 编写app组件

1. 代码 main.ts // 引入createApp用于创建应用 import {createApp} from "vue"// 引入App根组件 import App from ./App.vue createApp(App).mount(#app) App.vue <!-- vue文件可以写三种标签1. template标签，写html结构2. script 脚本标签&…

阅读更多...

判断docker 镜像启动成功 shell脚本

判断docker 镜像启动成功 shell脚本

要编写一个Shell脚本来判断Docker镜像是否启动成功，你可以使用docker ps命令来检查容器是否在运行状态。以下是一个简单的Shell脚本示例，用于判断Docker镜像是否成功启动： #!/bin/bash# 指定要检查的容器名称或ID CONTAINER_NAME"your_c…

阅读更多...

风险评估是什么意思？与等保测评有什么区别？

风险评估是什么意思？与等保测评有什么区别？

最近看到不少小伙伴在问，风险评估是什么意思？与等保测评有什么区别？这里我们就来简单聊聊。风险评估是什么意思？ 风险评估是指对某个特定领域或项目进行全面分析和评估，以确定可能存在的潜在风险和危害，并…

阅读更多...

2023全球软件开发大会-上海站：探索技术前沿，共筑未来软件生态(附大会核心PPT下载)

2023全球软件开发大会-上海站：探索技术前沿，共筑未来软件生态(附大会核心PPT下载)

随着信息技术的迅猛发展，全球软件开发大会（QCon）已成为软件行业最具影响力的年度盛会之一。2023年，QCon再次来到上海，汇聚了众多业界精英、技术领袖和开发者，共同探讨软件开发的最新趋势和实践。一、大会…

阅读更多...

服务器感染了.ma1x0勒索病毒，如何确保数据文件完整恢复？

服务器感染了.ma1x0勒索病毒，如何确保数据文件完整恢复？

引言： 网络安全成为至关重要的议题。.ma1x0勒索病毒是当前网络威胁中的一种恶意软件，它的出现给用户带来了极大的困扰。然而，正如任何挑战一样，我们也有方法来面对并克服.ma1x0勒索病毒。本文将全面介绍这种病毒的特点&#xff0…

阅读更多...

MB85RC铁电 FRAM驱动（全志平台linux）

MB85RC铁电 FRAM驱动（全志平台linux）

测试几天发现一个bug，就是无法一次读取32个字节的数据，1-31,33,128,512都试过了，唯独无法读取32个字节，驱动未报错，但是读取的都是0，找不到原因，估计应该是全志iic驱动的问题，暂时没…

阅读更多...

leetcode - 2095. Delete the Middle Node of a Linked List

leetcode - 2095. Delete the Middle Node of a Linked List

Description You are given the head of a linked list. Delete the middle node, and return the head of the modified linked list. The middle node of a linked list of size n is the ⌊n / 2⌋th node from the start using 0-based indexing, where ⌊x⌋ denotes th…

阅读更多...

python中的类与对象（3）

python中的类与对象（3）

目录一. 类的多继承二. 类的封装三. 类的多态四. 类与对象综合练习：校园管理系统一. 类的多继承在（2）第四节中我们介绍了什么是类的继承，在子类的括号里面写入要继承的父类名。上一节我们只在括号内写了一个父类名&…

阅读更多...

新手淘宝开店如何引流

新手淘宝开店如何引流

对于新手淘宝卖家来说，引流是开店过程中最为关键的一环。如何吸引潜在客户进入店铺，提高商品的曝光率和销量，是每个新手卖家都面临的挑战。本文将为你提供新手淘宝开店的引流攻略，帮助你从零开始掌握实用的引流技巧。一、优化店…

阅读更多...

C++的类型转换

C++的类型转换

1.C语言中的类型转换在C语言中，如果赋值运算符左右两侧类型不同，或者形参与实参类型不匹配，或者返回值类型与接收返回值类型不一致时，就需要发生类型转化，C语言中总共有两种形式的类型转换：隐式类型转换和…

阅读更多...

【机器人最短路径规划问题（栅格地图）】基于模拟退火算法求解

【机器人最短路径规划问题（栅格地图）】基于模拟退火算法求解

代码获取方式：QQ：491052175 或者私聊博主获取基于模拟退火算法求解机器人最短路径规划问题（栅格地图）的仿真结果仿真结果： 初始解的路径规划图收敛曲线： 模拟退火算法求解的路径规划图结论&#xff…

阅读更多...

Ubuntu20安装zabbix-agent2，对接zabbix 6.4

Ubuntu20安装zabbix-agent2，对接zabbix 6.4

在Ubuntu 20.04 LTS上安装Zabbix Agent 2并与Zabbix Server 6.4对接，请按照以下步骤操作： 更新系统： sudo apt update sudo apt upgrade 添加Zabbix官方仓库： 首先，需要将Zabbix的官方存储库添加到你的系统中以获取Za…

阅读更多...

C#面：常用的异常类有哪些

C#面：常用的异常类有哪些

异常类是用于处理程序运行时出现的错误或异常情况的类。 C# 提供了一些内置的异常类，常用的包括： System.Exception：所有异常类的基类，可以用于捕获所有类型的异常。System.SystemException：表示系统级别的异常&…

阅读更多...

【了解SpringCloud Gateway微服务网关】

【了解SpringCloud Gateway微服务网关】

曾梦想执剑走天涯，我是程序猿【AK】目录简述概要知识图谱什么是SpringCloudGateway功能特征应用场景核心概念配置文件工作原理路由谓词工厂（内置的）[After 路由谓词工厂](https://docs.spring.io/spring-cloud-gateway/docs/current/refere…

阅读更多...

Mysql运维篇（七）部署MHA--完结

Mysql运维篇（七）部署MHA--完结

一路走来，所有遇到的人，帮助过我的、伤害过我的都是朋友，没有一个是敌人。如有侵权，请留言，我及时删除！ 一、MHA软件构成 Manager工具包主要包括以下几个工具： masterha_manger 启…

阅读更多...

【C++】多态深入分析

【C++】多态深入分析

目录一，多态的原理 1，虚函数表与虚函数表指针 2，原理调用 3，动态绑定与静态绑定二，抽象类三，单继承和多继承关系的虚函数表 1，单继承中的虚函数表 2，多继承中的虚函数表 …

阅读更多...

最新文章