deepspeed笔记

文章目录

  • 一、deepspeed是什么?
  • 二、能训多大的模型,耗时如何?
  • 三、RLHF训练流程
  • 四、通信策略

一、deepspeed是什么?

传统的深度学习,模型训练并行,是将模型参数复制多份到多张GPU上,只将数据拆分(如,torch的Dataparallel),这样就会有大量的显存冗余浪费。而ZeRO就是为了消除这种冗余,提高对memory的利用率。注意,这里的“memory”不仅指多张GPU memory,还包括CPU。

而ZeRO的实现方法,就是把参数占用,逻辑上分成三种类型。将这些类型的参数划分:

optimizer states:即优化器的参数状态。例如,Adam的动量参数。
gradients:梯度缓存,对应于optimizer。
parameters:模型参数。
对应的,DeepSpeed的ZeRO config文件就可以分为如下几类:

ZeRO Stage 1: 划分optimizer states。优化器参数被划分到多个memory上,每个memory上的进程只负责更新它自己那部分参数。
ZeRO Stage 2: 划分gradient。每个memory,只保留它分配到的optimizer state所对应的梯度。这很合理,因为梯度和optimizer是紧密联系在一起的。只知道梯度,不知道optimizer state,是没有办法优化模型参数的。
ZeRO Stage 3: 划分模型参数,或者说,不同的layer. ZeRO-3会在forward和backward的时候,自动将模型参数分配到多个memory。
由于ZeRO-1只分配optimizer states(参数量很小),实际使用的时候,我们一般只会考虑ZeRO-2和ZeRO-3。

二、能训多大的模型,耗时如何?

针对不同规模的模型和硬件配置,DeepSpeed-RLHF系统所需的时间和成本如下:
在这里插入图片描述

三、RLHF训练流程

在这里插入图片描述
流程包括三个主要步骤:
第 1 步:监督微调 (SFT),使用精选的人类回答来微调预训练的语言模型,以应对各种查询。
第 2 步:奖励模型微调,用一个包含人类对同一查询的多个答案打分的数据集,来训练一个独立的(通常比SFT小)奖励模型(RW)。
第 3 步:RLHF训练,在这一步,SFT模型通过使用近似策略优化(PPO)算法,从RW模型的奖励反馈进一步微调。
在步骤3中,研究者还提供了两个附加功能,来帮助提高模型质量:

  • 指数移动平均线(EMA)的收集,可以选择一个基于EMA的检查点,进行最终评估。
  • 混合训练,将预训练目标(即下一个词预测)与 PPO 目标混合,以防止在公共基准(如SQuAD2.0)上的性能回归。

四、通信策略

DeepSpeed提供了mpi、gioo、nccl等通信策略

通信策略通信作用
mpi它是一种跨界点的通信库,经常用于CPU集群的分布式训练
gloo它是一种高性能的分布式训练框架,可以支持CPU或者GPU的分布式训练
nccl它是nvidia提供的GPU专用通信库,广泛用于GPU上的分布式训练

我们在使用DeepSpeed进行分布式训练的时候,可以根据自身的情况选择合适的通信库,通常情况下,如果是GPU进行分布式训练,可以选择nccl

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/234.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java可盈保险合同管理系统的设计与实现(springboot+mysql源码+文档)

风定落花生,歌声逐流水,大家好我是风歌,混迹在java圈的辛苦码农。今天要和大家聊的是一款基于springboot的可盈保险合同管理系统。项目源码以及部署相关请联系风歌,文末附上联系信息 。 项目简介: 基于Spring Boot的…

[蓝桥杯 | 暴搜] 学会暴搜之路

虽然会调侃蓝桥杯是暴力求解的,但是本弱弱不会搜,不知道如何搜,于是写下这篇碎碎念,记录看到过的,惊艳自己的暴搜。 小总结 题目特征:很复杂的排列组合 说是暴力,其实就是枚举罢了&#xff0…

CTF中常见的四种python逆向

说在前面: 什么是pyc文件? pyc是一种二进制文件,是由py文件经过编译后,生成的文件,是一种byte code,py文件变成pyc文件后,加载的速度有所提高, pyc 文件是 Python 编译过的字节码文…

华为OD机试 - 任务处理、可以处理的最大任务数(Java JS Python C C++)

须知 哈喽,本题库完全免费,收费是为了防止被爬,大家订阅专栏后可以私信联系退款。感谢支持 文章目录 须知题目描述输入描述输出描述解题思路:JS算法源码Java算法源码Python算法源码C算法源码题目描述 在某个项目中有多个任务(用task数组表示)需要你进行处理,其中: t…

大屏数字字体+渐变色

vue数据大屏使用数字字体_vue数字字体-CSDN博客 用css实现文字字体颜色渐变的三种方法_css 字体颜色渐变-CSDN博客

OpenHarmony多媒体-ijkplayer

简介 ijkplayer是OpenHarmony环境下可用的一款基于FFmpeg的视频播放器。 演示 编译运行 1、通过IDE工具下载依赖SDK,Tools->SDK Manager->OpenHarmony SDK 把native选项勾上下载,API版本>9 2、开发板选择RK3568,ROM下载地址. 选择…

美女视频素材无水印哪里找?四个顶级资源站点

寻找高质量的美女视频素材无水印对于制作引人注目的视频内容至关重要。如果你正困惑于“美女视频素材无水印哪里找”,以下是四个提供优秀无水印美女视频素材的网站,可以满足你的各种创作需求。 蛙学网:多样化的美女视频素材 首先推荐的是蛙…

关于pytouch的基本词汇

PyTorch是一个开源的机器学习框架,它提供了丰富的工具和库,用于构建和训练深度学习模型。PyTorch的基本定义如下: 张量(Tensor):PyTorch中的基本数据结构是张量,类似于多维数组。张量可以存储和…

LeetCode第797题: 所有可能的路径

目录 1.问题描述 2.问题分析 1.问题描述 给你一个有 n 个节点的有向无环图(DAG),请你找出所有从节点 0 到节点 n-1 的路径并输出(不要求按特定顺序)。 graph[i] 是一个从节点 i 可以访问的所有节点的列表&#xff08…

[论文精读]Masked Autoencoders are scalable Vision Learners

摘要本文证明了掩码自编码器(MAE)是一种可扩展的计算机视觉自监督学习算法。我们的 MAE方法很简单:我们盖住输入图像的随机块并重建缺失的像素。它基于两个核心设计。首先,我们开发了一个非对称编码器-解码器架构,其中一个编码器仅对块的可见子集(没有掩…

现代人如何适应AIGC 时代

随着生成式 AI 技术的蓬勃发展,各行各业正逗‬到了‬不得不‬重新‬看待‬自己的时候‬。一方面,新技术的出现带来了无限商机,另一方面也催生出了诸多新的挑战。 据权威机构统计,到2030年,社会需要的人工智能人才会是…

Linux中如何安装ImageMagick及其常规使用命令

在Linux中安装ImageMagick可以通过包管理工具进行安装。具体步骤如下: 打开终端(Terminal)。 使用以下命令更新系统软件包列表: sudo apt update使用以下命令安装ImageMagick: sudo apt install imagemagick安装完…

Codeforces Round 924 (Div. 2) ---- F. Digital Patterns ---- 题解

F. Digital Patterns: 题目描述: 思路解析: 要求在一个方块中,任意相邻的方块中他的透明度系数不能相同,这样的方块称为趣味性方块,问这样的方块有多少种。 那么我们可以相当,假设 a1 a2, 那…

Ajax!

Ajax(Asynchronous JavaScript and XML)是一种与服务器交换数据而不需要重新加载整个网页的技术。它之所以不需要安装,是因为它基于Web的现有标准,如JavaScript和XMLHttpRequest(XHR)对象,这些功…

求交错且分母为阶乘的和(java)

import java.util.*; public class APP1{public static void main(String[] args){double sum0.0;int n0;int flag1;int fm1;Scanner reader new Scanner(System.in);System.out.println("请输入n的值&#xff1a;");nreader.nextInt();for(int i0;i<n;i){fm*i; …

制作debug的rpm的一些问题

简介 gcc -g 会创建符号表,符号表包含了程序中使用的变量名称的列表,关闭所有的优化机制,以便程序执行过程中严格按照原来的C代码进行在编写spec的时,如果不希望生成debug包,则可以加 %define debug_package %{nil} 屏蔽掉在rpmbuild过程中的校验。场景1: spec文件中加%d…

物理页采样内核配置damon和perf

一、安装报错Missing file: arch/x86/boot/bzImage [sudo] password for xmu: arch/x86/Makefile:142: CONFIG_X86_X32 enabled but no binutils support sh ./arch/x86/boot/install.sh 5.15.19-htmm-test1 \arch/x86/boot/bzImage System.map "/boot"*** Missing…

Redis中的Lua脚本(二)

Lua脚本 创建排序辅助函数 为了防止带有副作用的函数令脚本产生不一致的数据&#xff0c;Redis对math库的math.random函数和math.randomseed函数进行了替换。对于Lua脚本来说&#xff0c;另一个可能产生不一致数据的地方是哪些带有不确定性质的命令&#xff0c;比如对于一个集…

python爬虫之环境配置(1)

一、安装python &#xff08;1&#xff09;下载python安装包 Python Releases for Windows | Python.org &#xff08;2&#xff09;傻瓜式安装python 安装成功 二、安装PyCharm (1&#xff09;下载安装包 Professional&#xff1a;专业版&#xff08;建议选择专业版&am…

Linux C++ 042-演讲比赛流程管理系统

Linux C 042-演讲比赛流程管理系统 本节关键字&#xff1a;Linux、C、练习项目、演讲比赛流程管理系统 相关库函数&#xff1a;for_each、srand、open、close、write 案例需求 设计一个演讲比赛流程管理系统。 比赛规则&#xff1a; 1.学校举行一场演讲比赛&#xff0c;共…