DeepSpeed加速大模型训练

DeepSpeed是微软推出的一个框架,可以对Pytorch的模型进行包装,提供了加快模型的训练速度,降低对GPU显存的占用,以及方便进行分布式训练等等高级特性。在这里我也对DeepSpeed进行了测试,看看是否能提高我的transformer模型的训练性能。

在之前的博客中我介绍了如何对GPT 2模型进行SFT的训练,召唤神龙打造自己的ChatGPT_gzroy的博客-CSDN博客,我将基于之前的模型,用DeepSpeed来进行训练,看看效果如何。

要使用DeepSpeed,我们需要进行配置的定义,以下是我定义的一个JSON配置文件:

{"train_batch_size": 4,"steps_per_print": 100,"fp16": {"enabled": true},"gradient_accumulation_steps": 1,"optimizer": {"type": "AdamW","params": {"lr": 0.00006,"betas": [0.9, 0.95],"weight_decay": 0.01}},"scheduler": {"type": "WarmupDecayLR","params": {"warmup_min_lr": 0.000006,"warmup_max_lr": 0.00006,"warmup_num_steps": 1000,"total_num_steps": 40000}}
}

建立一个正常的Pytorch模型,如我之前的博客提到的方式,然后用DeepSpeed进行封装,

model, _, _, lr_scheduler = deepspeed.initialize(model=model, model_parameters=optim_groups, config=args.deepspeedcfg)

这里面的args.deepspeedcfg指向我们之前配置的JSON文件。

之后在训练的步骤里面改写一下即可。

logits, loss = model(x, y)
model.backward(loss)
model.step()

最后就是在我本地的2080Ti显卡上进行测试,以下是测试结果:

1. 不启用DeepSpeed,batch_size=4,训练4000个batch,显存占用为8050MB,耗时748秒

2. 启用DeepSpeed,batch_size=4,采用DeepSpeed的AdamW优化器,不启用ZeRO,显存占用为6392MB,耗时613秒

3. 启用DeepSpeed,batch_size=4,采用Pytorch的AdamW优化器,不启用ZeRO,显存占用为6392MB,耗时802秒

4. 启用DeepSpeed,batch_size=8,采用DeepSpeed的AdamW优化器,不启用ZeRO,显存占用为8688MB,耗时1031秒

5. 启用DeepSpeed,batch_size=8,采用DeepSpeed的AdamW优化器,启用ZeRO Stage 0,显存占用为8688MB。

6. 启用DeepSpeed,batch_size=8,采用DeepSpeed的AdamW优化器,启用ZeRO Stage 1,显存占用为9382MB。

7. 启用DeepSpeed,batch_size=8,采用DeepSpeed的AdamW优化器,启用ZeRO Stage 2,显存占用为10336MB。

8. 启用DeepSpeed,batch_size=8,采用DeepSpeed的AdamW优化器,启用ZeRO Stage 3,如果启用torch.compile(model)会报deepcopy错误,取消torch.compile后运行,显示在AMD CPU上不支持FP16,另外我的设备也不支持offload到nvme,测试中止。

从以上测试结果,可以看到在采用了DeepSpeed自带的优化器的情况下,可以大大的节约显存以及提高训练速度。但是开启ZeRO之后,在Stage 0,1,2下都出现了显存占用增大的情况,这个正常来说是可以节省显存的,不太明白为何会这样,留待以后继续分析。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/40664.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Maven 插件 maven-antrun-plugin 执行 ant 脚本

Ant 相信大家都不陌生,你可以把它理解为使用 xml 格式描述的一系列命令处理工具。它是一种基于Java的build工具。理论上来说,它有些类似于(Unix)C中的make、有些类似于基于shell命令编写的sh脚本文件。Ant 用 Java 的类来扩展。&a…

多维时序 | MATLAB实现PSO-CNN-BiLSTM多变量时间序列预测

多维时序 | MATLAB实现PSO-CNN-BiLSTM多变量时间序列预测 目录 多维时序 | MATLAB实现PSO-CNN-BiLSTM多变量时间序列预测基本介绍模型特点程序设计参考资料 基本介绍 本次运行测试环境MATLAB2021b,MATLAB实现PSO-CNN-BiLSTM多变量时间序列预测。代码说明&#xff1a…

Java mail邮件开发 OA办公系统

目录 1 Java mail邮件开发 OA办公系统 1.1 //用户登录 1.2 //用户注册 1.3 //根据邮箱账号查询用户ID Java mail邮件开发 OA办公系统package com.email.dao.impl; import java.sql.Connection; import java.sql.PreparedStatement;<

POSTGRESQL 关于2023-08-14 数据库自动启动文章中使用KILL 来进行配置RELOAD的问题解释...

开头还是介绍一下群&#xff0c;如果感兴趣Polardb ,mongodb ,MySQL ,Postgresql ,redis &#xff0c;SQL SERVER ,ORACLE,Oceanbase 等有问题&#xff0c;有需求都可以加群群内有各大数据库行业大咖&#xff0c;CTO&#xff0c;可以解决你的问题。加群请加 liuaustin3微信号 &…

Oracle执行计划

Oracle执行计划 1. 什么是执行计划Oracle explain使用3. Explain执行顺序 1. 什么是执行计划 执行计划是一条查询语句在Oracle中的执行过程或访问路径的描述。 执行计划描述了SQL引擎为执行SQL语句进行的操作&#xff1b;分析SQL语句相关的性能问题或仅仅质疑查询优化器的决定…

蔚来李斌卖手机:安卓系统,苹果售价,一年一发

‍作者 | Amy 编辑 | 德新 车圈大佬的玩法真让人寻不着套路&#xff01; 苹果的库克和小米的雷布斯&#xff0c;甚至是FF贾老板准备许久&#xff0c;都想分一块新能源车的蛋糕&#xff0c;蔚来李斌却反手进军手机界&#xff0c;从宣布造手机到手机入网仅仅隔了一年。 近期…

说几个常见的语法糖

目录 面试回答 知识扩展 如何解语法糖&#xff1f; 糖块一、swith 支持 String 与枚举 糖块二、泛型 糖块三、自动装箱与拆箱 糖块四、枚举 糖块五、条件编译 糖块六、断言 糖块七、数值字面量 糖块八、for-each 糖块九、try-with-resource 可能遇到的坑 泛型 自…

Beats:安装及配置 Metricbeat (一)- 8.x

在我之前的文章&#xff1a; Beats&#xff1a;Beats 入门教程 &#xff08;一&#xff09;Beats&#xff1a;Beats 入门教程 &#xff08;二&#xff09; 我详细描述了如何在 Elastic Stack 7.x 安装及配置 Beats。在那里的安装&#xff0c;它通常不带有安全及 Elasticsearc…

MapReduce介绍

目录 ​一、什么是MapReduce 二、MapReduce 的设计思想 2.1 分而治之 2.2 构建抽象模型&#xff1a;Map和Reduce 2.3 隐藏系统层细节 三、MapReduce 的框架原理 3.1 MRv1工作原理 3.1.1 MRv1架构工作原理图 3.1.1.1 流程说明 3.1.1.1.1 作业的提交 3.1.1.1.2 作业的初始化 3…

【AI大模型】训练Al大模型 (上篇)

大模型超越AI 前言 洁洁的个人主页 我就问你有没有发挥&#xff01; 知行合一&#xff0c;志存高远。 目前所指的大模型&#xff0c;是“大规模深度学习模型”的简称&#xff0c;指具有大量参数和复杂结构的机器学习模型&#xff0c;可以处理大规模的数据和复杂的问题&#x…

【Java】Queue中增加删除方法的区别

offer&#xff0c;add 区别&#xff1a; 一些队列有大小限制&#xff0c;因此如果想在一个满的队列中加入一个新项&#xff0c;多出的项就会被拒绝。 这时新的 offer 方法就可以起作用了。它不是对调用 add() 方法抛出一个 unchecked 异常&#xff0c;而只是得到由 offer() 返…

题目:售货员的难题(状压dp)

售货员的难题 题目描述输入输出格式输入格式&#xff1a;输出格式&#xff1a; 输入输出样例输入样例#1&#xff1a;输出样例#1&#xff1a; 思路AC代码&#xff1a; 题目描述 某乡有n个村庄( 1 < n < 16 )&#xff0c;有一个售货员&#xff0c;他要到各个村庄去售货&am…

consul限制注册的ip

假设当前服务器的ip是&#xff1a;192.168.56.130 1、允许 所有ip 注册(验证可行) consul agent -server -ui -bootstrap-expect1 -data-dir/usr/local/consul -nodedevmaster -advertise192.168.56.130 -bind0.0.0.0 -client0.0.0.0 2、只允许 当前ip 注册 consul agent -…

Leetcode33 搜索旋转排序数组

题解&#xff1a; /*** 旋转排序数组可分为N1 N2两个部分&#xff0c;如&#xff1a;[4,5,6,7,1,2,3]&#xff0c;N1为[4,5,6,7]&#xff0c;N2为[1,2,3]** 必然满足以下两个条件&#xff1a;* 1. N1和N2都是分别递增的&#xff1b;* 2. N1中的所有元素大于N2中的所有元素;** …

【Python机器学习】实验12 基于神经网络的回归-分类实验

文章目录 神经网络的回归例1 基于神经网络的回归(简单例子)1.1 导入包1.2 构造数据集&#xff08;随机构造的&#xff09;1.3 构造训练集和测试集1.4 构建神经网络模型1.5 采用训练数据来训练神经网络模型 实验1 基于神经网络的分类(鸢尾花数据集)1.1 导入包1.2 构造数据集1.3 …

Selenium浏览器自动化测试框架简单介绍

selenium简介 介绍   Selenium [1] 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中&#xff0c;就像真正的用户在操作一样。支持的浏览器包括IE&#xff08;7, 8, 9, 10, 11&#xff09;&#xff0c;Mozilla Firefox&#xff0c;Safari&#xff0c;Googl…

系统学习Linux-MongoDB

概述 mongodb是一个nosql数据库&#xff0c;它有高性能、无模式、文档型的特点。是nosql数据库中功能最丰富&#xff0c;最像关系数据库的。数据库格式为BSON 相关概念实例&#xff1a;系统上运行的mongodb的进程&#xff0c;类似于mysql实例&#xff1b;库&#xff1a;每个数…

用cpolar生成的公网地址,对位于本地的Cloudreve网盘进行访问

文章目录 1、前言2、本地网站搭建2.1 环境使用2.2 支持组件选择2.3 网页安装2.4 测试和使用2.5 问题解决 3、本地网页发布3.1 cpolar云端设置3.2 cpolar本地设置 4、公网访问测试5、结语 1、前言 自云存储概念兴起已经有段时间了&#xff0c;各互联网大厂也纷纷加入战局&#…

MySQL 自增 ID 默认从 1 开始,如何设置自增 ID 从 0 开始

MySQL 是一种关系型数据库&#xff0c;它是世界上最流行的关系型数据库之一。在 MySQL 中&#xff0c;自增是一种非常有用的功能&#xff0c;它可以自动给主键赋值&#xff0c;并保证每个主键是唯一的。然而&#xff0c;许多人不知道的是&#xff0c;MySQL 默认情况下从 1 开始…

ArcGIS Pro如何制作不规则形状图例

在默认的情况下&#xff0c;ArcGIS Pro生成的图例是标准的点、直线和矩形的&#xff0c;对于湖泊等要素而言&#xff0c;这样的表示方式不够直观&#xff0c;我们可以将其优化一下&#xff0c;制作不规则的线和面来代替原有图例&#xff0c;这里为大家介绍一下制作方法&#xf…