deepspeed huggingface传入参数 optimizer和lr_scheduler测试

Trainer中

首先:
WarmupDecayLR= --lr_scheduler_type linear
WarmupLR= --lr_scheduler_type constant_with_warmup

1

TrainArgument不传lr_scheduler_type、optim,warmup_steps=15
ds config文件中定义如下:
在这里插入图片描述
注意:如果不在TrainArgument传入warmup_steps,直接在ds config指定的话会报错,故需要结合使用。

学习率如下:
在这里插入图片描述

2

TrainArgument不传lr_scheduler_type、optim,warmup_steps=15
ds config文件中定义如下:
在这里插入图片描述
学习率如下:
在这里插入图片描述

3

TrainArgument不传optim,warmup_steps=15
lr_scheduler_type=constant_with_warmup
ds config文件中定义如下:
在这里插入图片描述
学习率如下:
在这里插入图片描述
可以得出:deepspeed中的优化器和学习率策略确实是有优先级的,两个都定义的情况下会用deepspeed中的。

推荐用法:optim用deepspeed, lr_scheduler用huggingface的 cosine
cosine学习率图如下:
在这里插入图片描述

PPOTrainer、RLOOTrainer

trl中的相关trainer是不支持deepspeed配置optimizer 和 lr_scheduler的,需要使用huggingface提供的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/41848.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LangChain(四)工具调用的底层原理!给大模型按上双手吧!(新手向)

背景 经过前面三篇的内容,我想大家对于大模型的构建、Langchain的优势、Chain的构建有了相当程度的理解(虽然只是最简单的示例,但是足够有代表性)。 后续Chain的使用将会更加丰富多彩,您会了解Langchain开发的大模型…

14-31 剑和诗人5 - 使用 AirLLM 和分层推理在单个 4GB GPU 上运行 LLama 3 70B

利用分层推理实现大模型语言(LLM) 大型语言模型 (LLM) 领域最近取得了显著进展,LLaMa 3 70B 等模型突破了之前认为可能实现的极限。然而,这些模型的庞大规模给其部署和实际使用带来了巨大挑战,尤其是在资源受限的设备上,例如内存…

怎么压缩pdf文件的大小?减小PDF文件大小的四种方法

怎么压缩pdf文件的大小?文件大小不仅影响传输速度,还可能涉及存储空间的管理。当处理大型PDF文件时,可能会面临电子邮件附件限制或云存储容量不足的问题。此外,过大的文件在浏览和加载时也会导致延迟,影响阅读体验。这…

3款自己电脑就可以运行AI LLM的项目

AnythingLLM、LocalGPT和PrivateGPT都是与大语言模型(LLM)相关的项目,它们允许用户在本地环境中与文档进行交互,但它们在实现方式和特点上存在一些差异。AnythingLLM使用Pinecone和ChromaDB来处理矢量嵌入,并使用OpenA…

【C语言】return 关键字详解

在C语言中,return是一个关键字,用于从函数中返回值或者结束函数的执行。它是函数的重要组成部分,负责将函数的计算结果返回给调用者,并可以提前终止函数的执行。 主要用途和原理: 返回值给调用者: 当函数执…

mysql数据库创建用户并授权某个库的所有权限

这个就直接上语句吧!只是注意要用管理员帐号执行,比如root去执行。 -- 创建新用户(替换new_user为您的用户名,password为您的密码) CREATE USER new_user% IDENTIFIED BY password; -- 授予权限(替换data…

社交媒体数据分析:赋能企业营销策略的利器

在这个数字化时代,社交媒体不仅是品牌与消费者互动的舞台,更是企业洞察市场趋势、优化营销策略的金矿。本文将探讨如何利用社交媒体数据分析赋能企业营销,通过实战案例与技巧分享,揭示这把“利器”如何帮助企业精准定位目标受众、…

【论文阅读】-- Visual Traffic Jam Analysis Based on Trajectory Data

基于轨迹数据的可视化交通拥堵分析 摘要1 引言2 相关工作2.1 交通事件检测2.2 交通可视化2.3 传播图可视化 3 概述3.1 设计要求3.2 输入数据说明3.3 交通拥堵数据模型3.4 工作流程 4 预处理4.1 路网处理4.2 GPS数据清理4.3 地图匹配4.4 道路速度计算4.5 交通拥堵检测4.6 传播图…

架构面试-场景题-单点登录(SSO)怎么实现的

文章目录 概述基于Cookie基于Token(OAuth, JWT)集中式认证服务 (CAS, SAML)分布式Session:轻型目录访问协议(LDAP)OAuth 2.0/OIDCKerberos 概述 单点登录(Single Sign-On,简称SSO)是一种身份验证机制,允许…

掌握【Python异常处理】:打造健壮代码的现代编程指南

目录 ​编辑 1. 什么是异常? 知识点 示例 小李的理解 2. 常见的内置异常类型 知识点 示例 小李的理解 3. 异常机制的意义 知识点 示例 小李的理解 4. 如何处理异常 知识点 示例 小李的理解 5. 抛出异常 知识点 示例 小李的理解 6. Python内置…

Springboot整合Jsch-Sftp

背景 开发一个基于jsch的sftp工具类&#xff0c;方便在以后的项目中使用。写代码的过程记录下来&#xff0c;作为备忘录。。。 Maven依赖 springboot依赖 <parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-par…

codeforces 1633A

文章目录 1. 题目链接2. 题目代码正确代码错误代码 3. 题目总结 1. 题目链接 Div. 7 2. 题目代码 正确代码 #include<iostream> using namespace std; int main(){int testCase;cin >> testCase;while(testCase --){int ingeter;cin >> ingeter;if(!(inget…

SpringBoot彩蛋之定制启动画面

写在前面 在日常开发中&#xff0c;我们经常会看到各种各样的启动画面。例如以下几种 ① spring项目启动画面 ② mybatisplus启动画面 ③若依项目启动画面 还有很多各式各样好看的启动画面&#xff0c;那么怎么定制这些启动画面呢&#xff1f; 一、小试牛刀 ① 新建一个Spr…

Java 8 到 Java 22 新特性详解

Java 8 到 Java 22 新特性详解 Java自发布以来一直在不断演进&#xff0c;添加新特性以提升开发效率和性能。本文将介绍Java 8到Java 22的主要新特性&#xff0c;帮助开发者了解各版本的新功能和改进。 Java 8 (2014) 1. Lambda 表达式 Lambda 表达式允许使用简洁的语法定义…

SQL 之 concat_ws和concat的区别

concat_ws和concat都是用于连接字符串的函数&#xff0c;但它们在使用上有一些区别&#xff1a; 一、concat、concat_ws函数格式&#xff1a; concat格式&#xff1a; concat&#xff08;参数1,参数2,…参数n&#xff09;&#xff0c;如果要加’分隔符’直接写在 各参数中间就…

关于微信支付-商户平台:查询订单提示“查询失败:操作失败,请稍候重试”的分析

目录 引子 分析 应对 小结 引子 在开发和实施微信 JSAPI 支付的应用后&#xff0c;我们遇到了一些问题&#xff0c;订单的状态更新不正常&#xff0c;当然我们首先需要从自身寻找原因和完善解决问题的办法和方案。在支付的过程中&#xff0c;客户会给我们一些反馈&#xf…

Open-Sora1.2环境搭建推理测试

引子 前阵子写了一篇Open-Sora1.0环境搭建&推理测试&#xff08;Open-Sora1.0环境搭建&推理测试_自己搭建sora服务-CSDN博客&#xff0c;感兴趣的童鞋&#xff0c;请移步&#xff09;。Open-Sora1.1发布的时候&#xff0c;撇了一眼新闻。后面一转头&#xff0c;忘记这…

ARL联动AWVS实现自动化漏洞扫描

0x01 前言 很多场景下需要大范围的扫描漏洞和快速排查互联网暴露面的漏洞&#xff0c;需要使用这种自动化的手段&#xff0c;常规渗透测试的找互联网暴露面是&#xff0c;域名>子域名>IP>C段>端口&#xff0c;可以手动收集&#xff0c;也可以借助一些网络搜索引擎…

css中伪元素 :: before的用法

在CSS中&#xff0c;伪元素 ::before 用于在选定元素的内容前插入内容。它常用于添加图标、文本或装饰性的元素&#xff0c;而不需要在HTML中实际添加额外的标签。 以下是一个示例说明 ::before 的用法&#xff1a; <!DOCTYPE html> <html lang"en"> &…

一文解决Postman请求发送难题

标题&#xff1a;【技术深度解析】一文解决Postman请求发送难题 在API开发和测试过程中&#xff0c;Postman作为一款强大的工具&#xff0c;其重要性不言而喻。然而&#xff0c;开发者们时常会遇到Postman无法发送请求的问题&#xff0c;这无疑会严重影响开发进度和测试效率。…