NeMo训练llama2_7b(不用NeMo-Framework-Launcher)

@TOC

本文介绍了NeMo如何训练llama2_7b模型

1.参考链接

  • 支持的模型列表
  • 功能特性
  • LLAMA2端到端流程(基于NeMo-Framework-Launcher)

2.创建容器

docker run --gpus all --shm-size=32g -ti -e NVIDIA_VISIBLE_DEVICES=all \--privileged --net=host -v $PWD:/home \-w /home --name NeMo \nvcr.io/nvidia/nemo:24.05 /bin/bash
mkdir -p /home/NeMo

3.数据转换

  • 参考文档
cd /home/NeMo        
python /opt/NeMo/scripts/nlp_language_modeling/preprocess_data_for_megatron.py \--input=/home/autotrain/datasets/timdettmers/openassistant-guanaco/openassistant_best_replies_train.jsonl \--json-keys=text \--tokenizer-library=sentencepiece \--tokenizer-model=/home/ModelLink/llama-2-7b-hf/tokenizer.model \--output-prefix=gpt_training_data \--append-eod \--workers=32

4.从零开始训练

  • 参考文档
python /opt/NeMo/examples/nlp/language_modeling/megatron_gpt_pretraining.py  \--config-path=/opt/NeMo-Framework-Launcher/launcher_scripts/conf/training/llama \--config-name=llama2_7b \trainer.devices=8 \trainer.num_nodes=1 \trainer.max_epochs=null \trainer.max_steps=300000 \trainer.val_check_interval=300 \trainer.log_every_n_steps=50 \trainer.limit_val_batches=50 \trainer.limit_test_batches=50 \trainer.accumulate_grad_batches=1 \trainer.precision=bf16 \model.micro_batch_size=1 \model.global_batch_size=4 \model.tensor_model_parallel_size=4 \model.pipeline_model_parallel_size=2 \model.max_position_embeddings=1024 \model.encoder_seq_length=1024 \model.data.seq_length=1024 \model.tokenizer.library=sentencepiece \model.tokenizer.model=/home/ModelLink/llama-2-7b-hf/tokenizer.model \model.data.data_prefix=[1.0,gpt_training_data_text_document] \model.data.num_workers=0 \model.data.splits_string=\'980,10,10\' \exp_manager.resume_if_exists=True \exp_manager.resume_ignore_no_checkpoint=True \exp_manager.create_checkpoint_callback=True \exp_manager.checkpoint_callback_params.monitor=val_loss \exp_manager.checkpoint_callback_params.save_top_k=3 \exp_manager.checkpoint_callback_params.mode=min \exp_manager.checkpoint_callback_params.always_save_nemo=False \exp_manager.explicit_log_dir="./result" \exp_manager.wandb_logger_kwargs.name="llama2_7b" \model.optim.name=fused_adam \model.optim.lr=6e-4 \model.optim.betas=[0.9,0.95] \model.optim.weight_decay=0.1 \model.optim.sched.name=CosineAnnealing \model.optim.sched.warmup_steps=750 \model.optim.sched.constant_steps=80000 \model.optim.sched.min_lr=6e-5 \~model.optim.bucket_cap_mb \~model.optim.overlap_grad_sync \~model.optim.overlap_param_sync \~model.optim.contiguous_grad_buffer \~model.optim.contiguous_param_buffer

5.加载预训练模型,继续训练

A.模型转换

  • 参考文档
cd /opt/NeMo
python /opt/NeMo/scripts/checkpoint_converters/convert_llama_hf_to_nemo.py \--input_name_or_path /home/ModelLink/llama-2-7b-hf/ \--output_path llama-2-7b-hf-nemo 

B.开始训练

python /opt/NeMo/examples/nlp/language_modeling/megatron_gpt_continue_training.py  \--config-path=/opt/NeMo-Framework-Launcher/launcher_scripts/conf/training/llama \--config-name=llama2_7b \+restore_from_path="./llama-2-7b-hf-nemo" \trainer.devices=8 \trainer.num_nodes=1 \trainer.max_epochs=null \trainer.max_steps=300000 \trainer.val_check_interval=300 \trainer.log_every_n_steps=50 \trainer.limit_val_batches=50 \trainer.limit_test_batches=50 \trainer.accumulate_grad_batches=1 \model.micro_batch_size=1 \model.global_batch_size=4 \model.tensor_model_parallel_size=4 \model.pipeline_model_parallel_size=2 \model.max_position_embeddings=512 \model.encoder_seq_length=512 \model.data.seq_length=512 \model.tokenizer.library=sentencepiece \model.tokenizer.model=/home/ModelLink/llama-2-7b-hf/tokenizer.model \model.data.data_prefix=[1.0,gpt_training_data_text_document] \model.data.num_workers=0 \model.megatron_amp_O2=false \+model.seq_len_interpolation_factor=1 \model.data.splits_string=\'980,10,10\' \exp_manager.resume_if_exists=True \exp_manager.resume_ignore_no_checkpoint=True \exp_manager.create_checkpoint_callback=True \exp_manager.checkpoint_callback_params.monitor=val_loss \exp_manager.checkpoint_callback_params.save_top_k=3 \exp_manager.checkpoint_callback_params.mode=min \exp_manager.checkpoint_callback_params.always_save_nemo=False \exp_manager.explicit_log_dir="./result" \exp_manager.wandb_logger_kwargs.name="llama2_7b" \model.optim.name=fused_adam \run.results_dir="./result" \model.optim.lr=6e-4 \model.optim.betas=[0.9,0.95] \model.optim.weight_decay=0.1 \model.optim.sched.name=CosineAnnealing \model.optim.sched.warmup_steps=750 \model.optim.sched.constant_steps=80000 \model.optim.sched.min_lr=6e-5 \~model.optim.bucket_cap_mb \~model.optim.overlap_grad_sync \~model.optim.overlap_param_sync \~model.optim.contiguous_grad_buffer \~model.optim.contiguous_param_buffer

C.输出

  | Name  | Type     | Params
-----------------------------------
0 | model | GPTModel | 842 M
-----------------------------------
842 M     Trainable params
0         Non-trainable params
842 M     Total params
3,370.648 Total estimated model params size (MB)
Epoch 0: :   0%|               | 22/300000 [00:32<123:59:27, reduced_train_loss=1.400, global_step=21.00, consumed_samples=88.00, train_step_timing in s=1.470

6.其它命令[暂时不用]

mkdir -p unpacked_nemo_file
tar -xvf  llama-2-7b-hf-nemo -C unpacked_nemo_file* convert your legacy checkpoint to TP1 PP1 format
python /opt/NeMo/examples/nlp/language_modeling/megatron_change_num_partitions.py \--model_file="./llama-2-7b-hf-nemo" \--target_file="./output/llama-2-7b-hf-nemo_mp" \--target_tensor_model_parallel_size 4 \--target_pipeline_model_parallel_size 2  \--hparams_file="/opt/NeMo-Framework-Launcher/launcher_scripts/conf/training/llama/llama2_7b.yaml" mkdir -p unpacked_nemo_file_mp1tp1
tar -xvf ./llama-2-7b-hf-nemo -C unpacked_nemo_file_mp1tp1python /opt/NeMo/scripts/checkpoint_converters/convert_gpt_nemo_to_mcore.py \--input_name_or_path ./unpacked_nemo_file_mp1tp1 \--output_path ./output.nemo --cpu-only

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/22512.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

香橙派 Orange AIpro 测评记录视频硬件解码

香橙派 Orange AIpro 测评记录视频硬件解码 香橙派官网&#xff1a;http://www.orangepi.cn/ 收到了一块Orange Pi AIpro开发板&#xff0c;记录一下我的测评~测评简介如下&#xff1a;1.连接网络2.安装流媒体进行硬件解码测试3.安装IO测试 简介 Orange Pi AI Pro 是香橙派联合…

0基础学习区块链技术——链之间数据同步样例

我们可以在https://blockchaindemo.io/体验这个过程。 创建区块 默认第一个链叫Satoshi(中本聪)。链上第一个区块叫“创世区块”——Genesis Block。后面我们会看到创建的第二条链第一个区块也是如此。 新增链 新创建的链叫Debby。默认上面有一个创世区块。 然后我们让这…

Android自定义View - LayoutParams

这一期我们来讲一讲LayoutParams这个玩意儿。Android入门的第一行代码就牵扯到这个东西&#xff0c;然而&#xff0c;你真的理解够了吗&#xff1f; 第一层理解 <RelativeLayout xmlns:android"http://schemas.android.com/apk/res/android"xmlns:app"http…

C# 中文字符串转GBK字节的示例

一、编写思路 在 C# 中&#xff0c;将中文字符串转换为 GBK 编码的字节数组需要使用 Encoding 类。然而&#xff0c;Encoding 类虽然默认并不直接支持 GBK 编码&#xff0c;但是可以通过以下方式来实现这一转换&#xff1a; 1.使用系统已安装的编码提供者&#xff08;如果系统…

数据库查询字段在哪个数据表中

问题的提出 当DBA运维多个数据库以及多个数据表的时候&#xff0c;联合查询是必不可少的。则数据表的字段名称是需要知道在哪些数据表中存在的。故如下指令&#xff0c;可能会帮助到你&#xff1a; 问题的处理 查找sysinfo这个字段名称都存在哪个数据库中的哪个数据表 SELEC…

大模型日报2024-06-04

大模型日报 2024-06-04 大模型资讯 1-bit LLMs或能解决AI的能耗问题 摘要: 大型语言模型&#xff08;如ChatGPT&#xff09;的性能不断提升&#xff0c;但其规模也在扩大。1-bit LLMs有望在保持高性能的同时&#xff0c;大幅降低能耗&#xff0c;解决AI系统的能源需求问题。 Hu…

Ubuntu系统设置Redis与MySQL登录密码

Ubuntu系统设置Redis与MySQL登录密码 在Ubuntu 20.04系统中配置Redis和MySQL的密码&#xff0c;您需要分别对两个服务进行配置。以下是详细步骤&#xff1a; 配置Redis密码 打开Redis配置文件: Redis的配置文件通常位于/etc/redis/redis.conf。 sudo nano /etc/redis/redis.c…

从实战案例来学习结构化提示词(一)

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普,AI工具测评,AI效率提升,AI行业洞察。关注我,AI之…

C# 获取windows的上传下载速度

直接利用CZGL.SystemInfo代码 UnitType.cs /// <summary> /// 单位 /// </summary> public enum UnitType : int {/// <summary>/// Byte/// </summary>/// B 0,/// <summary>/// KB/// </summary>KB,/// <summary>/// MB/// </…

Python语法详解module1(变量、数据类型)

目录 一、变量1. 变量的概念2. 创建变量3. 变量的修改4. 变量的命名 二、数据类型1. Python中的数据类型2. 整型&#xff08;int&#xff09;3. 浮点型&#xff08;float&#xff09;4. 布尔型&#xff08;bool&#xff09;5. 字符串&#xff08;str&#xff09;6.复数&#xf…

MySQL中所有常见知识点汇总

存储引擎 这一张是关于整个存储引擎的汇总知识了。 MySQL体系结构 这里是MySQL的体系结构图&#xff1a; 一般将MySQL分为server层和存储引擎两个部分。 其实MySQL体系结构主要分为下面这几个部分&#xff1a; 连接器&#xff1a;负责跟客户端建立连 接、获取权限、维持和管理…

JavaScript第九讲BOM编程的练习题

前言 上一节有BOM的讲解&#xff0c;有需要的码客们可以去看一下 以下是一个结合了上述BOM&#xff08;Browser Object Model&#xff09;相关内容的练习题及其源代码示例&#xff1a; 练习题&#xff1a; 编写一个JavaScript脚本&#xff0c;该脚本应该执行以下操作&#…

1141. 查询近30天活跃用户数

1141. 查询近30天活跃用户数 题目链接&#xff1a;1141. 查询近30天活跃用户数 代码如下&#xff1a; # Write your MySQL query statement below select activity_date as day,count(distinct user_id) as active_users from Activity where activity_date between 2019-06-…

[数据集][图像分类]蘑菇分类数据集14689张50类别

数据集类型&#xff1a;图像分类用&#xff0c;不可用于目标检测无标注文件 数据集格式&#xff1a;仅仅包含jpg图片&#xff0c;每个类别文件夹下面存放着对应图片 图片数量(jpg文件个数)&#xff1a;14689 分类类别数&#xff1a;50 类别名称:[“agaricus_augustus”,“agari…

流程引擎,灵活设计业务流程的编辑器设计

流程引擎&#xff0c;灵活设计业务流程的编辑器设计

PySpark特征工程(I)--数据预处理

有这么一句话在业界广泛流传&#xff1a;数据和特征决定了机器学习的上限&#xff0c;而模型和算法只是逼近这个上限而已。由此可见&#xff0c;特征工程在机器学习中占有相当重要的地位。在实际应用当中&#xff0c;可以说特征工程是机器学习成功的关键。 特征工程是数据分析…

若依项目部署(Linux2.0)

解压jdk tar -zxvf jdk-8u151-linux-x64.tar.gz 配置Java环境变量&#xff1a; vim /etc/profile 设置环境变量生效&#xff1a; source /etc/profile 查看一下jdk版本&#xff1a; java -version 解压tomcat tar -zxvf apache-tomcat-8.5.20.tar.gz 防火墙设置&#xff1a; …

一款WPF的小巧MVVM框架——stylet框架初体验

今天偶然知道有一款叫做stylet的MVVM框架&#xff0c;挺小巧的&#xff0c;特别是它的命令触发方式&#xff0c;简单粗暴&#xff0c;让人感觉很神器。所以接下来我要做一个简单的demo&#xff0c;顺便来分享给大家。 本地创建一个WPF项目&#xff0c;此处我使用.NET 8来创建。…

前端 JS 经典:阿里云文件上传思路

前言&#xff1a;功能点概括&#xff1a;1、多选文件 2、选择文件夹 3、拖拽 4、选择后形成一个列表&#xff0c;列表里有一些信息 5、有进度条 6、控制并发数 7、可取消 8、展示统计信息 1. 交互实现 交互的目标是要拿到 file 对象。只要拿到 file 对象&#xff0c;就能通过…

大前端nestjs入门教程系列(五):nestjs整合jwt该怎么做

写在前面 相信大家对于jwt应该不陌生了,做过前后端分离的童鞋应该对jwt不陌生,但是jwt是用来干什么的呢?jwt是json web token的缩写,它是一个开放标准(RFC 7519),定义了一种紧凑且独立的方式,可以在各方通过JSON 对象安全地传输信息。此信息可以通过数字签名进行验证和…