大模型预训练实践

文章目录

    • 参数量计算

    本文是 LLMBox 和 YuLan-Chat 的预训练示例代码。此示例基于 Transformers 和 DeepSpeed 进行训练。在下面的示例代码中,train() 函数涵盖了预训练过程中的主要步骤,包括模型与分词器的初始化、训练数据的准备等;然后调用 Trainer 类来执行模型训练并保存训练状态。

参数量计算

1 from dataclasses import dataclass
2 from dataset.pt_dataset import PTDataset
3 from transformers import (
4 		AutoModelForCausalLM,
5		 AutoTokenizer,
6 		HfArgumentParser,
7 		TrainingArguments,
8 		Trainer,
9 )
10 from transformers.hf_argparser import HfArg
11
12
13 # 用户输入超参数
14 @dataclass
15 class Arguments(TrainingArguments):
16		 # 模型结构
17		 model_name_or_path: str = HfArg(
18				 default=None,
19				 help="The model name or path, e.g., `meta-llama/Llama-2-7b-hf`",
20		 )
21 		# 训练数据集
22		 dataset: str = HfArg(
23 				default="",
24 				help="Setting the names of data file.",
25		 )
26		 # 上下文窗口大小
27 		model_max_length: int = HfArg(
28 				default=2048,
29 				help&

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/877345.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AgentBench: Evaluating LLMs As Agents

AgentBench: Evaluating LLMs As Agents Github: https://github.com/THUDM/AgentBench 榜单:https://llmbench.ai/agent/data demos:https://llmbench.ai/agent/demo 备注:该论文介绍为AgentBench v0.2版本 一、介绍 现如今&am…

指令数据的构建

文章目录 基于现有的 NLP 任务数据集构建基于日常对话数据构建基于合成数据构建指令微调(Instruction Tuning)是指使用自然语言形式的数据对预训练后的大语言模型进行参数微调,这一术语由谷歌研究员在 2022 年的一篇 ICLR 论文中正式提出。在另外一些参考文献中,指令微调也…

三行代码高搞定nestjs静态图片映射方案

方案一 nestjs/serve-static 库映射 上代码 npm i nestjs/serve-staticimport { ServeStaticModule } from nestjs/serve-static; import { join } from path; const staticPath join(__dirname, .., /public/);Module({imports: [ServeStaticModule.forRoot({rootPath: sta…

用Python代码调用GPT-SoVITS

GPT-SoVITS 项目地址:https://github.com/RVC-Boss/GPT-SoVITS import os import requests from PySide6.QtCore import QThread from PySide6.QtWidgets import QWidget, QApplication from design import Ui_Form import subprocess import sounddevice as sd im…

JAVA基础 - 泛型

目录 一. 简介 二. 集合泛型 三. 自定义泛型 四. 自定义泛型类和普通类的区别 一. 简介 泛型是 Java 语言中一种强大的特性,它允许在定义类、接口和方法时使用类型参数,从而增加了代码的类型安全性和复用性。 类型安全性: 使用泛型可以…

day07 项目启动以及git

spring框架 spring 负责整合各种框架,把new对象的部分交给spring去做,对象new不出来,项目就启动不起来,这样可以有效保证所需要的对象都在容器中存在,后续的部分都可以顺利执行控制反转:业务对象创建依赖资…

19、基于DDD的微服务代码详解

本章将深入探讨如何基于领域驱动设计(DDD)开发微服务代码,并提供具体的代码示例和详细解释。我们将基于第十八章中的请假案例进行讲解,确保每个细节都不放过。 1、项目背景 回顾第十八章中请假案例的需求和设计,我们…

“八股文”在实际工作中是助力、阻力还是空谈?

一:浅谈 关于“八股文”在程序员面试中的重要性和实际工作中的作用,确实是一个引发广泛讨论的话题。以下是我对这个问题的看法: 1. “八股文”的定义与特征 “八股文”通常指的是面试中常见的标准化问答或经典理论知识,例如…

Apollo:源码分析之cyber/mainboard启动入口介绍-my write, test ok

软件结构图 cyber入口 cyber的入口在"cyber/mainboard"目录中: ├── mainboard.cc // 主函数 ├── module_argument.cc // 模块输入参数 ├── module_argument.h ├── module_controller.cc // 模块加载,卸载 └── module_controller.…

idea如何配置tomcat

1,点击Run---EDit Configurations... 2.点击左侧“”号,找到Tomcat Server---Local(若是没有找到Tomcat Server 可以点击最后一行 34 items more) 3.在Tomcat Server -> Unnamed -> Server -> Application server项目下&…

JumpServer关闭admin mfa验证

背景 因为上一次启动了mfa验证,但是没有验证就关机重启,导致再开机输入密码后需要mfa绑定,但是怎么也无法绑定成功,导致无法登录。 故希望通过后台取消mfa的验证 解决方法 1. 进入docker docker exec -it jms_core /bin/bash…

关于Docker Engine AuthZ 插件授权绕过漏洞 (CVE-2024-41110)

一、漏洞概述 漏洞名称:Docker Engine AuthZ 插件授权绕过漏洞 (CVE-2024-41110) 漏洞等级:高危 漏洞描述:DockerEngine是Docker的核心组件,是一 个开源的容器引擎,负责构建、运行和管理容器…

蓝牙BlueZ验证使用记录

最近使用的一款AICSemi AIC8800D8芯片做的WiFiBT二合一模组,该模组WiFi使用SDIO通信,BT使用UART通信,供应商丢了一份驱动,包含了三个目录:aic8800_bsp、aic8800_fdrv和aic8800_btlpm,而蓝牙部分提供了lbh_s…

【Vue】权限控制

权限管理 分类: 页面权限功能(按钮)权限接口权限 vue3-element-admin 的实现方案 一般我们在业务中将 路由可以分为两种,constantRoutes 和 asyncRoutes。 constantRoutes: 代表那些不需要动态判断权限的路由,如登录页、404(或…

标题:“八股文”在实际工作中是助力、阻力还是空谈?

标题:“八股文”在实际工作中是助力、阻力还是空谈? “八股文”,在程序员的面试和工作中一直是一个备受争议的话题。它既是许多程序员进入职场的敲门砖,也被一些人认为是脱离实际的空谈。本文将从“八股文”对招聘过程的影响、在…

【echarts】 柱状图,最后带“竖线”

具体: https://echarts.zhangmuchen.top/#/detail?cid28ea6-0601-e9f5-9cc29-c022b758 let data [{value: 0,name: 数据格式一},{value: 55,name: 数据格式二},{value: 66,name: 数据格式三},{value: 75,name: 数据格式四},{value: 20,name: 数据格式五}];getAr…

2、Flink 在 DataStream 和 Table 之间进行转换

1.概述 Table API 和 DataStream API 都可以处理有界流和无界流。 DataStream API 提供了流处理的基础(时间、状态和数据流管理);Table API 抽象了许多内部内容,并提供了一个结构化和声明性的 API;在处理历史数据时,需要管理有边界的流;无边界流出现在实时处理场景中,…

wordpress调用栏目最新内容、调用栏目推荐内容、调用栏目随机内容

想要在首页调用wordpress某个栏目的内容,可以按照分类ID来调用,调用出来的内容一般有:调用栏目最新内容、调用栏目推荐内容、调用栏目随机内容这三种形式。简站wordpress小编在此为大家放出三种不同方式调用的代码如下: 通过指定…

盘点.软件测试模型

软件开发模型   软件开发模型(Software Development Model)是指软件开发全部过程、活动和任务的结构框架。软件开发包括需求、设计、编码和测试等阶段,有时也包括维护阶段。 软件开发模型能清晰、直观地表达软件开发全过程,明确规定了要完成的主要活动…

云计算day15

⼀、web基本概念和常识 Web:为⽤户提供的⼀种在互联⽹上浏览信息的服务,Web 服 务是动态的、可交 互的、跨平台的和图形化的。 Web 服务为⽤户提供各种互联⽹服务,这些服务包括信息浏览 服务,以及各种交互式服务,…