大语言模型训练

大语言模型训练

  • 1.两大问题
  • 2.并行训练
    • 2.1数据并行
    • 2.2模型并行
    • 2.3张量并行
    • 2.4混合并行
  • 3.权重计算
    • 3.1浮点数
    • 3.2混合精度训练
    • 3.3deepspeed(微软)
      • 3.3.1 ZeRO
      • 3.3.2ZeRO-offload
    • 3.3总结
  • 4.PEFT
    • 4.1Prompt Tuning
    • Prefix-tuning
    • 4.2P-tuning & P-tuning v2
  • 5.Adapter
  • 6.LoRA
  • 7.模型推理加速(KV cache 技术)

1.两大问题

  1. 效率问题
    数据量大,如何快速完成训练
  2. 显存问题
    模型太大,如何在GPU上完成运算

2.并行训练

2.1数据并行

思路: 复制模型到多个GPU上,将训练的数据也拆分成相同份数,交由不同的GPU模型上训练,各自计算梯度后,传到某台机器上,累加,求平均,再反传到各个模型中,进行更新。这样每台机器的模型权重是一致的。

优点: 效率高,相当于一份工作分给多个人做,完成的也就块。
缺点: 要求单卡就能训练整个模型(显存够大)。

示意图:
在这里插入图片描述

2.2模型并行

思路:模型的不同层放在不同的GPU上由前往后,依次计算,最后一层计算完成后,计算loss值,则由后到前依次计算,完成各层更新。

优点: 解决单块卡不够大的问题(模型比显存大)。
缺点: 需要更多的通讯时间(卡之间互相传输数据)。并且是单向串行,因为后面的模型层必须等前面传递数据才能计算。

示意图:
在这里插入图片描述

2.3张量并行

思路: 将张量划分到不同GPU上进行运算,其本质也是一种模型并行,只是它的并行的粒度更小,小到某层网络的权重计算拆分到不同的GPU上。

优点: 进一步减少对单卡显存的需求
缺点: 需要更多的数据通讯

示意图1:最后两部分,前后拼接起来
在这里插入图片描述
示意图2:最后两部分,对位相加
在这里插入图片描述
在transformer中多头机制,每个头在一个GPU上计算。

2.4混合并行

介绍: BLOOM模型训练时采用的并行计算结构,并且是混合并行,即采用数据并行:将数据拆分为4组,又采用模型并行,将模型层拆分到12组GPU上,进行流水线计算;在每一组GPU上,将分到该组上的模型层,再采用张量并行的原则进行计算。

示意图:
在这里插入图片描述

3.权重计算

3.1浮点数

三种浮点数的格式:
在这里插入图片描述
简介: FP32、FP16都是原有计算的浮点数数据格式,为了机器学习的,设计了BF16的格式。8个bit为1字节。

浮点数表示公式:
在这里插入图片描述
注意: 指数E影响的是浮点数的大小范围,而尾数M则影响浮点数的小数位数,即浮点数精确度。

举例:

例:25.125 D = 十进制 B = 二进制
整数部分:25(D) = 11001(B)
小数部分:0.125(D) = 0.001(B)
用二进制科学计数法表示:25.125(D) = 11001.001(B) = 1.1001001 * 2^4(B)
符号位 S = 0
尾数 M = 1.001001 = 001001(去掉1,隐藏位)
指数 E = 4 + 127(中间数) = 135(D) = 10000111(B)

图示如下:
在这里插入图片描述
精度损失举例:

将0.2(十进制)转化为二进制数:
0.2 * 2 = 0.4 -> 0
0.4 * 2 = 0.8 -> 0
0.8 * 2 = 1.6 -> 1
0.6 * 2 = 1.2 -> 1
0.2 * 2 = 0.4 -> 0(发生循环)

0.2(D) = 0.00110…(B)

由于浮点数尾数位数有限,最后只能截断,导致精度损失

例如: 0.00…(800个0)…01 + 1 = 1

3.2混合精度训练

原理: 模型在训练时,采用的是FP16位的浮点数进行的计算,在进行梯度计算,更新权重时,则采用FP32的浮点数更新。

原因: 模型在训练或者是推理时,FP16精度,一般情况下够用,为了节省资源,则不使用FP32的;但是在权重更新,计算loss时,由于有很多位小数,如果浮点数精度太低,可能导致计算出的梯度为0;无法更新权重。

在这里插入图片描述
释义:

  1. 上面图中,在模型更新这块,完整保留了一份FP32浮点数的模型权重,计算loss和更新时,是更新的该参数。
  2. 完成FP32浮点数的权重更新后,再转为FP16位的权重,放到训练中去,进行第二轮训练。

3.3deepspeed(微软)

3.3.1 ZeRO

简介: deepspeed是微软提供的一个加速框架,里面提供了数据并行、模型并行、张量并行、混合并行策略,这是主要介绍其:零冗余优化器 ZeRO。

示意图:
在这里插入图片描述
释义:

  1. stage0 指的就是数据并行模式。由于模型权重、梯度都是BF16,即2个字节,即代表MemoryConsumed的前两个2;K是指优化器的不同参数会不同,这里的优化器是adam,有3个初始化参数:m、v、t;并且都是FP32的浮点数,即4字节,所以是12
  2. stage1指的是模型并行,这里只是将Optimizer States分散到不同的机器中,这里是Nd=64,即分到64张卡上,所以MemoryConsumed最后一个参数是除以Nd。
  3. stage2指的是模型并行,这里不仅将优化器,还把梯度也分散到不同的机器/卡中,计算同上。
  4. stage3指的是模型并行,这里将优化器,梯度、参数都分散到不同的机器/卡中,是完整的模型并行模式。
    5.上面的计算都是基于全量微调的资源计算方式。

3.3.2ZeRO-offload

简介: 把一部分计算放到内存中,用CPU计算;目的是解决显存不足问题,但是CPU并行计算比较慢。
在这里插入图片描述

3.3总结

  1. 训练速度
    Stage 0 > Stage 1 > Stage 2 > Stage 2 + offload > Stage 3 > Stage 3 + offloads

  2. 显存效率(指固定显存下,能够训练的模型大小)
    Stage 0 < Stage 1 < Stage 2 < Stage 2 + offload < Stage 3 < Stage 3 + offloads

4.PEFT

简介: Parameter-Efficient Fine-Tuning;当训练整个大模型不能实现时,可以采取的一种策略;即通过最小化微调参数的数量缓解大型预训练模型的训练成本。

4.1Prompt Tuning

在这里插入图片描述
释义:

  1. 原理:即将各类任务较好的提示词进行整理,将提示词与任务问题结合,多个不同类型的任务材料和对应提示词加在一起,作为微调的语料,只是这个时候冻结模型的权重,只让embedding可以进行训练;使得embedding的结果在这些任务上能够更好的拟合后面的模型权重,使得模型能够更好的处理这些token,从而完成这些任务。

Prefix-tuning

在这里插入图片描述

4.2P-tuning & P-tuning v2

在这里插入图片描述

5.Adapter

在这里插入图片描述
释义:

  1. 上图中,左侧是一个原有的transformer结构中,添加了Adapter模型层
  2. 训练时调整的是Adapter中的FeedFoward层的参数,这样调整的参数就很小,需要的资源就可以降低。
  3. 上图中,右侧是即为Adapter的模型结构,包含两个Feedfoward层和一个激活函数
  4. Adapter中的两个FF就是训练的参数,这里会通过降维升维操作,再次降低参数量
    a. 输入Feedfowarddown-project时,矩阵为:768 * 768;FFDP为:768 * 8;FFUP为:8 * 768;
    这样就比两个FFDP和FFUP都为768 * 768参数要小的多。

优点:

  1. 加入的Adapter的参数的变化对模型的影响深远,因为添加的模型是在transformer的结构中的。
  2. 通过加入Adapter模型,与全量微调相比,训练的参数减少,降低了极大部分的训练资源开销。

缺点:
3. 增加了模型的深度,因为是和Transformer中的结构串联的。

6.LoRA

示意图:
在这里插入图片描述
释义:

  1. 上图左侧蓝色表示预训练模型的任意一个线性层;右侧表示LoRA模型,即可以在预训练模型的任意一层线性层旁边加入LoRA模型进行微调。
  2. LoRA使用的仍然是Adapter的思想,在网络中加入新的训练模型,结合原有预训练模型参数,获得对下游任务的良好表现,只是LoRA是并联
  3. 其中A、B分别可以等价于Adapter中的FFDP、FFUP两层。
  4. r就是秩;比如:W是L * H 是768 * 768;A、B分别是:768 * 8 、8 * 768;那么这里的8就是r。
  5. transformer结构中,大多数网络层都是线性的;比如Q、K、V;那么这些模型层都可以加入LoRA进行微调训练。对模型改变和影响深度非常大。
  6. 注意: 初始化A、B权重矩阵时,注意,A的权重是随机初始化的,B的权重是全部为0可以进行微调训练的原因: 为了微调的起点是预训练模型,B的权重为0,则A、B相乘为0;如果A、B都不会零,随机初始化,就会导致训练一开始,计算loss,就不是基于预训练模型进行的微调。如果A、B初始化都为零,则梯度更难计算,模型学习更加困难。
  7. LoRA有参数:r、lora_alpha、lora_dropout、target_modules;r就是降维的比例;lora_dropout就是Dropout参数;target_modules即需要加载LoRA模型的位置;加上LoRA后,可以看成:下面BAx的部分,最后BAx会乘以一个缩放参数,这个参数值是:lora_alpha与r的商
    在这里插入图片描述

优点:

  1. 加入的LoRA的模型,添加的模型层更多,可为微调的范围也就越大,更能对模型输出施加影响。
  2. 与全量微调相比,训练的参数减少,降低了极大部分的训练资源开销。
  3. 没有加深模型的整体层数和深度,模型计算更快。

7.模型推理加速(KV cache 技术)

简介: 由于并发、响应速度的需求,需要在不影响模型推理效果的基础上,提高现有模型推理速度,根据对模型的结构和计算过程的分析,在self-attention结构上,有一个非常好的改进点。

示意图:在这里插入图片描述
原理: 在Q、K、V计算时,有一个与文本等长的矩阵,计算输入中,各字词之间的要素相关性;在推理预测下一个字的过程中,矩阵的长宽是不断变大的,计算量也就不断变大;由于每次预测相较于前一次,只是增加了前一个输出的相关性,那么将前面的输出的相关性,存在缓存中,每次只计算新增的这一个输出,就会减少大量的计算量。

举例如下:
在这里插入图片描述
释义:

  1. 原有计算:将今天天气不错,全部输入到Q、K计算矩阵中,也就每次计算,都是完整的内容。
  2. 当前计算:每次计算Q、K的结果都保留到缓存中,上述内容中,当前只需要计算:这一列;前面今天天气不都直接用缓存中的即可。并且将当前的计算,也加入到缓存中。降低的计算时间、计算量。效果显著。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/55943.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

sentinel dashboard分布式改造落地设计实现解释(二)-分布式discovery组件

discovery discovery负责维护app/机器资料库&#xff0c;transport健康检测&#xff0c; transport上下线处理。discovery关键是分布式存储&#xff0c;后续研究一下raft&#xff0c;其复制&#xff0c;状态机&#xff0c;快照技术&#xff0c;但个人觉得&#xff0c;discover…

DBeaver连接Hive教程

hive shell&#xff1a;通过hive shell来操作hive&#xff0c;但是至多只能存在一个hive shell&#xff0c;启动第二个会被阻塞&#xff0c;也就是说hive shell不支持并发操作。 基于JDBC等协议&#xff1a;启动hiveserver2&#xff0c;通过jdbc协议可以访问hive&#xff0c;hi…

基于SSM服装定制系统的设计

管理员账户功能包括&#xff1a;系统首页&#xff0c;个人中心&#xff0c;用户管理&#xff0c;服装类型管理&#xff0c;服装信息管理&#xff0c;服装定制管理&#xff0c;留言反馈&#xff0c;系统管理 前台账号功能包括&#xff1a;系统首页&#xff0c;个人中心&#xf…

git commit / push 报错 文件不存在

1. 错误信息 尝试使用 git restore --staged filename 取消暂存&#xff0c;但是报错 2. 解决方法 进入 当前仓库/.git文件夹内&#xff0c;删除 index.lock 文件 再执行 git restore --staged filename 等操作。

通过无线路由器连接三菱PLC的设置方法

1.首先设置无线路由器上网方式为DHCP&#xff08;自动获取IP地址&#xff09;。点击保存&#xff0c;然后点击更多功能 2.再点击网络设置-局域网&#xff0c;勾选DHCP服务器&#xff0c;此功能的作用是对局域网内所有设备分配IP地址。 然后保存&#xff1b; 3.再点击系统设置…

Git极速入门

git初始化 git -v git config --global user.name "" git config --global user.email "" git config --global credential.helper store git config --global --list省略(Local) 本地配置&#xff0c;只对本地仓库有效–global 全局配置&#xff0c;所有…

云计算实验1——基于VirtualBox的Ubuntu安装和配置

实验步骤 1、VirtualBox的安装 本实验使用VirtualBox-7.0.10 进行演示。对于安装包&#xff0c;大家可以前往 VirtualBox官网下载页面(https :/ / www. virtualbox.org/wiki/Downloads)下载其7.0版本安装包进行安装&#xff0c;或者直接使用QQ群的安装包VirtualBox-7.0.10-15…

给定一个正整数n随机生成n个字节即生成2n个十六进制数将其组成字符串返回secrets.token_hex(n)

【小白从小学Python、C、Java】 【考研初试复试毕业设计】 【Python基础AI数据分析】 给定一个正整数n 随机生成n个字节 即生成2n个十六进制数 将其组成字符串返回 secrets.token_hex(n) [太阳]选择题 根据题目代码&#xff0c;执行的结果错误的是&#xff1f; import secrets …

对vue响应式数据的理解(vue基础,面试,源码级讲解)

首先我们要知道哪些数据可以劫持。 是否可以劫持&#xff1a; 在JavaScript等动态语言中&#xff0c;字符串和数字虽然是基本数据类型&#xff08;也称为原始数据类型&#xff09;&#xff0c;但它们可以包装成对象&#xff08;如String对象和Number对象&#xff09;进行处理。…

软件测试笔记——接口测试

文章目录 一、概念1.接口测试流程2.URL3.HTTP协议4.RESTful5.案例介绍 二、Postman1.Postman软件2.登录接口调试-获取验证码3.登录接口调试-自动关联数据4.合同上传接口-提交请求数据5.提交参数查询6.批量执行7.接口用例设计8.断言8.参数化三、案例1.项目2.课程添加3.课程列表查…

萤石云服务支持云端视频AI自动剪辑生成

萤石视频云存储及媒体处理服务是围绕IoT设备云端存储场景下的音视频采集、媒体管理、视频剪辑和分发能力的一站式、专业云服务&#xff0c;并可面向广大开发者提供复杂设备存储场景下的完整技术方案。目前该服务新增了视频剪辑功能&#xff0c;支持将视频片段在云端进行裁剪并拼…

大数据新视界 --大数据大厂之数据脱敏技术在大数据中的应用与挑战

&#x1f496;&#x1f496;&#x1f496;亲爱的朋友们&#xff0c;热烈欢迎你们来到 青云交的博客&#xff01;能与你们在此邂逅&#xff0c;我满心欢喜&#xff0c;深感无比荣幸。在这个瞬息万变的时代&#xff0c;我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的…

智能取暖桌:以九芯电子NRK3502语音识别芯片提升用户体验

随着科技的不断发展&#xff0c;智能家居市场日益繁荣。智能取暖桌作为其中的一款产品&#xff0c;受到了广大消费者的关注。在智能取暖桌的众多创新中&#xff0c;九芯电子NRK3502语音识别芯片的融入&#xff0c;为用户体验带来了质的飞跃。 首先&#xff0c;NRK3502语音识别芯…

#每日一题#自动化 2024年10月

#每日一题#自动化 2024年10月 1、深拷贝和浅拷贝的区别是什么&#xff1f; 参考答案&#xff1a; 深拷贝是将对象本身复制给另一个对象。这意味着如果对对象的副本进行更改时不会影响原对象。在 Python 中&#xff0c;我们使用 deepcopy&#xff08;&#xff09;函数进行深拷贝…

Vue3——模板引用

绑定dom组件 defineExpose 可以用来暴露子组件的变量&#xff08;例如 ref 或 reactive&#xff09;和方法。这让父组件可以直接访问子组件的某些状态。 defineExpose 示例 以下是如何通过 defineExpose 暴露变量的示例&#xff1a; <template> <div> <bu…

空间数据分析实验04:空间统计分析

实验概况 实验目的 了解空间统计分析的基本原理掌握空间统计分析的常用方法 实验内容 根据某村的土地利用数据和DEM数据&#xff0c;提取各村组耕地面积比例&#xff0c;并将其与村组平均坡度进行相关性分析&#xff0c;最后计算各村组单元的景观多样性指数。 实验原理与方…

鸿蒙网络编程系列30-断点续传下载文件示例

1. 断点续传简介 在文件的下载中&#xff0c;特别是大文件的下载中&#xff0c;可能会出现各种原因导致的下载暂停情况&#xff0c;如果不做特殊处理&#xff0c;下次还需要从头开始下载&#xff0c;既浪费了时间&#xff0c;又浪费了流量。不过&#xff0c;HTTP协议通过Range…

基于web的酒店客房管理系统【附源码】

基于web的酒店客房管理系统&#xff08;源码L文说明文档&#xff09; 目录 4 系统设计 4.1 系统概述 4.2系统结构 4.3.数据库设计 4.3.1数据库实体 4.3.2数据库设计表 5系统详细实现 5.1 用户信息管理 5.2 会员信息管理 5.3 客房信息管理 5.…

k8s系列-Rancher 上操作的k8s容器网络配置总结

Rancher 上操作的k8s容器网络配置总结 要在 Rancher 中配置Spring Boot 应用 ykhd-zhjgyw-xpwfxfjfl 服务&#xff0c;正确的配置方式如下&#xff1a; 1. 应用程序监听端口 在 application.yaml 文件中&#xff0c;配置的应用监听端口是 10001&#xff0c;并且应用的上下文…

【Linux】Shell概念、命令、操作(重定向、管道、变量)

文章目录 一、概念篇1、shell的概念2、shell的分类 二、命令篇1、cat2、echo3、ps4、grep4.1、匹配行首4.2、大小写 5、sed 三、操作篇1、自动补全2、查看历史命令3、命令替换4、重定向4.1、输入重定向4.2、输出重定向4.3、错误重定向 5、管道6、shell中的变量6.1、本地变量6.2…