沈阳企业网站制作哪家好/保定网站建设报价

沈阳企业网站制作哪家好,保定网站建设报价,查企业app,wordpress 在线点餐BatchSize 显存占用:与batch_size呈线性关系,可理解为 M t o t a l M f i x e d B a t c h S i z e ∗ M p e r − s a m p l e M_{total}M_{fixed}BatchSize*M_{per-sample} Mtotal​Mfixed​BatchSize∗Mper−sample​,其中 M f i x e d…

BatchSize

显存占用:与batch_size呈线性关系,可理解为 M t o t a l = M f i x e d + B a t c h S i z e ∗ M p e r − s a m p l e M_{total}=M_{fixed}+BatchSize*M_{per-sample} Mtotal=Mfixed+BatchSizeMpersample,其中 M f i x e d M_{fixed} Mfixed指的是模型本身固定占用的显存(由参数数量决定)和优化器状态(也由参数数量决定)

总训练时间:理论上与BatchSize无关(总数不变,单步训练时间增加,总步数减少),但实际中随BatchSize越大,总时间可能减少(硬件并行效率提升),直到显存或硬件并行能力达到瓶颈。

截断长度(输入序列分词后的最大长度,即每条样本被大模型读取的最大长度)

1. 显存占用

在大型语言模型(如 Transformer)中,显存占用主要与模型的激活值(Activations)有关,而激活值的大小受到输入序列长度(即截断长度)的直接影响。以下是逐步分析:

激活值的定义

激活值是指模型在正向传播过程中每一层计算出的中间结果,通常存储在显存中,以便反向传播时计算梯度。对于 Transformer 模型,激活值主要与注意力机制(Self-Attention)和前馈网络(Feed-Forward Network, FFN)的计算相关。

显存占用的组成

显存占用主要包括:

  • 模型参数(权重和偏置):与模型规模(层数、隐藏维度)相关,与截断长度无关。
  • 激活值:与输入序列长度(截断长度 L L L)、批次大小(batch size B B B)、隐藏维度(hidden size H H H)和层数( N N N)成正比。
  • 梯度(训练时):与参数量和激活值大小相关。

对于激活值部分,显存占用主要来源于:

  1. 注意力机制:计算 Q ⋅ K T Q \cdot K^T QKT的注意力分数矩阵,尺寸为 ( B , L , L ) (B, L, L) (B,L,L),每层需要存储。
  2. 中间张量:如 V V V的加权和、前馈层的输出等。
数学表达式

假设: L L L:截断长度(序列长度), B B B:批次大小, H H H:隐藏维度, N N N:模型层数, P P P:浮点数精度(如 FP32 为 4 字节,FP16 为 2 字节)

激活值的显存占用近似为:
显存 激活值 ≈ N ⋅ B ⋅ L ⋅ H ⋅ P + N ⋅ B ⋅ L 2 ⋅ P \text{显存}_{\text{激活值}} \approx N \cdot B \cdot L \cdot H \cdot P + N \cdot B \cdot L^2 \cdot P 显存激活值NBLHP+NBL2P

  • 第一项 N ⋅ B ⋅ L ⋅ H ⋅ P N \cdot B \cdot L \cdot H \cdot P NBLHP:表示每层的线性张量(如 Q , K , V Q, K, V Q,K,V或 FFN 输出)的显存占用。
  • 第二项 N ⋅ B ⋅ L 2 ⋅ P N \cdot B \cdot L^2 \cdot P NBL2P:表示注意力分数矩阵的显存占用(仅在标准注意力机制中显著,若使用优化如 FlashAttention,则可能减少)。

结论:显存占用与截断长度 L L L呈线性( O ( L ) O(L) O(L))到二次方( O ( L 2 ) O(L^2) O(L2))的关系,具体取决于注意力机制的实现方式。


2. 训练时间

训练时间主要与计算量(FLOPs,浮点运算次数)和硬件并行能力有关,而截断长度会影响计算量。

计算量的组成
  1. 注意力机制:每层的计算量与 L 2 L^2 L2相关,因为需要计算 L × L L \times L L×L的注意力矩阵。
  2. 前馈网络:每层的计算量与 L L L线性相关,因为对每个 token 独立计算。

总计算量(FLOPs)近似为:
FLOPs ≈ N ⋅ B ⋅ ( 2 ⋅ L 2 ⋅ H + 4 ⋅ L ⋅ H 2 ) \text{FLOPs} \approx N \cdot B \cdot (2 \cdot L^2 \cdot H + 4 \cdot L \cdot H^2) FLOPsNB(2L2H+4LH2)

  • 2 ⋅ L 2 ⋅ H 2 \cdot L^2 \cdot H 2L2H:注意力机制的矩阵乘法(如 Q ⋅ K T Q \cdot K^T QKT softmax ⋅ V \text{softmax} \cdot V softmaxV),
  • 4 ⋅ L ⋅ H 2 4 \cdot L \cdot H^2 4LH2:前馈网络的计算(假设 FFN 隐藏层维度为 4 H 4H 4H)。
训练时间

训练时间与 FLOPs 成正比,同时受硬件并行能力(如 GPU 的计算核心数)影响。假设每秒浮点运算能力为 F GPU F_{\text{GPU}} FGPU(单位:FLOPs/s),则单次前向+反向传播的训练时间为:
时间 ≈ FLOPs F GPU ≈ N ⋅ B ⋅ ( 2 ⋅ L 2 ⋅ H + 4 ⋅ L ⋅ H 2 ) F GPU \text{时间} \approx \frac{\text{FLOPs}}{F_{\text{GPU}}} \approx \frac{N \cdot B \cdot (2 \cdot L^2 \cdot H + 4 \cdot L \cdot H^2)}{F_{\text{GPU}}} 时间FGPUFLOPsFGPUNB(2L2H+4LH2)

结论:训练时间与截断长度 L L L呈线性( O ( L ) O(L) O(L))到二次方( O ( L 2 ) O(L^2) O(L2))的关系,具体取决于注意力机制的计算占比。


3. 总结

  • 显存占用:与 L L L O ( L ) O(L) O(L) O ( L 2 ) O(L^2) O(L2)关系,取决于是否存储完整的注意力矩阵。
  • 训练时间:与 L L L O ( L ) O(L) O(L) O ( L 2 ) O(L^2) O(L2)关系,注意力机制的二次项通常更显著。

1

假设某模型大小为5GB,推理所需显存也为5GB,普通Lora微调(FP16)所需显存为5GB*2=10GB,8bit的QLora量化为5GB/2=2.5GB,4bit的QLora量化为5GB/4=1.25GB

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/72393.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PentestGPT 下载

PentestGPT 下载 PentestGPT 介绍 PentestGPT(Penetration Testing GPT)是一个基于大语言模型(LLM)的智能渗透测试助手。它结合了 ChatGPT(或其他 GPT 模型)与渗透测试工具,帮助安全研究人员自…

防火墙虚拟系统实验

一实验拓扑 二实验过程 配置资源 创建虚拟系统 配置管理员 创建安全策略

Linux与深入HTTP序列化和反序列化

深入HTTP序列化和反序列化 本篇介绍 在上一节已经完成了客户端和服务端基本的HTTP通信,但是前面的传递并没有完全体现出HTTP的序列化和反序列化,为了更好得理解其工作流程,在本节会以更加具体的方式分析到HTTP序列化和反序列化 本节会在介绍…

基于Python+SQLite实现(Web)验室设备管理系统

实验室设备管理系统 应用背景 为方便实验室进行设备管理,某大学拟开发实验室设备管理系统 来管理所有实验室里的各种设备。系统可实现管理员登录,查看现有的所有设备, 增加设备等功能。 开发环境 Mac OSPyCharm IDEPython3Flask&#xff…

深拷贝and浅拷贝!

一、什么是拷贝?什么是深拷贝和浅拷贝? (1)拷贝:拷贝就是为了复用原对象的部分or全部数据,在原对象的基础上通过复制的方式创建一个新的对象。 拷贝对象可以分为三种类型:直接赋值、浅拷贝和深拷…

高频面试题(含笔试高频算法整理)基本总结回顾43

干货分享,感谢您的阅读! (暂存篇---后续会删除,完整版和持续更新见高频面试题基本总结回顾(含笔试高频算法整理)) 备注:引用请标注出处,同时存在的问题请在相关博客留言…

网络爬虫【简介】

我叫补三补四,很高兴见到大家,欢迎一起学习交流和进步 今天来讲一讲视图 一、网络爬虫的定义 网络爬虫(Web Crawler),又称为网络蜘蛛、网络机器人等,是一种按照一定规则自动抓取互联网信息的程序或脚本。它…

​AI时代到来,对电商来说是效率跃升,还是温水煮青蛙

​凌晨三点的义乌商贸城,95后创业者小王,静静地盯着屏幕上的AI工具,竟露出了笑容。这个月他的跨境玩具店销量提升了不少,从之前的状态翻了3倍;而且团队人数有所变化,从5人缩减到了2人(其中包括他…

PDF文件密码保护破解:安全解密的步骤与技巧

PDF文件加密后,需要特定的密码才能访问内容。以下是一些常见的方法来解密PDF文件: 方法一:使用Adobe Acrobat 如果你有Adobe Acrobat Pro,可以使用它来解密PDF文件。 打开Adobe Acrobat Pro: 启动Adobe Acrobat Pro…

qt 自带虚拟键盘的编译使用记录

一、windows 下编译 使用vs 命令窗口,分别执行: qmake CONFIG"lang-en_GB lang-zh_CN" nmake nmake install 如果事先没有 指定需要使用的输入法语言就进行过编译,则需要先 执行 nmake distclean 清理后执行 qmake 才能生效。 …

C++刷题(二):栈 + 队列

📝前言说明: 本专栏主要记录本人的基础算法学习以及刷题记录,使用语言为C。 每道题我会给出LeetCode上的题号(如果有题号),题目,以及最后通过的代码。没有题号的题目大多来自牛客网。对于题目的…

精通游戏测试笔记(持续更新)

第一章、游戏测试的两条规则 不要恐慌 不要将这次发布当作最后一次发布 不要相信任何人 把每次发布当作最后一次发布 第二章:成为一名游戏测试工程师

Windows功能之FTP服务器搭建

一、创作背景 之前有用linux系统搭建过ftp服务器,最近想着用windows系统也顺便搭建一个,看网上有第三方服务软件一键部署,记得windows可以不借助第三方软件就可以搭建,就想顺便操作试试,结果老是连接不上,费…

星型组网模块的两种交互方式优缺点解析

星型组网模块简介 星型组网模块工作在433MHz频段;星型组网模块集主机(协调器)、终端为一体,星型组网模块具有长距离、高速率两种传输模式,一个主机(协调器)支持多达200个节点与其通讯&#xff0…

【2025.3.13】记一次双系统笔记本加装固态硬盘记录 linux扩容 linux更换/home和/opt所在硬盘 windows无法调整亮度

文章目录 🌕事情经过🌕更换/home和/opt的挂载硬盘🌙目的🌙初始化1t固态硬盘🌙打开Linux查看硬盘信息🌙给新1t固态硬盘分区🌙格式化分区🌙把新1t固态硬盘先挂载到/mnt/ssd_1t 用于后续…

【测试语言基础篇】Python基础之List列表

一、Python 列表(List) 序列是Python中最基本的数据结构。序列中的每个元素都分配一个数字 - 它的位置,或索引,第一个索引是0,第二个索引是1,依此类推。 Python有6个序列的内置类型,但最常见的是列表和元组。序列都可…

软件测试之使用Requests库进行接口测试

文章目录 前言Requests库是什么为什么要用Requests库进行接口测试安装Requests库Requests库使用发送GET请求发送带查询参数的GET请求响应内容格式添加请求头信息发送一个POST请求查看响应内容断言请求超时Cookie与Session模拟登录 参考目录 前言 阅读本文前请注意最后编辑时间…

AttributeError: module ‘backend_interagg‘ has no attribute ‘FigureCanvas‘

AttributeError: module backend_interagg has no attribute FigureCanvas 这个错误通常是由于 Matplotlib 的后端配置问题引起的。具体来说,Matplotlib 在尝试加载某个后端时,发现该后端模块中缺少必要的属性(如 FigureCanvas)&a…

iWebOffice2015 中间件如何在Chrome107及之后的高版本中加载

iWebOffice2015是江西金格科技有限公司开发的一款智能文档中间件,和一些知名OA及ERP公司曾经达成OEM合作,所以用户一度比较多,但不幸的是Chromium内核浏览器在2022年10月份发布的107版本中永久取消了对PPAPI插件的加载支持,导致使…

OpnenHarmony 开源鸿蒙北向开发——1.开发环境搭建(DevEco Studio 5.03)

我这边是基于window下对OpenHarmony开源鸿蒙进行北向开发。 一、安装DevEco Studio 1、下载 下载中心 | 华为开发者联盟-HarmonyOS开发者官网,共建鸿蒙生态 2、安装 下载完成之后进行解压 双击进行安装 按照我的步骤进行 选择安装目录,全部配置完成后…