大模型咨询培训叶梓老师:数千大模型,1张GPU搞定——UC Berkeley提出全新微调方法S-LoRA

在大语言模型(LLM)的部署中,通常采用“预训练-微调”范式。为了适应多样化的任务,参数高效的微调方法如低秩适应(LoRA)被广泛使用。然而,如何高效地服务这些微调变体仍然是一个未探索的问题。S-LoRA,一个为可扩展服务设计的LoRA适配器系统。S-LoRA通过统一分页、异构批处理和多GPU张量并行策略,实现了在单个GPU或多GPU上以极小的开销服务数千个LoRA适配器。

LoRA是一种参数高效的微调方法,通过在训练阶段添加可训练的低秩矩阵来适应预训练的LLM。这种方法显著减少了可训练参数的数量和内存消耗。在推理阶段,LoRA建议将低秩矩阵与基础模型的权重合并,从而在推理期间不增加额外的开销。

S-LoRA概述

S-LoRA包含三个主要创新点:统一分页、异构批处理和多GPU张量并行策略。这些创新使得S-LoRA能够有效地管理和调度主机和GPU内存,并在多个GPU之间协调并行性。

  1. 统一分页(Unified Paging)

    • 内存池:S-LoRA引入了一个统一的内存池,用于管理动态的适配器权重和KV缓存张量。这个内存池通过分页机制来优化内存的使用,减少内存碎片,并平衡KV缓存和适配器权重的动态变化大小。
    • 内存管理:由于GPU内存有限,S-LoRA将所有适配器存储在主内存中,并根据当前正在运行的查询动态地将所需的适配器加载到GPU内存中。这种管理方式允许系统在单个机器上存储和访问大量的适配器,而不受GPU内存大小的限制。
  2. 异构批处理(Heterogeneous Batching)

    • 自定义CUDA内核:S-LoRA使用高度优化的自定义CUDA内核来执行不同秩和序列长度的LoRA适配器的批处理计算。这些内核能够在非连续的内存布局上运行,从而有效地处理来自不同适配器的计算。
    • 延迟最小化:为了最小化在批处理不同适配器时引入的延迟开销,S-LoRA特别设计了这些内核,以支持不同秩的适配器进行高效的批处理,从而减少了与基线模型相比的额外开销。
  3. 多GPU张量并行策略(Multi-GPU Tensor Parallelism)

    • 模型并行性:S-LoRA设计了一种新的张量并行策略,用于在多个GPU上进行批量LoRA推理,支持大型变换器模型的高效服务。
    • 通信成本:这种策略通过在小的中间张量上调度通信,并与基础模型的通信融合,最小化了LoRA计算引入的通信成本。
    • 内存使用:该策略在内存使用上是最优的,因为它将所有权重矩阵分割到所有设备上,没有复制的权重矩阵,从而减少了每GPU的内存使用和延迟。

这些创新点共同作用,使得S-LoRA能够有效地管理和调度主机和GPU内存,并且在多个GPU之间协调并行性,从而实现了对数千个LoRA适配器的高效服务。通过这种方式,S-LoRA不仅提高了吞吐量,还保证了服务的低延迟,这对于实时应用和服务至关重要。此外,S-LoRA的架构还允许它扩展到更多的适配器和更大的模型,而不受单一GPU内存容量的限制。

评估

S-LoRA的性能评估是通过一系列实验来完成的,这些实验旨在模拟合成和真实生产工作负载下的性能表现。在这些评估中,S-LoRA展示了其在单个GPU或多GPU环境下服务大量LoRA适配器的能力,并且具有很低的额外开销。

  1. 实验设置
  • 模型和硬件:评估使用了Llama模型系列,这是流行的大语言模型之一。实验在不同的硬件配置上进行,包括单个NVIDIA A10G GPU、A100 GPU,以及多A100 GPU的设置。
  • 基线系统:S-LoRA与现有的参数高效微调库HuggingFace PEFT和高吞吐量服务系统vLLM进行了比较。这些系统代表了当前技术水平,它们在某些方面有各自的优化,但在处理大量LoRA适配器时存在限制。

     2.评估指标

  • 吞吐量:系统每秒可以处理的请求数量。
  • 平均请求延迟:处理每个请求所需的平均时间。
  • 平均首令牌延迟:模型生成其首个输出令牌所需的平均时间。
  • SLO(服务水平目标)达成率:在特定时间内完成请求的百分比。

     3.实验结果

  • S-LoRA在合成工作负载上的表现非常出色,能够以极小的开销服务多达2000个LoRA适配器。相比之下,vLLM-packed由于GPU内存限制,只能服务少于5个适配器,并且由于错过了批处理机会,其吞吐量也显著低于S-LoRA。
  • 在与PEFT的比较中,尽管PEFT可以通过批次之间交换适配器权重来处理大量适配器,但由于缺乏高级批处理方法和内存管理,其性能显著较差。S-LoRA的吞吐量比PEFT高出30倍。
  • 当与vLLM进行比较时,S-LoRA在服务少量适配器时的吞吐量提高了4倍,并且能够支持显著更多的适配器。

      4.多GPU张量并行性

  • S-LoRA还对多GPU张量并行性进行了测试,包括在不同数量的GPU上运行大型模型,如Llama-30B和Llama-70B,并调整适配器的数量。
  • 实验结果显示,S-LoRA在多GPU设置中表现出良好的扩展性,当从2个GPU增加到4个GPU时,服务吞吐量超过了两倍的增长。这表明,随着GPU数量的增加,系统能够有效地缓解内存限制,实现超线性的扩展。

S-LoRA的性能评估结果证明了其在服务大规模LoRA适配器方面的优势。与现有的技术相比,S-LoRA不仅在吞吐量上有显著提升,而且在内存管理和批处理策略上也更加高效。这些评估结果强调了S-LoRA在实际部署中的潜力,特别是在需要定制化微调和高吞吐量服务的场景中。

原论文链接:

https://arxiv.org/pdf/2311.03285.pdf

代码链接:

https://github.com/S-LoRA/S-LoRA

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/5913.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

VBA技术资料MF147:从Excel运行PowerPoint演示文稿

我给VBA的定义:VBA是个人小型自动化处理的有效工具。利用好了,可以大大提高自己的工作效率,而且可以提高数据的准确度。“VBA语言専攻”提供的教程一共九套,分为初级、中级、高级三大部分,教程是对VBA的系统讲解&#…

redis ZRANGE 使用最详细文档

环境: redis_version:7.2.2 本文参考 redis 官方文档1 语法 ZRANGE key start stop [BYSCORE | BYLEX] [REV] [LIMIT offset count] [WITHSCORES]参数含义key是有序集合的键名start stop在不同语境下,可用值不一样BYSCORE | BYLEX按照分数查询 | 相…

【SQL每日一练】统计复旦用户8月练题情况

文章目录 题目一、分析二、题解1.使用case...when..then2.使用if 题目 现在运营想要了解复旦大学的每个用户在8月份练习的总题目数和回答正确的题目数情况,请取出相应明细数据,对于在8月份没有练习过的用户,答题数结果返回0. 示例代码&am…

Excel 批量获取sheet页名称,并创建超链接指向对应sheet页

参考资料 用GET.WORKBOOK函数实现excel批量生成带超链接目录且自动更新 目录 一. 需求二. 名称管理器 → 自定义获取sheet页名称函数三. 配合Index函数,获取所有的sheet页名称四. 添加超链接,指向对应的sheet页 一. 需求 ⏹有如下Excel表,需…

Easy TCP Analysis上线案例库功能,为用户提供一个TCP抓包分析案例分享学习的平台

​案例库,提供给用户相互分享TCP抓包故障排查案例或是经典学习案例的功能,任何用户都可从案例库查看其它用户分享的案例,每个用户也都可以上传自己的案例,经过平台审核去重即可展示在案例库。 对于学习,最典型的三次握…

【Docker学习】docker start深入研究

docker start也是很简单的命令。但因为有了几个选项,又变得复杂,而且... 命令: docker container start 描述: 启动一个或多个已停止的容器。 用法: docker container start [OPTIONS] CONTAINER [CONTAINER...] 别名&…

【网络编程】网络基础

TCP/IP五层模型 物理层:负责光/电信号的传递方式. 比如现在以太网通用的网线(双绞线)、早期以太网采用的的同轴电缆(现在主要用于有线电视)、光纤,现在的 WIFI无线网使用电磁波等都属于物理层的概念。物理层…

使用 uni-app 开发 iOS 应用的操作步骤

哈喽呀,大家好呀,淼淼又来和大家见面啦,上一期和大家一起探讨了使用uniapp开发iOS应用的优势及劣势之后有许多小伙伴想要尝试使用uniapp开发iOS应用,但是却不懂如何使用uniapp开发iOS应用,所以这一期淼淼就来给你们分享…

数据结构复习指导之数组和特殊矩阵

文章目录 数组和特殊矩阵 考纲内容 复习提示 前言 1.数组的定义 2.数组的存储结构 3.特殊矩阵的压缩存储 3.1对称矩阵 3.2三角矩阵 3.3三对角矩阵 4.稀疏矩阵 5.知识回顾 数组和特殊矩阵 考纲内容 (一)栈和队列的基本概念 (二&a…

【C++】:const成员,取地址及const取地址操作符重载

目录 一,const成员二,取地址及const取地址操作符重载 一,const成员 将const修饰的“成员函数”称之为const成员函数,const修饰类成员函数,实际修饰该成员函数隐含的this指针,表明在该成员函数中不能对类的…

百度竞价开户详解:步骤、优势与注意事项

随着互联网的普及,网络营销已成为企业不可或缺的一部分。其中,百度竞价作为一种高效的网络推广方式,受到了越来越多企业的青睐。本文将详细介绍百度竞价开户的流程、优势以及注意事项,帮助企业更好地利用这一工具提升品牌知名度和…

UnityWebGL获取话筒实时数据

看了木子李大佬的数字人https://digital.lkz.fit/之后,我也想搞一个,于是开始研究起来,先从WebGL录音开始,一共试了三个插件,个个都有问题…… 1、UnityWebGLMicrophone 用起来没啥问题,但是只能录音&#…

数据结构的队列(c语言版)

一.队列的概念 1.队列的定义 队列是一种常见的数据结构,它遵循先进先出的原则。类似于现实生活中排队的场景,最先进入队列的元素首先被处理,而最后进入队列的元素则要等到前面的元素都被处理完后才能被处理。 在队列中,元素只能…

《恶意不息》是一款什么样的游戏,苹果电脑怎么玩《恶意不息》恶意不息游戏内怎么存档 mac电脑玩游戏

近日steam游戏商城新上架了一款名叫《恶意不息》的游戏十分火爆,那么《恶意不息》是一款什么样的游戏,苹果电脑怎么玩《恶意不息》?一起来看看吧! 一、《恶意不息》是一款什么样的游戏? Private Division,…

【蓝桥杯嵌入式】第七届省赛 - 模拟液位检测告警系统

代码开源,Gitee自取 代码开源,Gitee自取 代码开源,Gitee自取 目录 0 前言 1 展示 1.1 源码 1.2 演示视频 1.3 题目展示 2 工程配置 3 资源配置&代码实现 3.1 定时器 3.2 液位检测 3.3 液位阈值设定 3.4 液位阈值设定 3.5 串…

BST二叉搜索树

概念 二叉搜索树(Binary Search Tree,简称BST),又称为二叉排序树或二叉查找树,是一种特殊的二叉树数据结构。它具有以下基本性质: 节点的值的有序性:对于BST中的任意一个节点,其左…

Angular基础-搭建Angular运行环境

这篇文章介绍了在Angular项目中进行开发环境搭建的关键步骤。包括node.js安装和配置、安装Angular CLI工具、安装angular-router、创建Angular项目等步骤。这篇文章为读者提供了清晰的指南,帮助他们快速搭建Angular开发环境,为后续的项目开发奠定基础。 …

【Debug】TensorRT报错汇总

搭建TensorRT过程参见:【通俗易懂】Windows系统安装TensorRT 下面是运行中的问题汇总及解决。 报错1. No module named ‘pycuda’ 解决: pip install pycuda报错2. AttributeError: ‘tensorrt.tensorrt.Builder’ object has no attribute ‘max_wor…

在ubuntu 24.04 上安装vmware workstation 17.5.1

ubuntu安装在新组装的i9 14900机器上,用来学习笨叔的ARM64体系结构编程,也熟悉Linux的用法。但有时候写文档总是不方便,还是需要window来用。因此想在ubuntu 24.04上安装Linux版本的vmware worksation 17.5.1以虚拟机的方式安装windows 11。其…

信息技术内涵及意义

一、信息技术及其演进趋势 (一)信息技术概况概念 信息技术(Information Technology,IT)指“应用在信息加工和处理中的科学、技术与工程的训练方法与管理技巧;上述方法和技巧的应用;计算机及其…