大模型咨询培训叶梓老师:数千大模型,1张GPU搞定——UC Berkeley提出全新微调方法S-LoRA

在大语言模型(LLM)的部署中,通常采用“预训练-微调”范式。为了适应多样化的任务,参数高效的微调方法如低秩适应(LoRA)被广泛使用。然而,如何高效地服务这些微调变体仍然是一个未探索的问题。S-LoRA,一个为可扩展服务设计的LoRA适配器系统。S-LoRA通过统一分页、异构批处理和多GPU张量并行策略,实现了在单个GPU或多GPU上以极小的开销服务数千个LoRA适配器。

LoRA是一种参数高效的微调方法,通过在训练阶段添加可训练的低秩矩阵来适应预训练的LLM。这种方法显著减少了可训练参数的数量和内存消耗。在推理阶段,LoRA建议将低秩矩阵与基础模型的权重合并,从而在推理期间不增加额外的开销。

S-LoRA概述

S-LoRA包含三个主要创新点:统一分页、异构批处理和多GPU张量并行策略。这些创新使得S-LoRA能够有效地管理和调度主机和GPU内存,并在多个GPU之间协调并行性。

  1. 统一分页(Unified Paging)

    • 内存池:S-LoRA引入了一个统一的内存池,用于管理动态的适配器权重和KV缓存张量。这个内存池通过分页机制来优化内存的使用,减少内存碎片,并平衡KV缓存和适配器权重的动态变化大小。
    • 内存管理:由于GPU内存有限,S-LoRA将所有适配器存储在主内存中,并根据当前正在运行的查询动态地将所需的适配器加载到GPU内存中。这种管理方式允许系统在单个机器上存储和访问大量的适配器,而不受GPU内存大小的限制。
  2. 异构批处理(Heterogeneous Batching)

    • 自定义CUDA内核:S-LoRA使用高度优化的自定义CUDA内核来执行不同秩和序列长度的LoRA适配器的批处理计算。这些内核能够在非连续的内存布局上运行,从而有效地处理来自不同适配器的计算。
    • 延迟最小化:为了最小化在批处理不同适配器时引入的延迟开销,S-LoRA特别设计了这些内核,以支持不同秩的适配器进行高效的批处理,从而减少了与基线模型相比的额外开销。
  3. 多GPU张量并行策略(Multi-GPU Tensor Parallelism)

    • 模型并行性:S-LoRA设计了一种新的张量并行策略,用于在多个GPU上进行批量LoRA推理,支持大型变换器模型的高效服务。
    • 通信成本:这种策略通过在小的中间张量上调度通信,并与基础模型的通信融合,最小化了LoRA计算引入的通信成本。
    • 内存使用:该策略在内存使用上是最优的,因为它将所有权重矩阵分割到所有设备上,没有复制的权重矩阵,从而减少了每GPU的内存使用和延迟。

这些创新点共同作用,使得S-LoRA能够有效地管理和调度主机和GPU内存,并且在多个GPU之间协调并行性,从而实现了对数千个LoRA适配器的高效服务。通过这种方式,S-LoRA不仅提高了吞吐量,还保证了服务的低延迟,这对于实时应用和服务至关重要。此外,S-LoRA的架构还允许它扩展到更多的适配器和更大的模型,而不受单一GPU内存容量的限制。

评估

S-LoRA的性能评估是通过一系列实验来完成的,这些实验旨在模拟合成和真实生产工作负载下的性能表现。在这些评估中,S-LoRA展示了其在单个GPU或多GPU环境下服务大量LoRA适配器的能力,并且具有很低的额外开销。

  1. 实验设置
  • 模型和硬件:评估使用了Llama模型系列,这是流行的大语言模型之一。实验在不同的硬件配置上进行,包括单个NVIDIA A10G GPU、A100 GPU,以及多A100 GPU的设置。
  • 基线系统:S-LoRA与现有的参数高效微调库HuggingFace PEFT和高吞吐量服务系统vLLM进行了比较。这些系统代表了当前技术水平,它们在某些方面有各自的优化,但在处理大量LoRA适配器时存在限制。

     2.评估指标

  • 吞吐量:系统每秒可以处理的请求数量。
  • 平均请求延迟:处理每个请求所需的平均时间。
  • 平均首令牌延迟:模型生成其首个输出令牌所需的平均时间。
  • SLO(服务水平目标)达成率:在特定时间内完成请求的百分比。

     3.实验结果

  • S-LoRA在合成工作负载上的表现非常出色,能够以极小的开销服务多达2000个LoRA适配器。相比之下,vLLM-packed由于GPU内存限制,只能服务少于5个适配器,并且由于错过了批处理机会,其吞吐量也显著低于S-LoRA。
  • 在与PEFT的比较中,尽管PEFT可以通过批次之间交换适配器权重来处理大量适配器,但由于缺乏高级批处理方法和内存管理,其性能显著较差。S-LoRA的吞吐量比PEFT高出30倍。
  • 当与vLLM进行比较时,S-LoRA在服务少量适配器时的吞吐量提高了4倍,并且能够支持显著更多的适配器。

      4.多GPU张量并行性

  • S-LoRA还对多GPU张量并行性进行了测试,包括在不同数量的GPU上运行大型模型,如Llama-30B和Llama-70B,并调整适配器的数量。
  • 实验结果显示,S-LoRA在多GPU设置中表现出良好的扩展性,当从2个GPU增加到4个GPU时,服务吞吐量超过了两倍的增长。这表明,随着GPU数量的增加,系统能够有效地缓解内存限制,实现超线性的扩展。

S-LoRA的性能评估结果证明了其在服务大规模LoRA适配器方面的优势。与现有的技术相比,S-LoRA不仅在吞吐量上有显著提升,而且在内存管理和批处理策略上也更加高效。这些评估结果强调了S-LoRA在实际部署中的潜力,特别是在需要定制化微调和高吞吐量服务的场景中。

原论文链接:

https://arxiv.org/pdf/2311.03285.pdf

代码链接:

https://github.com/S-LoRA/S-LoRA

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/5913.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

VBA技术资料MF147:从Excel运行PowerPoint演示文稿

我给VBA的定义:VBA是个人小型自动化处理的有效工具。利用好了,可以大大提高自己的工作效率,而且可以提高数据的准确度。“VBA语言専攻”提供的教程一共九套,分为初级、中级、高级三大部分,教程是对VBA的系统讲解&#…

redis ZRANGE 使用最详细文档

环境: redis_version:7.2.2 本文参考 redis 官方文档1 语法 ZRANGE key start stop [BYSCORE | BYLEX] [REV] [LIMIT offset count] [WITHSCORES]参数含义key是有序集合的键名start stop在不同语境下,可用值不一样BYSCORE | BYLEX按照分数查询 | 相…

OceanBase 分布式数据库【信创/国产化】- OceanBase 数据库的发展历程

本心、输入输出、结果 文章目录 OceanBase 分布式数据库【信创/国产化】- OceanBase 数据库的发展历程前言OceanBase 数据更新架构OceanBase 数据库的发展历程OceanBase 分布式数据库【信创/国产化】- OceanBase 数据库的发展历程 编辑 | 简简单单 Online zuozuo 地址 | https:…

React 15~18每个阶段更新了什么

文章目录 React 15React 16React 17 试验性并发模式React 18 React 15 React.createClass (弃用) class 组件 函数组件(无状态、纯UI组件) 堆栈diff(同步更新state1->state2->state3…、每个更新过程不可中断&a…

【SQL每日一练】统计复旦用户8月练题情况

文章目录 题目一、分析二、题解1.使用case...when..then2.使用if 题目 现在运营想要了解复旦大学的每个用户在8月份练习的总题目数和回答正确的题目数情况,请取出相应明细数据,对于在8月份没有练习过的用户,答题数结果返回0. 示例代码&am…

13、Flink 的 Operator State 详解

1.算子状态 (Operator State) 算子状态(或者非 keyed 状态)是绑定到一个并行算子实例的状态,Kafka consumer 每个并行实例维护了 topic partitions 和偏移量的 map 作为它的算子状态。 当并行度改变的时候,算子状态支持将状态重…

Excel 批量获取sheet页名称,并创建超链接指向对应sheet页

参考资料 用GET.WORKBOOK函数实现excel批量生成带超链接目录且自动更新 目录 一. 需求二. 名称管理器 → 自定义获取sheet页名称函数三. 配合Index函数,获取所有的sheet页名称四. 添加超链接,指向对应的sheet页 一. 需求 ⏹有如下Excel表,需…

Java 正则表达式代码演示

正则表达式(Regular Expressions)是一种用于描述字符串匹配模式的强大工具。在 Java 中,可以使用 java.util.regex 包来处理正则表达式。 文章目录 一、基本用法二、高级用法 一、基本用法 导入正则表达式类: import java.util.regex.Patte…

Easy TCP Analysis上线案例库功能,为用户提供一个TCP抓包分析案例分享学习的平台

​案例库,提供给用户相互分享TCP抓包故障排查案例或是经典学习案例的功能,任何用户都可从案例库查看其它用户分享的案例,每个用户也都可以上传自己的案例,经过平台审核去重即可展示在案例库。 对于学习,最典型的三次握…

webscoket+webrtc实现语音通话

1.项目方案 前端采用webrtc创建音频上下文,后创建音频源输入和音频处理器,连接音频输入与处理器,处理器再连接到音频输出(扬声器),再通过事件获取音频数据,把音频数据转换成字节数据通过webscok…

【Docker学习】docker start深入研究

docker start也是很简单的命令。但因为有了几个选项,又变得复杂,而且... 命令: docker container start 描述: 启动一个或多个已停止的容器。 用法: docker container start [OPTIONS] CONTAINER [CONTAINER...] 别名&…

【网络编程】网络基础

TCP/IP五层模型 物理层:负责光/电信号的传递方式. 比如现在以太网通用的网线(双绞线)、早期以太网采用的的同轴电缆(现在主要用于有线电视)、光纤,现在的 WIFI无线网使用电磁波等都属于物理层的概念。物理层…

搭建AI大模型步骤

搭建AI大模型需要以下步骤: 数据收集和预处理:收集大量的训练数据,并进行清洗、标注和预处理,使其适合模型训练。 模型选择:根据具体的任务需求,选择适合的深度学习模型,如卷积神经网络&#x…

QtConcurrent::run操作界面ui的注意事项

先说结论:QtConcurrent::run启动的耗时处理函数,不允许处理ui界面对象,如控件,如进度条等等! QtConcurrent::run非常好用,胜过QThead的两种方式(run和moveToThread),例如…

使用 uni-app 开发 iOS 应用的操作步骤

哈喽呀,大家好呀,淼淼又来和大家见面啦,上一期和大家一起探讨了使用uniapp开发iOS应用的优势及劣势之后有许多小伙伴想要尝试使用uniapp开发iOS应用,但是却不懂如何使用uniapp开发iOS应用,所以这一期淼淼就来给你们分享…

数据结构复习指导之数组和特殊矩阵

文章目录 数组和特殊矩阵 考纲内容 复习提示 前言 1.数组的定义 2.数组的存储结构 3.特殊矩阵的压缩存储 3.1对称矩阵 3.2三角矩阵 3.3三对角矩阵 4.稀疏矩阵 5.知识回顾 数组和特殊矩阵 考纲内容 (一)栈和队列的基本概念 (二&a…

【C++】:const成员,取地址及const取地址操作符重载

目录 一,const成员二,取地址及const取地址操作符重载 一,const成员 将const修饰的“成员函数”称之为const成员函数,const修饰类成员函数,实际修饰该成员函数隐含的this指针,表明在该成员函数中不能对类的…

百度竞价开户详解:步骤、优势与注意事项

随着互联网的普及,网络营销已成为企业不可或缺的一部分。其中,百度竞价作为一种高效的网络推广方式,受到了越来越多企业的青睐。本文将详细介绍百度竞价开户的流程、优势以及注意事项,帮助企业更好地利用这一工具提升品牌知名度和…

UnityWebGL获取话筒实时数据

看了木子李大佬的数字人https://digital.lkz.fit/之后,我也想搞一个,于是开始研究起来,先从WebGL录音开始,一共试了三个插件,个个都有问题…… 1、UnityWebGLMicrophone 用起来没啥问题,但是只能录音&#…

数据结构的队列(c语言版)

一.队列的概念 1.队列的定义 队列是一种常见的数据结构,它遵循先进先出的原则。类似于现实生活中排队的场景,最先进入队列的元素首先被处理,而最后进入队列的元素则要等到前面的元素都被处理完后才能被处理。 在队列中,元素只能…