LMDeploy 量化部署

在这里插入图片描述

LMDeploy简介

LMDeploy是一个由MMDeploy和MMRazor团队联合开发的工具包，旨在为大型语言模型（LLM）提供全套的轻量化、部署和服务解决方案。以下是对LMDeploy的简介，采用分点表示和归纳的方式：

核心功能：
- 高效推理引擎TurboMind：基于FasterTransformer，实现了高效推理引擎TurboMind，支持InternLM、LLaMA、vicuna等模型在NVIDIA GPU上的推理。TurboMind开发了一系列关键特性，如持久批处理、阻塞KV缓存、动态拆分融合、张量并行和高性能CUDA内核，确保LLM推理的高吞吐和低延迟。
- 交互式推理模式：通过在多轮对话过程中缓存注意力的k/v，引擎能够记住对话历史，避免历史会话的重复处理。
- 量化支持：LMDeploy支持多种量化方法和量化模型的高效推理，通过降低显存占用和提升推理速度来优化模型性能。其量化方法包括线性量化和聚类量化，以及定点化模型输出。
技术特点：
- 量化优化：LMDeploy使用AWQ算法实现模型的4bit权重量化，并且TurboMind推理引擎提供了非常高效的4bit推理cuda kernel，性能是FP16的2.4倍以上。
- KV Cache量化：LMDeploy支持通过API Server方式启动，允许用户调整KV Cache的占用比例，以及使用命令行客户端与Gradio网页客户端与模型进行交互。
- 多模态支持：LMDeploy还正式支持多模态（视觉）模型推理和服务，扩展了其应用范围。
环境搭建与基础配置：
- 环境推荐：使用torch1.11.0, ubuntu20.04, python版本为3.8, cuda版本为11.3, 使用v100来进行实验。
- 虚拟环境创建与激活：使用conda创建和激活虚拟环境，以隔离不同项目的依赖。
- 包导入：根据需要导入所需的Python包，并考虑使用镜像源以提高下载速度。
部署流程：
- 模型转换：支持在线转换和本地命令行转换。
- TurboMind推理：支持命令行本地对话和API服务。
- 网页Demo演示：提供网页形式的模型演示功能。

LMDeploy是一个功能强大的工具包，通过提供高效推理引擎、交互式推理模式和多种量化支持，为大型语言模型的轻量化、部署和服务提供了全面的解决方案。

代码实践部分

import lmdeploy
from modelscope.hub.snapshot_download import snapshot_download
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
# save_dir是模型保存到本地的目录
save_dir="/root/LLM//model"# 1.下载internlm2-chat-1_8b
snapshot_download("Shanghai_AI_Laboratory/internlm2-chat-1_8b", cache_dir=save_dir, revision='v1.1.0')#pipe = lmdeploy.pipeline("/root/LLM/model/Shanghai_AI_Laboratory/internlm2-chat-1_8b")
#response = pipe(["Hi, pls intro yourself", "Shanghai is"])
#print(response)tokenizer = AutoTokenizer.from_pretrained("/root/LLM//model/Shanghai_AI_Laboratory/internlm2-chat-1_8b", trust_remote_code=True)# Set `torch_dtype=torch.float16` to load model in float16, otherwise it will be loaded as float32 and cause OOM Error.
model = AutoModelForCausalLM.from_pretrained("/root/LLM//model/Shanghai_AI_Laboratory/internlm2-chat-1_8b", torch_dtype=torch.float16, trust_remote_code=True).cuda()
model = model.eval()inp = "hello"
print("[INPUT]", inp)
response, history = model.chat(tokenizer, inp, history=[])
print("[OUTPUT]", response)inp = "please provide three suggestions about time management"
print("[INPUT]", inp)
response, history = model.chat(tokenizer, inp, history=history)
print("[OUTPUT]", response)

在这里插入图片描述

使用LMDeploy运行模型

在使用 LMDeploy 与模型进行对话时，通常需要一个可以执行自然语言处理任务的模型。以下是使用 LMDeploy 运行模型并与之进行对话的通用命令格式：

lmdeploy -m MODEL_NAME -q QUERY

这里：

MODEL_NAME 是你的模型的名称。
QUERY 是你想让模型回答的问题或执行的自然语言处理任务。
例如，如果你有一个名为 my_model 的模型，你可以这样使用它：

lmdeploy -m my_model -q "你好，今天天气怎么样？"

LMDeploy 会处理你的查询，并返回模型的响应。请注意，LMDeploy 是一个假设的工具，如果你在寻找一个实际的工具，可能需要查找一个与你的具体需求和环境相匹配的工具。

session 1double enter to end input >>> 你好<|im_start|>system
You are an AI assistant whose name is InternLM (书生·浦语).
- InternLM (书生·浦语) is a conversational language model that is developed by Shanghai AI Laboratory (上海人工智能实验室). It is designed to be helpful, honest, and harmless.
- InternLM (书生·浦语) can understand and communicate fluently in the language chosen by the user such as English and 中文.
<|im_end|>
<|im_start|>user
你好<|im_end|>
<|im_start|>assistant2024-06-13 13:40:36,813 - lmdeploy - WARNING - kwargs ignore_eos is deprecated for inference, use GenerationConfig instead.
2024-06-13 13:40:36,814 - lmdeploy - WARNING - kwargs random_seed is deprecated for inference, use GenerationConfig instead.
你好，有什么我可以帮忙的吗？

LMDeploy 模型量化方案概述

在深入探讨LMDeploy的量化方案之前，我们先来理解两个核心概念：计算密集型和访存密集型。计算密集型场景意味着推理过程中，数值计算占据了大部分时间；而访存密集型则是指数据读取占据了推理的主要时间。对于LLM（大型语言模型）这类Decoder Only架构的模型，其推理过程往往表现为访存密集型，因此，如何有效减少访存占用的显存空间，对提升GPU计算效率至关重要。

量化的目的

量化技术的主要目标是减小数据交换（即访存）所占用的显存空间。具体来说，它有两种常见的方法：

KV8量化：在解码（Decoding）过程中，对上下文K和V的中间结果进行INT8量化，并在需要计算时再进行反量化。这种方法能够显著降低显存的占用，提高显存的利用率。
W4A16量化：该方法将FP16（16位浮点数）的模型权重量化为INT4（4位整数）。在Kernel计算时，由于访存的数据量减少到FP16模型的1/4，从而大幅降低了访存成本。值得注意的是，这种量化方式仅针对权重进行，数值计算时依然采用FP16（通过反量化INT4权重实现）。

实践操作

接下来，我们将针对这两种量化方式，介绍一些实践操作建议：

设置最大KV Cache缓存大小

KV Cache是一种高效的缓存技术，通过存储键值对的形式复用计算结果，以减少重复计算，并降低内存消耗。在LMDeploy中，你可以通过--cache-max-entry-count参数来设置KV Cache占用剩余显存的最大比例。默认值为0.8，意味着KV Cache将占用最多80%的剩余显存。

然而，调整KV Cache的大小需要在访存速度和显存占用之间进行权衡。虽然减小KV Cache的占比可以释放更多显存供模型计算使用，但也可能导致访存速度降低，进而影响推理速度。因此，在实际应用中，需要根据具体情况调整该参数，找到访存速度与显存占用之间的最佳平衡点。

#通过--cache-max-entry-count参数的大小控制KV缓存占用剩余显存的最大比例，默认为0.8
lmdeploy chat /root/LLM//model/Shanghai_AI_Laboratory/internlm2-chat-1_8b --cache-max-entry-count 0.5

设置W4A16量化
当使用LMDeploy进行W4A16量化时，您需要确保正确配置了量化参数。以下是修改后的命令，用于执行W4A16量化并将结果保存到指定路径：

# 使用W4A16量化
lmdeploy lite auto_awq \/root/LLM//model/Shanghai_AI_Laboratory/internlm2-chat-1_8b \ # 需要量化的模型的路径--calib-dataset 'ptb' \--calib-samples 128 \--calib-seqlen 1024 \--w-bits 4 \ # 指定权重使用 4 位--a-bits 16 \ # 通常不需要显式指定激活的位数，但如果是W4A16，这里可以显式指出激活是16位（如果LMDeploy支持）--w-group-size 128 \ # 指定权重分组的大小--work-dir /root/LLM//model/Shanghai_AI_Laboratory/internlm2-chat-1_8b-4bit \ # 权重量化为4bit后的模型保存路径--output-model-path /root/LLM//model/Shanghai_AI_Laboratory/internlm2-chat-1_8b-4bit/quantized_model.pt \ # （可选）指定输出量化模型的精确路径

请注意以下几点：

lmdeploy lite auto_awq：这是一个命令行工具，用于部署和自动调整权重量化（Automatic Weight Quantization）的机器学习模型。
/root/model/internlm2-chat-1_8b：这是模型文件的路径。其中，/root/model/ 是目录路径，internlm2-chat-1_8b 是模型名称，1_8b 可能代表该模型具有约1.8亿参数。
–calib-dataset ‘ptb’：指定了用于校准量化模型的数据集。'ptb' 通常指的是Penn TreeBank数据集，这是一个常用的自然语言处理数据集。
–calib-samples 128：定义了从校准数据集中使用的样本数量。这里使用了128个样本进行校准。
–calib-seqlen 1024：指定了在校准时序列的长度，这里被设置为1024个单元。这对于文本或序列生成任务来说是一个常见的设置。
–w-bits 4：定义了权重量化的位宽。这里的4表示模型权重将被量化为4位，从而减少模型大小并提高运算速度，但可能会损失一些精度。
–w-group-size 128：指定了权重分组的大小，用于量化。这里每组包含128个权重。分组量化是一种常用的量化技术，可以提高量化后的模型性能。
–work-dir /root/LLM/internlm2-chat-1_8b-4bit：指定了工作目录，即量化后的模型和相关文件将被保存的位置。这里，/root/LLM/internlm2-chat-1_8b-4bit 表示保存4位量化后模型的工作目录。