[大模型]Qwen2-7B-Instruct vLLM 部署调用

vLLM 简介

vLLM 框架是一个高效的大语言模型推理和部署服务系统,具备以下特性:

  • 高效的内存管理:通过 PagedAttention 算法,vLLM 实现了对 KV 缓存的高效管理,减少了内存浪费,优化了模型的运行效率。
  • 高吞吐量vLLM 支持异步处理和连续批处理请求,显著提高了模型推理的吞吐量,加速了文本生成和处理速度。
  • 易用性vLLMHuggingFace 模型无缝集成,支持多种流行的大型语言模型,简化了模型部署和推理的过程。兼容 OpenAIAPI 服务器。
  • 分布式推理:框架支持在多 GPU 环境中进行分布式推理,通过模型并行策略和高效的数据通信,提升了处理大型模型的能力。
  • 开源共享vLLM 由于其开源的属性,拥有活跃的社区支持,这也便于开发者贡献和改进,共同推动技术发展。

环境准备

AutoDL 平台中租赁一个 3090 等 24G 显存大小的容器实例,镜像选择如下 PyTorch2.1.03.10(ubuntu22.04)12.1

在这里插入图片描述

接下来打开本地设备终端使用 ssh 的方式访问,在终端中依次复制登录指令和密码完成登录

在这里插入图片描述

ssh 登录成功后的界面如图所示👇

在这里插入图片描述

或者也可以直接打开 AutoDL 网页端的快捷工具中选择 JupyterLab 并在其中点击终端打开(这种方式不需要验证🫠)

在这里插入图片描述

接下来开始环境配置、模型下载和运行演示 ~

pip 换源加速下载并安装依赖包

# 升级pip
python -m pip install --upgrade pip
# 更换 pypi 源加速库的安装
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simplepip install modelscope==1.11.0
pip install openai==1.17.1
pip install torch==2.1.2+cu121
pip install tqdm==4.64.1
pip install transformers==4.39.3
# 下载flash-attn 请等待大约10分钟左右~
MAX_JOBS=8 pip install flash-attn --no-build-isolation
pip install vllm==0.4.0.post1

直接安装 vLLM 会安装 CUDA 12.1 版本。

pip install vllm

考虑到部分同学配置环境可能会遇到一些问题,我们在AutoDL平台准备了Qwen2的环境镜像,该镜像适用于该仓库除Qwen-GPTQ和vllm外的所有部署环境。点击下方链接并直接创建Autodl示例即可。
https://www.codewithgpu.com/i/datawhalechina/self-llm/Qwen2

模型下载

使用 modelscope 中的 snapshot_download 函数下载模型,第一个参数为模型名称,参数 cache_dir为模型的下载路径。

先切换到 autodl-tmp 目录,cd /root/autodl-tmp

然后新建名为 model_download.pypython 脚本,并在其中输入以下内容并保存

# model_download.py
import os
import torch
from modelscope import snapshot_download, AutoModel, AutoTokenizer
model_dir = snapshot_download('qwen/Qwen2-7B-Instruct', cache_dir='/root/autodl-tmp', revision='master')

然后在终端中输入 python model_download.py 执行下载,这里需要耐心等待一段时间直到模型下载完成。

代码准备

Python脚本

/root/autodl-tmp 路径下新建 vllm_model.py 文件并在其中输入以下内容,粘贴代码后请及时保存文件。下面的代码有很详细的注释,如有不理解的地方,欢迎大家提 issue

首先从 vLLM 库中导入 LLMSamplingParams 类。LLM 类是使用 vLLM 引擎运行离线推理的主要类。SamplingParams 类指定采样过程的参数,用于控制和调整生成文本的随机性和多样性。

vLLM 提供了非常方便的封装,我们直接传入模型名称或模型路径即可,不必手动初始化模型和分词器。

我们可以通过这个代码示例熟悉下 vLLM 引擎的使用方式。被注释的部分内容可以丰富模型的能力,但不是必要的,大家可以按需选择,自己多多动手尝试 ~

# vllm_model.py
from vllm import LLM, SamplingParams
from transformers import AutoTokenizer
import os
import json# 自动下载模型时,指定使用modelscope。不设置的话,会从 huggingface 下载
os.environ['VLLM_USE_MODELSCOPE']='True'def get_completion(prompts, model, tokenizer=None, max_tokens=512, temperature=0.8, top_p=0.95, max_model_len=2048):stop_token_ids = [151329, 151336, 151338]# 创建采样参数。temperature 控制生成文本的多样性,top_p 控制核心采样的概率sampling_params = SamplingParams(temperature=temperature, top_p=top_p, max_tokens=max_tokens, stop_token_ids=stop_token_ids)# 初始化 vLLM 推理引擎llm = LLM(model=model, tokenizer=tokenizer, max_model_len=max_model_len,trust_remote_code=True)outputs = llm.generate(prompts, sampling_params)return outputsif __name__ == "__main__":    # 初始化 vLLM 推理引擎model='/root/autodl-tmp/qwen/Qwen2-7B-Instruct' # 指定模型路径# model="qwen/Qwen2-7B-Instruct" # 指定模型名称,自动下载模型tokenizer = None# 加载分词器后传入vLLM 模型,但不是必要的。# tokenizer = AutoTokenizer.from_pretrained(model, use_fast=False) text = ["你好,帮我介绍一下什么时大语言模型。","可以给我将一个有趣的童话故事吗?"]# messages = [#     {"role": "system", "content": "你是一个有用的助手。"},#     {"role": "user", "content": prompt}# ]# 作为聊天模板的消息,不是必要的。# text = tokenizer.apply_chat_template(#     messages,#     tokenize=False,#     add_generation_prompt=True# )outputs = get_completion(text, model, tokenizer=tokenizer, max_tokens=512, temperature=1, top_p=1, max_model_len=2048)# 输出是一个包含 prompt、生成文本和其他信息的 RequestOutput 对象列表。# 打印输出。for output in outputs:prompt = output.promptgenerated_text = output.outputs[0].textprint(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

运行代码

cd /root/autodl-tmp && python vllm_model.py

结果如下:

Prompt: '你好,帮我介绍一下什么时大语言模型。', Generated text: ' 当然!大语言模型是人工智能中的一种模型,特别擅长生成高质量的文本。它们从大量的文本数据中学习,并可以生成类似真实 文本的文本片段。例如,让它们写故事、文章、诗歌,或者在对话中生成连贯的回答。这类模型也被用于许多其他自然语言处理任务,如文本摘要、翻译和代码生成。这是因为它们能够理解和生成复杂的 语法和语义结构,以及捕捉到上下文中的微小细节。大语言模型的核心是采用深度学习技术,尤其是基于Transformer架构的模型,这种架构很好地处理了大量的序列数据,并在最近几年取得了显著的进展,这得益于大规模的训练数据集和计算资源。如今,许多大型语言模型是开源的,并且应用于各种开发和研究环境中。'Prompt: '可以给我将一个有趣的童话故事吗?', Generated text: ' 当然可以。这是一个关于勇敢的小猫头鹰的主题的童话故事:\n\n从前,在一片宁静的森林深处,住着一个聪明而勇敢的小猫头鹰。 它的名字叫迈克。每天,它都会在夜色中穿梭,寻找食物和学习更多的生存之道。它的家是一个它自己制作的巨大鸟巢,挂在一片松树的高枝上。\n\n一天夜里,森林受到了威胁,因为一只贪婪的老母狼 叛领了一队强盗在他的领地打劫。所有动物都陷入了恐慌,胆小的们躲在家里不敢出来,而胆大的动物们则是四处逃难。但是,没有一只动物敢于挑战母狼。\n\n作为勇敢和智慧的象征,小猫头鹰迈克决 定挺身而出。它认识到单靠野兽的力量是无法对抗母狼及其随从的,但是凭借智慧与策略,它或许可以找到一条解决方案。\n\n不日,迈克带着一个大胆的计划回到了森林。它宣布,所有的生物都将暂时 放下彼此之间的争斗,携手合作对抗这场危机。为了做到这一点,迈克将动物们聚集在一起,让迷人的动物学者白鹤教授教授所有生物如何彼此沟通、理解,并动员各具专业能力的动物,如挖掘专家老鼠 、电子设备专家松鼠制作无线电来秘密向森林里的其他动物发送求助信息。\n\n计划逐渐展开,动物们开始有了防范意识,并在夜晚骚动的女狼群不知道任何人计划的时候做出了各种有效的防御。动物中 个个都贡献了他们的力量。兔子与貘堵住了几个重要的入口,灵巧的松鼠们则收集了大量的浆果和营养物质,以供整个森林的动物们补充能量。\n\n最后,在一场夜里的明智逮捕行动之后,迈克的小猫头 鹰巧妙地通过其较好的夜视和听力,联合瞳熊和狮子成功的将贪婪的老母狼及其共犯赶出了森林。\n\n消息遍传,所有动物都对小猫头鹰的智慧,勇敢以及作为团队领袖的力量表示了敬意。他们现在紧紧 团结在了一起,建立了和谐而有尊严的社群。\n\n从此,森林中充满了欢声笑语,动物们和小猫头鹰迈克一起快乐地生活在和平与和谐中,展现出团结与智慧的伟大力量。这则故事教会我们,当我们团结 一致,敢于面对困难,发挥创造力和共同努力时,没有什么不可能克服的。'

在这里插入图片描述

创建兼容 OpenAI API 接口的服务器

Qwen 兼容 OpenAI API 协议,所以我们可以直接使用 vLLM 创建 OpenAI API 服务器。vLLM 部署实现 OpenAI API 协议的服务器非常方便。默认会在 http://localhost:8000 启动服务器。服务器当前一次托管一个模型,并实现列表模型、completionschat completions 端口。

  • completions:是基本的文本生成任务,模型会在给定的提示后生成一段文本。这种类型的任务通常用于生成文章、故事、邮件等。
  • chat completions:是面向对话的任务,模型需要理解和生成对话。这种类型的任务通常用于构建聊天机器人或者对话系统。

在创建服务器时,我们可以指定模型名称、模型路径、聊天模板等参数。

  • --host--port 参数指定地址。
  • --model 参数指定模型名称。
  • --chat-template 参数指定聊天模板。
  • --served-model-name 指定服务模型的名称。
  • --max-model-len 指定模型的最大长度。

这里指定 --max-model-len=2048 是因为 Qwen2-7B-Instruct 模型的最大长度为 128K,防止 vLLM 初始化 KV 缓存时消耗资源过大。

python -m vllm.entrypoints.openai.api_server --model /root/autodl-tmp/qwen/Qwen2-7B-Instruct  --served-model-name Qwen2-7B-Instruct --max-model-len=2048

加载完毕后出现如下信息说明服务成功启动

在这里插入图片描述

  • 通过 curl 命令查看当前的模型列表
curl http://localhost:8000/v1/models

得到的返回值如下所示

{"object": "list","data": [{"id": "Qwen2-7B-Instruct","object": "model","created": 1717735884,"owned_by": "vllm","root": "Qwen2-7B-Instruct","parent": null,"permission": [{"id": "modelperm-16bce2371b904132bbfab7c98c35403f","object": "model_permission","created": 1717735884,"allow_create_engine": false,"allow_sampling": true,"allow_logprobs": true,"allow_search_indices": false,"allow_view": true,"allow_fine_tuning": false,"organization": "*","group": null,"is_blocking": false}]}]
}

在这里插入图片描述

  • 使用 curl 命令测试 OpenAI Completions API
curl http://localhost:8000/v1/completions \-H "Content-Type: application/json" \-d '{"model": "Qwen2-7B-Instruct","prompt": "你好","max_tokens": 50,"temperature": 0}'

得到的返回值如下所示

{"id": "cmpl-ddce490833d4442abc26ef58fa3bcfa3","object": "text_completion","created": 1717736213,"model": "Qwen2-7B-Instruct","choices": [{"index": 0,"text": ",我最近感觉很焦虑,有什么 方法可以缓解吗?\n你好!焦虑是一种常见的情绪反应,但可以通过一些方法来缓解。你可以尝试深呼吸、冥想、运动、听音乐、与朋友聊天等方式来放松自己。同时","logprobs": null,"finish_reason": "length","stop_reason": null}],"usage": {"prompt_tokens": 1,"total_tokens": 51,"completion_tokens": 50}
}

在这里插入图片描述

  • Python 脚本请求 OpenAI Completions API
# vllm_openai_completions.py
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1",api_key="sk-xxx", # 随便填写,只是为了通过接口参数校验
)completion = client.chat.completions.create(model="Qwen2-7B-Instruct",messages=[{"role": "user", "content": "你好"}]
)print(completion.choices[0].message)

得到的返回值如下所示

ChatCompletionMessage(content='你好!很高兴为你提供帮助。有什么我可以为你做的吗?', role='assistant', function_call=None, tool_calls=None)

在这里插入图片描述

  • curl 命令测试 OpenAI Chat Completions API
curl http://localhost:8000/v1/chat/completions \-H "Content-Type: application/json" \-d '{"model": "Qwen2-7B-Instruct","messages": [{"role": "system", "content": "You are a helpful assistant."},{"role": "user", "content": "你好"}]}'

得到的返回值如下所示

{"id": "cmpl-14126e44b7ea4376b715bcc9954faf8a","object": "chat.completion","created": 1717736841,"model": "Qwen2-7B-Instruct","choices": [{"index": 0,"message": {"role": "assistant","content": "你好!很高兴能为你提供帮助。如果你有任何问题或需要信息,请随时告诉我。我会尽力回答你的问题或提供相关信息。"},"logprobs": null,"finish_reason": "stop","stop_reason": null}],"usage": {"prompt_tokens": 20,"total_tokens": 48,"completion_tokens": 28}
}

在这里插入图片描述

  • Python 脚本请求 OpenAI Chat Completions API
# vllm_openai_chat_completions.py
from openai import OpenAI
openai_api_key = "sk-xxx" # 随便填写,只是为了通过接口参数校验
openai_api_base = "http://localhost:8000/v1"client = OpenAI(api_key=openai_api_key,base_url=openai_api_base,
)chat_outputs = client.chat.completions.create(model="Qwen2-7B-Instruct",messages=[{"role": "system", "content": "You are a helpful assistant."},{"role": "user", "content": "你好"},]
)
print(chat_outputs)

得到的返回值如下所示

ChatCompletion(id='cmpl-6f3d64194d1949cca6f7df3e1e36d887', choices=[Choice(finish_reason='stop', index=0, logprobs=None, message=ChatCompletionMessage(content='你好!很高兴能与你交流。有什么问题或需要帮助的吗?', role='assistant', function_call=None, tool_calls=None), stop_reason=None)], created=1717737288, model='Qwen2-7B-Instruct', object='chat.completion', system_fingerprint=None, usage=CompletionUsage(completion_tokens=17, prompt_tokens=20, total_tokens=37))

在这里插入图片描述

另外,在以上所有的在请求处理过程中, API 后端都会打印相对应的日志和统计信息😊
在这里插入图片描述

速度测试

既然 vLLM 是一个高效的大型语言模型推理和部署服务系统,那么我们不妨就测试一下模型的回复生成速度。看看和原始的速度相比有多大的提升。这里直接使用 vLLM 自带的 benchmark_throughput.py 脚本进行测试。可以将当前文件夹 benchmark_throughput.py 脚本放在 /root/autodl-tmp/ 目录下。或者也可以自行下载脚本。

下面是一些 benchmark_throughput.py 脚本的参数说明:

  • --model 参数指定模型路径或名称。
  • --backend 推理后端,可以是 vllmhfmii。分布对应 vLLMHuggingFaceMii 推理后端。
  • --input-len 输入长度
  • --output-len 输出长度
  • --num-prompts 生成的 prompt 数量
  • --seed 随机种子
  • --dtype 数据类型
  • --max-model-len 模型最大长度
  • --hf_max_batch_size transformers 库的最大批处理大小(仅仅对于 hf 推理后端有效且为必填字段)
  • --dataset 数据集路径。(未设置会自动生成数据)

测试 vLLM 推理速度的命令和参数设置

python benchmark_throughput.py \--model /root/autodl-tmp/qwen/Qwen2-7B-Instruct \--backend vllm \  # --input-len 64 \--output-len 128 \--num-prompts 25 \--seed 2024 \--dtype float16 \--max-model-len 512

得到的结果如下所示

Throughput: 7.68 requests/s, 1474.75 tokens/s

在这里插入图片描述

测试原始方式(即使用 HuggingFaceTransformers 库)推理速度的命令和参数设置

python benchmark_throughput.py \--model /root/autodl-tmp/qwen/Qwen2-7B-Instruct \--backend hf \  # --input-len 64 \--output-len 128 \--num-prompts 25 \--seed 2024 \--dtype float16 \--hf-max-batch-size 25

得到的结果如下所示

Throughput: 5.73 requests/s, 1100.57 tokens/s

在这里插入图片描述

对比两者的推理速度,在本次测试中 vLLM 的速度要比原始的速度快 34% 左右 🤗

TIPS:本次测试并非严谨的测试,仅供本 case 参考,读者可以取多个测试用例并多次实验取平均以得到严谨的实验结论。

推理框架requests/stokens/s
vllm7.681474.75
hf5.731100.57
diff34.03%34.00%

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/27444.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Spring】Spring事务相关源码分析

目录: 1.讲述事务的一些基础概念。 2.讲述事务的生命周期源码 3.配置事务,以及事务注解的源码 1.前言 具体事务中Spring是怎么管理事务,怎么去管理、创建、销毁等操作的呢?这一次来分解一下。 2.事务概述(复习&a…

火绒安全删除explorer.exe文件造成windows系统异常的问题

问题 过程是这样的,电脑在使用过程中突然就变成了黑色的,任务栏、桌面等都消失了,只有部分程序的窗口。具体如下: 因为,在变化的时候,我有瞟到一眼有个火绒的气泡消息,就感觉是火绒错误的删除…

文件和文件系统:深入探讨

目录 1. 文件,记录和数据项 文件 记录 数据项 通过层次结构组织数据 2. 文件名和文件类型 文件名 常见的扩展名及其含义 扩展名的作用 示例 3. 文件系统的结构层次 根目录 子目录 文件 文件系统的层次结构的优势 4. 文件操作 总结 文件和文件系统是…

前端 JS 经典:Vite 分包配置

前言:在 Vite 项目中使用 npm run build 直接打包,打包后所有的静态文件都在 assets 文件中,js、css、图片等都放在一起看着很不舒服。我们可以通过配置 vite.config.js 来进行分包处理。打包机制底层是使用的 roolup,可以参考 ro…

@arco.design upload 已上传文件,点击删除 popconfirm 询问删除

实现 借助 upload 的 两个属性 on-before-remove 和 custom-icon custom-icon 官方给的例子是更换图标,这里借助 h 函数返回的 vnode const getCustomIcon () > {return {retryIcon: () > h(IconUpload),cancelIcon: () > h(IconClose),fileIcon: () …

四十五、openlayers官网示例Icon modification解析——在地图上添加标记图形并随意移动它的位置

官网demo地址: Icon modification 这篇讲了如何随意移动地图上的矢量点。 先在地图上添加一个矢量点,其中anchorXUnits 和 anchorYUnits: 指定锚点的单位。fraction 表示相对于图标的宽度(0到1之间),pixels 表示以像素…

kotlin runBlocking launch withContext async 使用

在 Kotlin 协程(Coroutines)中,runBlocking、launch、withContext 和 async 是不同的函数和概念,用于处理异步和并发操作。下面我将逐个解释它们的使用方法和区别,并给出示例。 1. runBlocking runBlocking 是在非协…

政安晨【零基础玩转各类开源AI项目】解析开源:Stable Diffusion 3 论文及用户界面工具 StableSwarmUI

目录 关键成果 性能 结构细节 通过重新配重改善整形流量 比例整形变换模型 灵活的文本编码器 使用模型:StableSwarmUI 开源项目的现状: 政安晨的个人主页:政安晨 欢迎 👍点赞✍评论⭐收藏 收录专栏: 零基础玩转各类开源AI…

适配器模式(设计模式)

适配器模式主要在于将一个接口转变成另一个接口,它的目的是通过改变接口来达到重复使用的目的; 适配器模式(Adapter Pattern)是一种结构型设计模式,它允许接口不兼容的对象能够相互合作。适配器模式通过将一个类的接口…

Vulnhub-DC-9

靶机IP:192.168.20.144 kaliIP:192.168.20.128 网络有问题的可以看下搭建Vulnhub靶机网络问题(获取不到IP) 信息收集 nmap扫描一下端口及版本号 dirsearch扫目录 最后去前端界面观察发现也没什么隐藏路径。 观察功能,search引起注意,SQL注入测试 当输…

4机器学习期末复习

在机器学习中,数据清洗与转换包括哪些内容? 对数据进行初步的预处理,需要将其转换为一种适合机器学习模型的表示形式对许多模型类型来说,这种表示就是包含数值数据的向量或者矩阵: 1)将类别数据编码成为对…

select简单查询

SELECT 简单查询 假如我们有一张表,表名为 students,如下所示: --------------------------------- | id | name | age | department_id | --------------------------------- | 1 | 张三 | 20 | 101 | | 2 | Alice | …

IT入门知识博客文章大纲(0/10)

IT入门知识博客文章大纲 引言 什么是IT? 信息技术(Information Technology),互联网技术是指在计算机技术的基础上开发建立的一种信息技术 。互联网技术通过计算机网络的广域网使不同的设备相互连接,加快信息的传输速度…

如何在 Go 应用程序中使用检索增强生成(RAG)

本文将帮助大家实现 RAG (使用 LangChain 和 PostgreSQL )以提高 LLM 输出的准确性和相关性。 得益于强大的机器学习模型(特别是由托管平台/服务通过 API 调用公开的大型语言模型,如 Claude 的 LLama 2等)&#xff0c…

「动态规划」买卖股票的最佳时机,如何处理多笔交易?

188. 买卖股票的最佳时机 IVhttps://leetcode.cn/problems/best-time-to-buy-and-sell-stock-iv/description/ 给你一个整数数组prices和一个整数k,其中prices[i]是某支给定的股票在第i天的价格。设计一个算法来计算你所能获取的最大利润。你最多可以完成k笔交易。…

关于钽电容器的作用、优缺点、选型指南及故障诊断方法等介绍

钽电容器,全称为钽电解电容器,是一种以金属钽作为介质材料的电解电容器。与传统的电解电容器不同,钽电容器不使用液体电解质,而是利用钽氧化物(五氧化二钽)作为固态电解质,这使得它们具有更高的…

取证工作: SysTools SQL Log Analyzer, 完整的 SQL Server 日志取证分析

天津鸿萌科贸发展有限公司是 Systools 系列软件的授权代理商。 SysTools SQL Log Analyzer 是 Systools 取证工具系列之一,用于调查 SQL Server 事务日志,以对数据库篡改进行取证分析。 什么是 SQL Server 事务日志? 在深入研究 SQL 事务日…

Python 测试用例

在Python中编写测试用例通常使用unittest模块,这是Python标准库的一部分,专门用于编写和运行测试。下面是一个简单的测试用例的例子,展示了如何使用unittest模块来测试一个函数。 假设我们有一个简单的函数,用于计算两个数的和&a…

Java HttpUtil 异步不等待调用

步骤一&#xff1a;添加依赖 <dependencies><dependency><groupId>cn.hutool</groupId><artifactId>hutool-all</artifactId><version>5.6.3</version></dependency> </dependencies>步骤二&#xff1a;创建异步…

在Qt中,QSerialPort::write(data) 和 readAll() 有什么关联和联系

在Qt中&#xff0c;QSerialPort::write(data) 和 readAll() 是与串行通信相关的两个不同的函数&#xff0c;它们属于 QSerialPort 类。这两个函数在串行通信中扮演不同的角色&#xff0c;但它们之间存在一定的联系&#xff1a; QSerialPort::write(data) 这个函数用于将数据发…