实测VLLM的加速效果

为了测试vllm的并行加速效果，采用同样的5个提问，编写两个不同的python脚本，分别是compare_vllm.py和compare_chatglm3.py，其中compare_vllm.py采用vllm加速。

服务器参数：

操作系统	ubuntu 22.04
CPU	i7 14700k
内存	dd5 128G
显卡	3090 24G 两块

compare_vllm.py的代码如下：

import time
from vllm import LLM, SamplingParamsdef main():# 定义批量数据desc = "这张图片中有一位母亲和儿子正在一起开心的笑母亲穿着花裙子，儿子穿着运动鞋和牛仔短裤，他们站在方形的砖块地面"query = f"对于以下图片描述提取标签，每一个标签作为数组的一个元素，以JSON格式输出。只输出标签，不用解释:\n'{desc}'"prompts = ["中华人民共和国成立的日期是哪一天？","为什么AI在这一两年爆发了?",query,"中美人口分别是多少？美国有多少中国的移民？","你擅长数学计算吗？",]sampling_params = SamplingParams(temperature=0.1, top_p=0.5, max_tokens=4096)path = '/home/data/model/zhipu/chatglm3-6b'llm = LLM(model=path, trust_remote_code=True, tokenizer_mode="auto", tensor_parallel_size=2, dtype="auto")start_time = time.time()  # 获取当前时间outputs = llm.generate(prompts, sampling_params)# 输出结果for output in outputs:prompt = output.promptgenerated_text = output.outputs[0].textprint(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")end_time = time.time()  # 获取当前时间print(f"The code run for {end_time - start_time} seconds.")    if __name__ == "__main__":main()

compare_chatglm3.py的代码如下：


import time
from transformers import AutoTokenizer, AutoModeldef main():MODEL_PATH = "/home/data/model/zhipu/chatglm3-6b"tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH, trust_remote_code=True)model = AutoModel.from_pretrained(MODEL_PATH, trust_remote_code=True, device_map="auto").eval()desc = "这张图片中有一位母亲和儿子正在一起开心的笑母亲穿着花裙子，儿子穿着运动鞋和牛仔短裤，他们站在方形的砖块地面"query = f"对于以下图片描述提取标签，每一个标签作为数组的一个元素，以JSON格式输出。只输出标签，不用解释:\n'{desc}'"prompts = ["中华人民共和国成立的日期是哪一天？","为什么AI在这一两年爆发了?",query,"中美人口分别是多少？美国有多少中国的移民？","你擅长数学计算吗？",]start_time = time.time()  # 获取当前时间for p in prompts:response, history = model.chat(tokenizer, p, history=[], role="user")  #,top_p=0.8, temperature=0.2print(response)end_time = time.time()  # 获取当前时间print(f"The code run for {end_time - start_time} seconds.") if __name__ == "__main__":main()

python compare_vllm.py:
输出：The code run for 3.9577383995056152 seconds.
最大显存使用（因为动态在变化，这个并不精确）：2个各22G，总计44G

compare_chatglm3.py：
输出：The code run for 12.522217512130737 seconds.
最大显存使用（因为动态在变化，这个并不精确）：2个各6G，总计12G

很明显，vllm确实具备并行加速性能，差不多是3倍。当然显存的峰值使用量明显增多，差不多是不用vllm的3.7倍。当然，可以考虑采用进程方式部署多个非vllm服务实现并行，但是那样的话部署会麻烦一些。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/718651.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！