为了测试vllm的并行加速效果,采用同样的5个提问,编写两个不同的python脚本,分别是compare_vllm.py和compare_chatglm3.py,其中compare_vllm.py采用vllm加速。
服务器参数:
操作系统 | ubuntu 22.04 |
CPU | i7 14700k |
内存 | dd5 128G |
显卡 | 3090 24G 两块 |
compare_vllm.py的代码如下:
import time
from vllm import LLM, SamplingParamsdef main():# 定义批量数据desc = "这张图片中有一位母亲和儿子正在一起开心的笑母亲穿着花裙子,儿子穿着运动鞋和牛仔短裤,他们站在方形的砖块地面"query = f"对于以下图片描述提取标签,每一个标签作为数组的一个元素,以JSON格式输出。只输出标签,不用解释:\n'{desc}'"prompts = ["中华人民共和国成立的日期是哪一天?","为什么AI在这一两年爆发了?",query,"中美人口分别是多少?美国有多少中国的移民?","你擅长数学计算吗?",]sampling_params = SamplingParams(temperature=0.1, top_p=0.5, max_tokens=4096)path = '/home/data/model/zhipu/chatglm3-6b'llm = LLM(model=path, trust_remote_code=True, tokenizer_mode="auto", tensor_parallel_size=2, dtype="auto")start_time = time.time() # 获取当前时间outputs = llm.generate(prompts, sampling_params)# 输出结果for output in outputs:prompt = output.promptgenerated_text = output.outputs[0].textprint(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")end_time = time.time() # 获取当前时间print(f"The code run for {end_time - start_time} seconds.") if __name__ == "__main__":main()
compare_chatglm3.py的代码如下:
import time
from transformers import AutoTokenizer, AutoModeldef main():MODEL_PATH = "/home/data/model/zhipu/chatglm3-6b"tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH, trust_remote_code=True)model = AutoModel.from_pretrained(MODEL_PATH, trust_remote_code=True, device_map="auto").eval()desc = "这张图片中有一位母亲和儿子正在一起开心的笑母亲穿着花裙子,儿子穿着运动鞋和牛仔短裤,他们站在方形的砖块地面"query = f"对于以下图片描述提取标签,每一个标签作为数组的一个元素,以JSON格式输出。只输出标签,不用解释:\n'{desc}'"prompts = ["中华人民共和国成立的日期是哪一天?","为什么AI在这一两年爆发了?",query,"中美人口分别是多少?美国有多少中国的移民?","你擅长数学计算吗?",]start_time = time.time() # 获取当前时间for p in prompts:response, history = model.chat(tokenizer, p, history=[], role="user") #,top_p=0.8, temperature=0.2print(response)end_time = time.time() # 获取当前时间print(f"The code run for {end_time - start_time} seconds.") if __name__ == "__main__":main()
python compare_vllm.py:
输出:The code run for 3.9577383995056152 seconds.
最大显存使用(因为动态在变化,这个并不精确):2个各22G,总计44G
compare_chatglm3.py:
输出:The code run for 12.522217512130737 seconds.
最大显存使用(因为动态在变化,这个并不精确):2个各6G,总计12G
很明显,vllm确实具备并行加速性能,差不多是3倍。当然显存的峰值使用量明显增多,差不多是不用vllm的3.7倍。当然,可以考虑采用进程方式部署多个非vllm服务实现并行,但是那样的话部署会麻烦一些。