vLLM 是一个针对大语言模型(LLMs)优化的高效推理和服务库。以下是 vLLM 命令行工具的详细使用方法解析,涵盖常见场景和参数配置:
一、核心命令行工具
vLLM 提供两个主要的命令行入口:
-
启动 API 服务器
用于部署 HTTP/OpenAI 兼容的 API 服务:python -m vllm.entrypoints.api_server \--model <model_path_or_name> \[--host 0.0.0.0] \[--port 8000] \[--tensor-parallel-size 1] \[--gpu-memory-utilization 0.9] \[--max-num-seqs 256] \[--max-num-batched-tokens 2048]
-
离线批量推理
用于直接处理输入文件并生成结果:python -m vllm.entrypoints.offline_inference \--model <model_path_or_name> \--input-path prompts.json \--output-path outputs.json \[--temperature 0.8] \[--max-to