vLLM 提供了一个 HTTP 服务器,能够实现 OpenAI 的 Completions API、Chat API 等功能!
您可以通过 vllm serve
命令启动服务器,或者通过 Docker 启动:
vllm serve NousResearch/Meta-Llama-3-8B-Instruct --dtype auto --api-key token-abc123
要调用服务器,您可以使用官方的 OpenAI Python 客户端,或任何其他 HTTP 客户端。
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1"