在Kubernetes上部署vLLM是一种可扩展且高效的方式来服务机器学习模型。本指南将引导您使用原生Kubernetes部署vLLM。
此外,您还可以使用以下任意一种方式将vLLM部署到Kubernetes:
- Helm
- InftyAI/llmaz
- KServe
- kubernetes-sigs/lws
- meta-llama/llama-stack
- substratusai/kubeai
- vllm-project/aibrix
- vllm-project/production-stack
前置条件
确保您已经拥有一个运行中的 Kubernetes 集群,并且集群中配置了 GPU。
使用原生 Kubernetes 进行部署
- 为 vLLM 创建 PVC、Secret 和 Deployment
PVC 用于存储模型缓存,这是可选的。您也可以使用 hostPath 或其他存储选项。
以下是一个 Kubernetes PersistentVolumeClaim (PVC) 的配置示例,用于为 Mistral-7B 模型创建存储卷:
apiVersion