传统模型分布式推理框架
- Tensorflow serving
- Pytorch Serving
- Triton Server
大语言模型的推理框架
- 其中, VLLM 后端接入了Ray 框架, 作为调度请求的分发处理;
- 除此之外,还包括Nvidia 最新推出的TensorRT-LLM, 增加了对LLM 的支持
目前应用比较多的是VLLM 和DeepSpeed, 关于二者的比较:
Reference
- https://medium.com/@plthiyagu/comparing-llm-serving-frameworks-llmops-f02505864754
- https://blog.vllm.ai/2023/11/14/notes-vllm-vs-deepspeed.html