1. 如何决定分布式推理策略?
在深入探讨分布式推理和服务之前,我们首先需要明确何时使用分布式推理以及可用的策略是什么。常见的做法如下:
-
单 GPU(无需分布式推理):
如果你的模型可以放入单个 GPU 中,那么你可能不需要使用分布式推理。直接使用单个 GPU 运行推理即可。 -
单节点多 GPU(张量并行推理):
如果你的模型太大,无法放入单个 GPU,但可以放入单个节点的多个 GPU 中,你可以使用张量并行(Tensor Parallelism)。张量并行大小是你希望使用的 GPU 数量。例如,如果你的单个节点有 4 个 GPU,可以将张量并行大小设置为 4。 -
多节点多 GPU(张量并行加流水线并行推理):
如果你的模型太大,无法放入单个节点,你可以结合使用张量并行和流水线并行(Pipeline Parallelism)。张量并行大小是每个节点中使用的 GPU 数量,流水线并行大小是你希望使用的节点数量。例如,如果你有 2 个节点共 16 个 GPU(每个节点 8 个 GPU),可