PD分离推理优化
大语言模型推理过程 Prefill 阶段和 Decode 阶段具有截然不同的计算特性,PD 分离架构应运而生,通过将 P和 D 分配到不同的 GPU 实例上,针对各自特性进行专门优化。这种分离式设计不仅消除了阶段间的干扰,还显著提升系统的有效吞吐量(Goodput)。
PD分离推理优化
大语言模型推理过程 Prefill 阶段和 Decode 阶段具有截然不同的计算特性,PD 分离架构应运而生,通过将 P和 D 分配到不同的 GPU 实例上,针对各自特性进行专门优化。这种分离式设计不仅消除了阶段间的干扰,还显著提升系统的有效吞吐量(Goodput)。