多租户调度
-
NVIDIA MIG 多租户推理实战:在隔离性、碎片率与调度复杂度之间寻找最优解
问题背景:当 GPU 成为"超售"的重灾区 在承载数百个在线推理服务的多租户平台中,我们面临一个经典困境:单个 A100-80GB GPU 上跑一个 7B 参数的 LLM 服务,显存占用仅 16GB,计算单元利用率...
问题背景:当 GPU 成为"超售"的重灾区 在承载数百个在线推理服务的多租户平台中,我们面临一个经典困境:单个 A100-80GB GPU 上跑一个 7B 参数的 LLM 服务,显存占用仅 16GB,计算单元利用率...