EPLB (专家并行负载均衡器)

EPLB 是一种为混合专家 (MoE) 模型设计的负载均衡器,通过优化专家的放置和复制来平衡 GPU 之间的计算负载。

EPLB Architecture Visualization

高级负载均衡

EPLB 的关键特性

EPLB 结合智能专家复制和放置策略,优化混合专家模型的性能。

系统设计

EPLB 架构

EPLB 采用两种主要的负载均衡策略:层次化和全局化,每种策略都针对不同的部署场景进行了优化。

EPLB Architecture Diagram

层次化负载均衡

当节点数量可以被专家组数量均匀划分时使用。该策略首先在节点间均匀分配专家组,然后在每个节点内复制专家,最后将复制的专家打包到 GPU 上。

全局负载均衡

在其他场景中使用,此策略忽略专家组,直接基于计算负载全局复制专家,然后将它们打包到 GPU 上以实现工作负载的均衡分配。

性能基准

EPLB 性能

EPLB 通过平衡 GPU 之间的专家工作负载,显著提高 MoE 模型的性能。

EPLB Performance Metrics

负载不平衡减少

高达 85%

GPU 间计算负载不平衡的减少

吞吐量提升

高达 40%

系统整体吞吐量的提升

GPU 利用率

+95%

平衡专家放置下的平均 GPU 利用率

扩展效率

接近线性

随着 GPU 数量增加的扩展效率

应用场景

EPLB 使用场景

EPLB 针对混合专家模型的不同部署场景进行了优化。

常见问题

找不到您要找的答案?查看我们的 GitHub 仓库或联系我们的团队。

什么是 EPLB?
EPLB(专家并行负载均衡器)是一种工具,通过智能复制和放置专家来平衡 GPU 之间的专家工作负载,从而优化混合专家 (MoE) 模型的部署。
EPLB 如何工作?
EPLB 通过分析每个专家的估计计算负载,确定每个专家需要的复制数量,然后将这些复制放置在 GPU 之间以实现工作负载的均衡分配。它提供两种策略:层次化负载均衡和全局负载均衡。
层次化负载均衡和全局负载均衡有什么区别?
层次化负载均衡首先在节点间均匀分配专家组,然后在每个节点内复制专家。当节点数量可以被专家组数量均匀划分时使用。全局负载均衡忽略专家组,直接基于计算负载全局复制专家。
为什么负载均衡对 MoE 模型很重要?
在 MoE 模型中,不同的专家可能有截然不同的计算负载。没有负载均衡,一些 GPU 可能过载而其他 GPU 未被充分利用,造成瓶颈并降低系统整体吞吐量。
EPLB 如何减少节点间流量?
EPLB 的层次化负载均衡策略尽可能将同一组的专家放置在同一节点上,减少推理或训练期间节点间数据传输的需求。
EPLB 是开源的吗?
是的,EPLB 在 GitHub 上作为开源项目提供(https://github.com/deepseek-ai/EPLB)。它由 DeepSeek AI 开发,支持 MoE 模型的高效部署。