EPLB (专家并行负载均衡器)

EPLB 是一种为混合专家 (MoE) 模型设计的负载均衡器，通过优化专家的放置和复制来平衡 GPU 之间的计算负载。

高级负载均衡

EPLB 的关键特性

EPLB 结合智能专家复制和放置策略，优化混合专家模型的性能。

EPLB 架构

EPLB 采用两种主要的负载均衡策略：层次化和全局化，每种策略都针对不同的部署场景进行了优化。

当节点数量可以被专家组数量均匀划分时使用。该策略首先在节点间均匀分配专家组，然后在每个节点内复制专家，最后将复制的专家打包到 GPU 上。

在其他场景中使用，此策略忽略专家组，直接基于计算负载全局复制专家，然后将它们打包到 GPU 上以实现工作负载的均衡分配。

EPLB 性能

EPLB 通过平衡 GPU 之间的专家工作负载，显著提高 MoE 模型的性能。

高达 85%

GPU 间计算负载不平衡的减少

高达 40%

系统整体吞吐量的提升

+95%

平衡专家放置下的平均 GPU 利用率

接近线性

随着 GPU 数量增加的扩展效率

EPLB 使用场景

EPLB 针对混合专家模型的不同部署场景进行了优化。

找不到您要找的答案？查看我们的 GitHub 仓库或联系我们的团队。

什么是 EPLB？: EPLB（专家并行负载均衡器）是一种工具，通过智能复制和放置专家来平衡 GPU 之间的专家工作负载，从而优化混合专家 (MoE) 模型的部署。
EPLB 如何工作？: EPLB 通过分析每个专家的估计计算负载，确定每个专家需要的复制数量，然后将这些复制放置在 GPU 之间以实现工作负载的均衡分配。它提供两种策略：层次化负载均衡和全局负载均衡。
层次化负载均衡和全局负载均衡有什么区别？: 层次化负载均衡首先在节点间均匀分配专家组，然后在每个节点内复制专家。当节点数量可以被专家组数量均匀划分时使用。全局负载均衡忽略专家组，直接基于计算负载全局复制专家。
为什么负载均衡对 MoE 模型很重要？: 在 MoE 模型中，不同的专家可能有截然不同的计算负载。没有负载均衡，一些 GPU 可能过载而其他 GPU 未被充分利用，造成瓶颈并降低系统整体吞吐量。
EPLB 如何减少节点间流量？: EPLB 的层次化负载均衡策略尽可能将同一组的专家放置在同一节点上，减少推理或训练期间节点间数据传输的需求。
EPLB 是开源的吗？: 是的，EPLB 在 GitHub 上作为开源项目提供（https://github.com/deepseek-ai/EPLB）。它由 DeepSeek AI 开发，支持 MoE 模型的高效部署。