EPLB (专家并行负载均衡器)
EPLB 是一种为混合专家 (MoE) 模型设计的负载均衡器,通过优化专家的放置和复制来平衡 GPU 之间的计算负载。
高级负载均衡
EPLB 的关键特性
EPLB 结合智能专家复制和放置策略,优化混合专家模型的性能。
系统设计
EPLB 架构
EPLB 采用两种主要的负载均衡策略:层次化和全局化,每种策略都针对不同的部署场景进行了优化。
层次化负载均衡
当节点数量可以被专家组数量均匀划分时使用。该策略首先在节点间均匀分配专家组,然后在每个节点内复制专家,最后将复制的专家打包到 GPU 上。
全局负载均衡
在其他场景中使用,此策略忽略专家组,直接基于计算负载全局复制专家,然后将它们打包到 GPU 上以实现工作负载的均衡分配。
性能基准
EPLB 性能
EPLB 通过平衡 GPU 之间的专家工作负载,显著提高 MoE 模型的性能。
负载不平衡减少
高达 85%
GPU 间计算负载不平衡的减少
吞吐量提升
高达 40%
系统整体吞吐量的提升
GPU 利用率
+95%
平衡专家放置下的平均 GPU 利用率
扩展效率
接近线性
随着 GPU 数量增加的扩展效率
应用场景
EPLB 使用场景
EPLB 针对混合专家模型的不同部署场景进行了优化。
常见问题
找不到您要找的答案?查看我们的 GitHub 仓库或联系我们的团队。
- 什么是 EPLB?
- EPLB(专家并行负载均衡器)是一种工具,通过智能复制和放置专家来平衡 GPU 之间的专家工作负载,从而优化混合专家 (MoE) 模型的部署。
- EPLB 如何工作?
- EPLB 通过分析每个专家的估计计算负载,确定每个专家需要的复制数量,然后将这些复制放置在 GPU 之间以实现工作负载的均衡分配。它提供两种策略:层次化负载均衡和全局负载均衡。
- 层次化负载均衡和全局负载均衡有什么区别?
- 层次化负载均衡首先在节点间均匀分配专家组,然后在每个节点内复制专家。当节点数量可以被专家组数量均匀划分时使用。全局负载均衡忽略专家组,直接基于计算负载全局复制专家。
- 为什么负载均衡对 MoE 模型很重要?
- 在 MoE 模型中,不同的专家可能有截然不同的计算负载。没有负载均衡,一些 GPU 可能过载而其他 GPU 未被充分利用,造成瓶颈并降低系统整体吞吐量。
- EPLB 如何减少节点间流量?
- EPLB 的层次化负载均衡策略尽可能将同一组的专家放置在同一节点上,减少推理或训练期间节点间数据传输的需求。
- EPLB 是开源的吗?
- 是的,EPLB 在 GitHub 上作为开源项目提供(https://github.com/deepseek-ai/EPLB)。它由 DeepSeek AI 开发,支持 MoE 模型的高效部署。