深度探索DeepSeek开源新篇章三项并行优化策略,共筑高效

2025-03-02

2月27日,DeepSeek在开源周的第四天发布了三项并行优化策略,分别是

1. DualPipe这是一种在V3/R1模型训练中,通过实现计算与通信重叠的双向流水线并行算法。

2. EPLB这是一个专门为V3/R1设计的专家并行负载均衡工具。

3. Profile-data这是用于训练和推理框架分析的数据集。

这些开源资源都可以在GitHub上找到,具体链接如下

- DualPipe[点击访问](https://github.com/deepseek-ai/DualPipe)

- EPLB[点击访问](https://github.com/deepseek-ai/eplb)

- Profile-data[点击访问](https://github.com/deepseek-ai/profile-data)

关于DualPipe

DualPipe是DeepSeek在V3技术报告中提出的一种创新算法。它能够在前向和后向的计算与通信阶段实现完全重叠,并且有效地减少了流水线中的空闲时间。DeepSeek展示了在8个流水线并行阶段和20个micro-batches的情况下,DualPipe在两个方向上的调度示例。在图中,可以看到反向方向的微批次与前向方向是对称的,为了简化图示,反向方向的批次ID被省略了。图中,由相同黑色边框包围的两个单元格展示了相互重叠的计算和通信过程。

流水线气泡与内存使用比较

在表中,我们可以看到DualPipe在减少流水线气泡和优化内存使用方面的效果。

标签:
流量卡