携手共创开源盛宴打造开源全家桶共促生态繁荣

2025-03-03

摩尔线程助力深度寻源开源周圆满结束构建“全家桶”项目,促进开源生态繁荣

近日,IT之家报道,DeepSeek 开源周已经圆满落幕,对于摩尔线程智能科技(北京)股份有限公司而言,这无疑是一个重要的里程碑。在这短暂的一周里,摩尔线程成功地为DeepSeek的多个开源项目提供了全面的技术支持,包括FlashMLA、DeepEP、DeepGEMM、DualPipe以及Fire-Flyer文件系统(3FS)。这一切的背后,都体现了摩尔线程对开源生态的深度参与和积极推动。

FlashMLA是一款高效的MLA(多头潜在注意力)推理内核开源仓库,旨在加速MLA机制的计算,特别适用于DeepSeek系列模型。摩尔线程基于全新的MUSA Compute Capability 3.1计算架构,提供了原生的FP8计算能力。同时,公司还升级了高性能线性代数模板库MUTLASS,使得FlashMLA能够快速得到支持。借助MUTLASS 0.2.0,摩尔线程发布了开源仓库MT-FlashMLA,能够快速兼容并部署DeepSeek FlashMLA。

DeepEP是一个用于MoE(混合专家)模型训练和推理的开源EP(专家并行)通信库。它主要适用于大模型训练,尤其是需要EP的集群训练。摩尔线程基于MUSA Compute Capability 3.1全功能GPU,迅速适配了DeepEP。其高效优化的All-to-All通信,支持dispatch & combine;支持MTLink + GPU(MUSA Compute Capability 3.1)节点内通信;训练及推理预填充阶段的高吞吐量计算核心;推理解码阶段的低延迟计算核心;原生支持FP8数据分发;灵活控制GPU资源,实现计算与通信的高效重叠等特点,无疑将为DeepEP的广泛应用提供有力支持。

DeepGEMM是一个支持密集矩阵与混合专家(MoE)矩阵乘法的FP8 GEMM库。摩尔线程在全新GPU架构上优化实现了FP8矩阵乘法,从而支持DeepGEMM的相关功能。同时,依托深度学习框架Torch-MUSA和MUSA软件栈的全方位兼容性,摩尔线程实现了对DeepGEMM的高效支持。

DualPipe是DeepSeek-V3提出的双向流水线并行算法,通过前向计算与后向计算阶段的计算与通信完全重叠,显著减少了“流水线气泡”(设备空闲等待)。与传统流水线并行相比,DualPipe采用双向数据流设计,使数据从两端相向处理,大幅提升了资源利用率和训练效率。摩尔线程在DualPipe的支持上表现出色,依托深度学习框架Torch-MUSA和MUSA软件栈的全方位兼容性,实现了对DualPipe这一算法的高效支持。

至于Fire-Flyer文件系统(3FS),这是一种充分利用现代SSD和RDMA网络带宽的并行文件系统,能够将固态硬盘的带宽性能发挥到极致。在V3和R1的训练与推理过程中,3FS作为关键支撑,应对AI训练和推理工作负载的挑战。为了高效支持3FS,摩尔线程迅速搭建了高性能分布式文件系统3FS,并开发了存储插件,成功实现了与夸娥智算集群的无缝集成。

总的来说,摩尔线程通过实际行动参与和推动DeepSeek开源周活动,不仅提供了全面的技术支持,还打造了一系列开源项目——“全家桶”,涵盖了多个关键领域。这些开源项目不仅展示了摩尔线程的技术实力和开放精神,也以实际行动助力开源生态的繁荣。我们期待在未来的日子里,看到更多这样的开源项目和活动,共同推动科技的发展和进步。

流量卡