摩尔线程助力深度寻源开源周圆满结束构建“全家桶”项目,促进开源生态繁荣
近日,IT之家报道,DeepSeek 开源周已经圆满落幕,对于摩尔线程智能科技(北京)股份有限公司而言,这无疑是一个重要的里程碑。在这短暂的一周里,摩尔线程成功地为DeepSeek的多个开源项目提供了全面的技术支持,包括FlashMLA、DeepEP、DeepGEMM、DualPipe以及Fire-Flyer文件系统(3FS)。这一切的背后,都体现了摩尔线程对开源生态的深度参与和积极推动。
FlashMLA是一款高效的MLA(多头潜在注意力)推理内核开源仓库,旨在加速MLA机制的计算,特别适用于DeepSeek系列模型。摩尔线程基于全新的MUSA Compute Capability 3.1计算架构,提供了原生的FP8计算能力。同时,公司还升级了高性能线性代数模板库MUTLASS,使得FlashMLA能够快速得到支持。借助MUTLASS 0.2.0,摩尔线程发布了开源仓库MT-FlashMLA,能够快速兼容并部署DeepSeek FlashMLA。
DeepEP是一个用于MoE(混合专家)模型训练和推理的开源EP(专家并行)通信库。它主要适用于大模型训练,尤其是需要EP的集群训练。摩尔线程基于MUSA Compute Capability 3.1全功能GPU,迅速适配了DeepEP。其高效优化的All-to-All通信,支持dispatch & combine;支持MTLink + GPU(MUSA Compute Capability 3.1)节点内通信;训练及推理预填充阶段的高吞吐量计算核心;推理解码阶段的低延迟计算核心;原生支持FP8数据分发;灵活控制GPU资源,实现计算与通信的高效重叠等特点,无疑将为DeepEP的广泛应用提供有力支持。
DeepGEMM是一个支持密集矩阵与混合专家(MoE)矩阵乘法的FP8 GEMM库。摩尔线程在全新GPU架构上优化实现了FP8矩阵乘法,从而支持DeepGEMM的相关功能。同时,依托深度学习框架Torch-MUSA和MUSA软件栈的全方位兼容性,摩尔线程实现了对DeepGEMM的高效支持。
DualPipe是DeepSeek-V3提出的双向流水线并行算法,通过前向计算与后向计算阶段的计算与通信完全重叠,显著减少了“流水线气泡”(设备空闲等待)。与传统流水线并行相比,DualPipe采用双向数据流设计,使数据从两端相向处理,大幅提升了资源利用率和训练效率。摩尔线程在DualPipe的支持上表现出色,依托深度学习框架Torch-MUSA和MUSA软件栈的全方位兼容性,实现了对DualPipe这一算法的高效支持。
至于Fire-Flyer文件系统(3FS),这是一种充分利用现代SSD和RDMA网络带宽的并行文件系统,能够将固态硬盘的带宽性能发挥到极致。在V3和R1的训练与推理过程中,3FS作为关键支撑,应对AI训练和推理工作负载的挑战。为了高效支持3FS,摩尔线程迅速搭建了高性能分布式文件系统3FS,并开发了存储插件,成功实现了与夸娥智算集群的无缝集成。
总的来说,摩尔线程通过实际行动参与和推动DeepSeek开源周活动,不仅提供了全面的技术支持,还打造了一系列开源项目——“全家桶”,涵盖了多个关键领域。这些开源项目不仅展示了摩尔线程的技术实力和开放精神,也以实际行动助力开源生态的繁荣。我们期待在未来的日子里,看到更多这样的开源项目和活动,共同推动科技的发展和进步。
摩尔线程助力深度寻源开源周圆满结束构建“全家桶”项目,促进开源生态繁荣近日,IT之家报道,DeepSeek 开源周已经圆满落幕,对于摩尔线程智能科技(北京)股份有限公司而言,这无疑是一个重要的里程碑。
标题腾讯元宝电脑版混元大模型引领AI搜索新潮流,DeepSeek双模切换颠覆体验随着科技的飞速进步,人工智能助手在我们的生活中扮演着越来越重要的角色。最近,腾讯推出了基于混元大模型的AI助手——“腾讯
DeepSeek-V3/R1其545%理论利润率的秘密随着人工智能技术的迅猛发展,DeepSeek-V3/R1作为一款前沿的AI推理系统,凭借其出色的性能和创新的商业策略,吸引了业界的极大关注。本文将
近日,DeepSeek团队在官方公众号上宣布,他们最新开发的视觉模型DeepSeek-VL2已经开源。这个模型在多个评测中表现出色,标志着DeepSeek视觉模型正式进入了混合专家模型(MoE)的新时