项目名称 | GitHub 地址 | 项目简介 | 应用领域 | 意义 |
FlashMLA | https://github.com/deepseek-ai/FlashMLA | 针对英伟达Hopper GPU优化的高效MLA解码内核,专为处理可变长度序列设计 | 高性能AI任务 | 提升推理性能,降低硬件成本 |
DeepEP | https://github.com/deepseek-ai/DeepEP | 首个用于MoE模型训练和推理的开源EP通信库,支持高效全对全通信和低精度运算 | 大模型训练和推理,特别是需要EP的集群训练 | 提升MoE模型训练和推理效率,降低通信开销,促进大规模模型的发展 |
DeepGEMM | https://github.com/deepseek-ai/DeepGEMM | 专为简洁高效的FP8通用矩阵乘法设计的库,支持普通和MoE分组的GEMM运算 | 深度学习框架中的矩阵计算 | 提升矩阵乘法性能,降低计算成本,推动FP8生态的普及 |
并行优化策略(DualPipe、EPLB等) | https://github.com/deepseek-ai/DualPipe
https://github.com/deepseek-ai/eplb
https://github.com/deepseek-ai/profile-data | 包括用于V3/R1模型训练中实现计算与通信重叠的双向流水线并行算法DualPipe,以及针对V3/R1的专家并行负载均衡工具EPLB | 大规模模型训练和高性能计算 | 提升训练效率,优化资源利用率,减少管道气泡和GPU闲置现象 |
3FS文件系统 | https://github.com/deepseek-ai/3FS | 一个充分利用现代SSD和RDMA网络的并行文件系统,能实现高速数据访问 | AI模型训练和推理中的数据存储与管理 | 提升数据读写性能,打破数据瓶颈,加速AI训练过程 |
Smallpond | https://github.com/deepseek-ai/smallpond | 基于 DuckDB 和 3FS 构建的轻量级数据处理框架,专为高性能和大规模数据处理设计 | 数据处理工具 | 提供高效、简便的 PB 级数据处理工具,降低使用和维护的复杂性 |
参考: