本文最后更新于：2025年3月16日下午

DeepSeek开源周

Day1 FlashMLA

FlashMLA是用于Hopper GPU的高效MLA解码内核，针对可变长度序列服务进行了优化。

DeepEP是为混合专家（MoE）和专家并行（EP）量身定制的通信库，提供高通量和低延迟的全对全GPU内核，也就是所谓的MoE调度和合并，该库还支持低查准率/精确度操作，包括FP8。

DeepGEMM是一个专为干净高效的FP8通用矩阵乘法（GEMM）而设计的库，具有细粒度扩展，如DeepSeek-V3中提出的。它支持普通和混合专家（MoE）分组的GEMM。该库用CUDA编写，在安装过程中不需要编译，通过在运行时使用轻量级即时（JIT）模块编译所有内核。

#DeepSeek

DeepSeek开源周

https://yorick-ryu.github.io/AI/deepseek-opensource-week/

作者

Yorick

发布于

2025年3月1日

许可协议