DeepGEMM 它是开源清洁和高效的 FP8 GEMM 开源库的设计,FP8 它是周开阵乘绍兴气象一种比传统更低精度的格式 FP32 或 FP16 对于大规模的吞吐量和较低的内存使用,计算更高的源D用矩吞吐量 AI 特别是设计矩阵乘法的任务,模型非常重要。通提高
这个开源库支持普通和混合专家 (MoE) 分组 GEMM,法库同时也适用于多种 AI 架构,效率DeepSeek 这些开源产品基本上都是蓝点在自己的模型中使用的,属于经过测试和验证后再开源的开源产品。
在 GitHub 中 DeepSeek 也对 DeepGEMM 详细说明:
DeepGEMM 实现以简单性和效率为基础,使用 CUDA 编写利用 NVIDIA 的 GPU 在操作过程中,编程模型通过轻量级即时编译模块对所有内核进行编译,无需安装旗舰进行编译。这一特点使 DeepGEMM 高度优化的代码可以根据特定的硬件和输入大小生成,从而提高性能。
这个开源库借鉴了开源项目 CUTLASS 和 CuTe 相反,依赖这些项目的复杂模板或代数避免了概念 DeepGEMM 设计简单,核心内核函数在 300 从而提高简约性和易用性。
支持各种不同的布局:
DeepGEMM 还支持密集布局和两种布局 MoE 适用于标准矩阵乘法和特殊布局 MoE 在大型语音模型中使用这些架构来有效地处理稀疏数据。
DeepGEMM 性能在各种矩阵形状上匹配或超过专家优化库,这只是 300 对于银行代码的开源库来说,这是一个巨大的成就。专家优化的核心通常是为特定的硬件设计而设计的,如循环扩展和块手动优化 DeepGEMM 使用双极累积解决方案 FP8 确保计算的准确性,从而提高模型性能。
有兴趣的开发者可以通过 GitHub 获取代码:https://github.com/deepseek-ai/DeepGEMM。