DeepSeek宣布开源MLA解码核FlashMLA!在上周DeepSeek宣布本周将是开源周,并将连续开源五个软件库后,今日DeepSeek开源了开源周首款用于Hopper GPU的高效型MLA解码核——FlashMLA。该项目在GitHub上已经收获了超过1700星,并且拥有62个Fork。
MLA是DeepSeek V2-V3系列大模型最重要的技术创新之一,主要用于减少推理过程中的KV Cache,从而降低推理成本。FlashMLA是针对Hopper GPUs的有效MLA解码内核,能够优化可变长度序列。目前发布的版本包括BF16和块大小为64的分页kvcache。
在基准测试中,FlashMLA在英伟达H800 SXM5 GPU上实现了3000 GB/s的内存速度以及580TFLOPS的计算上限。