DeepSeek新模型架构曝光 Model1或为V4代号

机器之心Pro 2026-01-21 13:25:01
A+ A-

DeepSeek新模型架构曝光 Model1或为V4代号。2025年1月20日,DeepSeek正式发布了DeepSeek-R1模型,开启了新的开源LLM时代。在Hugging Face发布的博客中,DeepSeek-R1成为该平台上获赞最多的模型。

刚过一年时间,DeepSeek的新模型又悄然出现在GitHub上。最近,DeepSeek对其FlashMLA代码库进行了多次更新,其中名为Model1的模型引起了广泛关注。这个神秘的Model1不仅出现在代码与注释中,还有与DeepSeek-V3.2并列的文件。网友们猜测,Model1可能是传闻中DeepSeek即将发布的新模型的代号。

根据对DeepSeek在2026年1月提交的flashmla库代码变更的分析,可以推断出Model1是DeepSeek下一代旗舰模型DeepSeek-V4的内部开发代号或首个工程版本。以下是技术细节分析:

核心架构方面,Model1回归到512维标准。在csrc/api/common.h的DISPATCH_HEAD_DIM宏中,可以看到head_dim的分支处理:V32(DeepSeek-V3.2)继续沿用d_qk = 576的配置,这是非对称MLA设计;而Model1切换到了512维,表明DeepSeek-V4在MLA架构上进行了标准化回归,可能为了更好地匹配Blackwell (SM100)架构的算力对齐,或者优化了Latent压缩比例。

代码库中还出现了大量针对NVIDIA下一代Blackwell GPU的专门优化。api.cpp中新增了FMHACutlassSM100FwdRun,直接指向了Blackwell架构的核心指令集优化。README提到在B200上运行需要CUDA 12.9。性能表现方面,在B200上,目前尚未完全优化的Sparse MLA算子已能达到350 TFlops;而在H800 (SM90a)上,Dense MLA的计算吞吐量高达660 TFlops。

Model1相比V3系列最显著的算子演进是引入了“Token-level Sparse MLA”。测试脚本中出现了test_flash_mla_sparse_decoding.py和test_flash_mla_dense_decoding.py。Sparse算子使用FP8存储KV Cache,但在计算矩阵乘法时使用bfloat16以保证精度。这说明Model1在极长上下文场景下,会通过稀疏化推理来降低显存压力和提升速度。

此外,Model1引入了Value Vector Position Awareness (VVPA)与Engram新机制。VVPA可能解决了传统MLA在长文本下位置信息衰减的问题。Engram机制被认为是DeepSeek在分布式存储或KV压缩上的新突破,用于配合Model1的高吞吐需求。

Gemini认为Model1是DeepSeek下一代旗舰模型DeepSeek-V4的内部开发代号或首个工程版本,因为它是一个与V32并列且独立的分支,采用了不同架构参数的全新模型。按照命名惯例,在V3.2之后的旗舰级架构跨越,逻辑上即为V4。

责任编辑:卢其龙 CN070

热点新闻

精彩推荐

加载更多……