MiniMax 扒出了大模型不认识“马嘉祺”的根源。人们在使用AI大模型时,经常会遇到一些奇怪的问题。例如,DeepSeek V3.1 会频繁出现“极”字,无论是在英文还是代码、试卷、报告中,网友们戏称其为“极你太美 bug”。GPT-5 系列则喜欢在各种场合插入“哥布林”,OpenAI 的工程师不得不在系统提示词中明确禁止谈论哥布林等词汇。豆包搜索清末民初的大总统黎元洪时,结果却出现了喜剧演员范伟的恶搞剧照,因为互联网上的玩梗内容已经覆盖了真实历史照片。
马嘉祺作为时代少年团的队长,在AI训练数据中是一个特殊案例。问题在于机器学习的奖励机制分配了不匹配的反馈信号,导致模型处理他的数据时出现混淆。这并非简单的脏数据污染,而是AI架构本身的缺陷。大模型无法将马嘉祺的名字与他本人对应起来,因此系统始终说不出他是谁。
最近有网友发现,当问到MiniMax-M2.5时,系统说不出2002年出生的演员兼歌手马嘉祺的名字,尽管它知道这个人。用户询问“时代少年团的队长叫什么”时,系统会回答不上来,甚至编出其他名字如马嘉轩、马丝祺。但如果问“时代少年团是什么团体”或“队长有哪些经历”,系统能清晰地讲述出道时间、角色和参与的综艺。
这种现象类似于人类的舌尖现象,即脑子里有这个词但说不出来。MiniMax的技术团队核实了M2.5模型是否认得马嘉祺,发现模型确实能答出他所在的团体和职业,但在某些情况下就是说不出“马嘉祺”这三个字。进一步测试显示,分词器没有问题,“嘉祺”已经被合成一个单独的token。预训练阶段模型已经学会了这个词,但在经过SFT后,这个词被避开了。
检查后训练的数据分布发现,SFT语料中带“嘉祺”的样本不到5条。输入端几乎没变,但输出端却发生了变化。原因在于“小语种”问题。SFT后的模型仍能理解问题,但输出层lm_head发生了显著变化。“嘉祺”对应的lm_head向量在SFT前后余弦相似度大幅下降,变化幅度在整个词表中排名靠前。
MiniMax团队通过分析模型输出层的最近邻结构找到了问题根源。预训练阶段,“嘉祺”附近聚集的是中文人名,但经过SFT微调后,它的邻居变成了大量特殊token、tool call标记、文件编辑标记和编码噪声。这表明输出空间的局部结构被压缩,原本属于人名的位置与无关token混在一起。模型内部可能形成了正确的语义意图,但在最终输出时,“嘉祺”这个token的生成概率被压低,或者被替代。
修复方案是提高后训练阶段的词表覆盖度。MiniMax构造了一份“全词表覆盖合成数据”,确保每个token至少作为生成目标出现20次。实验对比显示效果明显,日语对话混入俄语字符的概率从47%降到了1%,马嘉祺可以被正常说出。之前会被替换为错误token的词组也恢复正常输出。
这个问题揭示了后训练阶段的数据分布变化会导致长尾token退化。后训练不仅影响模型聊天能力,还会重塑词表输出空间。一旦数据覆盖不均匀,长尾token就会悄悄退化。监督微调可能导致灾难性遗忘,但“马嘉祺”问题展示了一种更细粒度的遗忘:模型没有忘掉概念本身,却忘掉了如何拼出某个token。类似现象也在ChatGPT、Qwen等模型中出现过,被称为“Glitch Token”。
从工程角度,MiniMax考虑了几种根治方向,包括混入少量预训练数据、定向合成样本、建立监控机制,或者裁剪词表和继续预训练以重新对齐嵌入空间。核心启示是后训练数据质量不仅要关注任务类型和领域覆盖,还要关注底层token的命中率。
这个有趣的bug也让外界看到了大模型与人类相似之处:模型在长期记忆检索时也会发生路径坍缩,给出诡异的答案。模型的“理解”与“生成”用的是两套独立参数,在不同训练阶段以不同方式更新。后训练数据分布一旦出现偏差,两端之间的裂缝就显现了。好消息是,裂缝已被发现、记录并修复。