推理AI“脑补”成瘾，废话拉满，马里兰华人学霸揭开内幕过度思考之谜

网易 2025-04-15 14:00:41

A+ A-

推理AI“脑补”成瘾，废话拉满，马里兰华人学霸揭开内幕过度思考之谜。研究发现，推理模型如DeepSeek-R1、o1在遇到「缺失前提」（MiP）问题时表现失常，回答长度激增且计算资源浪费。马里兰大学和利哈伊大学的研究揭示了这些模型在面对MiP问题时的过度思考现象。

推理模型通过先“思考”再回答，通常能获得更优效果，因此越来越成为主流。然而，这类模型面对缺乏前提条件的问题时，会生成冗长且低效的回答。例如，即使是简单的数学问题，推理模型也可能生成数百个token的回答。这种现象违背了“测试时扩展定律”。

相比之下，非专门为推理训练的模型如GPT-4.5在MiP场景下表现更好，它们能迅速识别问题的不合理性并生成简短回答。这表明当前推理模型的一个关键缺陷是无法高效思考，导致思考模式被滥用。

为了深入探究这些失败的原因，研究人员分析了不同类型语言模型的推理长度、过度思考模式及批判性思维的位置。例如，当问到“a的值是多少？”时，即使没有任何关于a的信息，DeepSeek-R1仍会生成数千个token的回答，耗费大量计算资源。理想情况下，具备批判性思维的模型应能识别出缺失的前提，迅速要求澄清或表示无法继续解答。

研究人员设计了一套专门的MiP问题，以可控方式触发模型的过度思考。他们对各种最先进的语言模型进行了测试，评估指标包括生成回答的长度、明确问题上的准确率以及MiP问题上的放弃率。

核心发现显示，推理型模型在面对MiP问题时会生成明显更长的回答，但这些额外的token并不能帮助它们识别问题。而非推理模型则能更快识别出缺失前提，表现出更强的鲁棒性。推理型模型在明确问题上通常能稳定地进行思维链推理，但在MiP问题上往往陷入自我怀疑循环，反复重审问题、猜测用户意图，导致生成的token数激增。

缺失前提指的是缺少关键信息的问题。例如，如果问题是“小明买了苹果和香蕉一共花了多少钱”，但只提供了苹果的价格和数量，而没有提供香蕉的相关信息，那么这个问题就变成了缺失前提问题。理想的推理系统应该能快速发现缺失的关键信息并停止无效推理。

研究团队精心设计了一套可控的MiP问题，涵盖了不同难度级别的数学数据集。通过去掉原始问题中的一个关键前提来创建MiP问题。结果显示，推理模型在缺失前提条件下容易生成过长的回答，而非推理模型则能更快发现信息不足并选择不答。

通过进一步分析，研究人员发现推理模型在面对MiP问题时表现出更高的频率使用如“alternatively”、“wait”、“check”等词汇，显示出高级思考能力。然而，这些冗长的推理步骤大多是多余的，模型常常重新访问类似的部分推理或重复前面的句子，显示出潜在的自我陷阱问题。

研究还表明，大多数现有的推理模型在早期阶段就能怀疑给定问题可能无法解决，但它们缺乏批判性思维能力，倾向于通过反复重新审视问题和相关定义来继续深挖无解问题，而不是果断放弃。这种现象在基于强化学习和监督微调的推理模型中都有体现，可能源于训练过程中长度约束不足。

尽管推理模型在某些方面表现出色，但它们在处理缺失前提问题时仍存在显著缺陷，需要进一步改进以提高其批判性思维能力。

责任编辑：卢其龙 CN070

推理AI“脑补”成瘾，废话拉满，马里兰华人学霸揭开内幕过度思考之谜

热点新闻

精彩推荐

推理AI“脑补”成瘾，废话拉满，马里兰华人学霸揭开内幕 过度思考之谜

热点新闻

精彩推荐

推理AI“脑补”成瘾，废话拉满，马里兰华人学霸揭开内幕过度思考之谜