推理AI“脑补”成瘾,废话拉满,马里兰华人学霸揭开内幕 过度思考之谜

网易 2025-04-15 14:00:41
A+ A-

推理AI“脑补”成瘾,废话拉满,马里兰华人学霸揭开内幕 过度思考之谜。研究发现,推理模型如DeepSeek-R1、o1在遇到「缺失前提」(MiP)问题时表现失常,回答长度激增且计算资源浪费。马里兰大学和利哈伊大学的研究揭示了这些模型在面对MiP问题时的过度思考现象。

推理模型通过先“思考”再回答,通常能获得更优效果,因此越来越成为主流。然而,这类模型面对缺乏前提条件的问题时,会生成冗长且低效的回答。例如,即使是简单的数学问题,推理模型也可能生成数百个token的回答。这种现象违背了“测试时扩展定律”。

相比之下,非专门为推理训练的模型如GPT-4.5在MiP场景下表现更好,它们能迅速识别问题的不合理性并生成简短回答。这表明当前推理模型的一个关键缺陷是无法高效思考,导致思考模式被滥用。

为了深入探究这些失败的原因,研究人员分析了不同类型语言模型的推理长度、过度思考模式及批判性思维的位置。例如,当问到“a的值是多少?”时,即使没有任何关于a的信息,DeepSeek-R1仍会生成数千个token的回答,耗费大量计算资源。理想情况下,具备批判性思维的模型应能识别出缺失的前提,迅速要求澄清或表示无法继续解答。

研究人员设计了一套专门的MiP问题,以可控方式触发模型的过度思考。他们对各种最先进的语言模型进行了测试,评估指标包括生成回答的长度、明确问题上的准确率以及MiP问题上的放弃率。

核心发现显示,推理型模型在面对MiP问题时会生成明显更长的回答,但这些额外的token并不能帮助它们识别问题。而非推理模型则能更快识别出缺失前提,表现出更强的鲁棒性。推理型模型在明确问题上通常能稳定地进行思维链推理,但在MiP问题上往往陷入自我怀疑循环,反复重审问题、猜测用户意图,导致生成的token数激增。

缺失前提指的是缺少关键信息的问题。例如,如果问题是“小明买了苹果和香蕉一共花了多少钱”,但只提供了苹果的价格和数量,而没有提供香蕉的相关信息,那么这个问题就变成了缺失前提问题。理想的推理系统应该能快速发现缺失的关键信息并停止无效推理。

研究团队精心设计了一套可控的MiP问题,涵盖了不同难度级别的数学数据集。通过去掉原始问题中的一个关键前提来创建MiP问题。结果显示,推理模型在缺失前提条件下容易生成过长的回答,而非推理模型则能更快发现信息不足并选择不答。

通过进一步分析,研究人员发现推理模型在面对MiP问题时表现出更高的频率使用如“alternatively”、“wait”、“check”等词汇,显示出高级思考能力。然而,这些冗长的推理步骤大多是多余的,模型常常重新访问类似的部分推理或重复前面的句子,显示出潜在的自我陷阱问题。

研究还表明,大多数现有的推理模型在早期阶段就能怀疑给定问题可能无法解决,但它们缺乏批判性思维能力,倾向于通过反复重新审视问题和相关定义来继续深挖无解问题,而不是果断放弃。这种现象在基于强化学习和监督微调的推理模型中都有体现,可能源于训练过程中长度约束不足。

尽管推理模型在某些方面表现出色,但它们在处理缺失前提问题时仍存在显著缺陷,需要进一步改进以提高其批判性思维能力。

责任编辑:卢其龙 CN070

热点新闻

精彩推荐

加载更多……