分享

大模型知道自己在瞎说,但是无法停下来!华人团队研究发现:2000token以后,大模型就开始表演“词语沙拉”,纯浪费钱

 长沙7喜 2025-12-13
图片
图片

推理型大语言模型(LRM),像 ChatGPT-5、Claude 3.5、Gemini 1.5 Pro 等模型,能生成长篇、结构化的推理文本来说明自己的思考过程,比传统LLM的推理能力更强,这已经不是什么稀奇事了。

但一项来自明尼苏达大学、莱斯大学、史蒂文斯理工学院和 Lambda Inc 的华人团队最新研究指出,LRM在执行推理任务时,会“陷入语言循环”,生成大量无意义的废话,并且迅速烧掉你的 token。

研究者为此起了一个很生动的名字,“词语沙拉”(Word Salad)顾名思义:模型把词语像生菜一样不断搅拌、重复、堆叠,看起来很丰盛,其实没什么营养。
而更震撼的发现是,模型也会意识到自己在瞎说,但依然无法控制自己停下来。
图片

图片

推理模型的隐形漏洞:词语沙拉


研究团队指出,LRM的“思维链”推理的代价极高。每一步内部生成的文本都要被再次解码、存储、预测,计算开销远超普通对话模型。
而且,模型并非总在“思考”——很多时候,它只是在不停地说废话

“我们观察到,LRM 在生成长链推理时,会出现一种'幻觉式赘述’现象:重复先前的句子结构、枚举无关情况、或在解释中兜圈子。它们在形式上表现为推理,但在语义上是空洞的。”

以往的研究(如《Demystifying Long Chain-of-Thought Reasoning in LLMs》《Small Models Struggle to Learn from Strong Reasoners》)指出,大模型在 CoT 推理中容易出现“过度思考”现象:
即输出大量重复、松散的解释句式,以掩盖其逻辑不确定性。
而研究团队在分析 DeepSeek-R1-Distill 系列模型时发现,在 GPQA-Diamond 数据集任务中:平均超过 55% 的生成 token 属于“词语沙拉”,即语义重复、无增量价值的内容。
图片

这意味着,用户在每次推理调用中,有一半的费用都被浪费在模型的“语言循环”上。

更关键的是,研究者发现这种行为并非偶然随机,而是可预测的模式:
  • 在模型陷入循环前后,隐藏状态的分布发生明显变化;
  • 某些 token(特别是 \n\n)后面的状态信号能准确预示模型是否“失控”;
  • 模型在内部表现出一种“觉察到自己在重复”的信号。

图片

AI的“去水”神器:WordSaladChopper

为了解决这个问题,研究者的想法非常简单粗暴:

如果模型在内部“知道自己在胡说八道”,那么我们就可以直接监听它的隐藏层信号,在它开始胡说时立刻把它打断。

他们提出了一个框架,叫WordSaladChopper(词语沙拉切断器) 。它的原理非常直接:
1️⃣ 在模型生成推理时,监控每个段落(以双换行符分割);
2️⃣ 如果连续两个段落的隐藏状态显示“循环模式”,
3️⃣ 系统立刻切断生成,并自动补上提示让模型“从这里重新回答”。

图片

目前在github上已经开源:

https://github.com/wenyaxie023/WordSaladChopper

实验全部在单台 NVIDIA H100 GPU 上进行。研究者主要在 o1-mini 模型(OpenAI 推理型模型) 上运行实验,并将结果与 GPT-4o-mini 以及 Claude 3.5-sonnet 进行对比,以验证问题的普遍性。

所有测试均使用 S1 benchmark(由 OpenAI 发布的 reasoning-focused 评测集),该数据集包含大量需要多步推理、算术运算或逻辑归纳的题目。
对于每个模型,研究者共生成 1000 条推理轨迹(reasoning traces),每条轨迹约 1000–3000 token。

训练用于检测“词语沙拉”的分类器时,他们将轨迹按双换行符划分为片段(chunk),每个 chunk 的最后一个 token 的隐藏状态作为输入特征。
训练目标是预测每个 chunk 是否属于“词语沙拉”循环。

为评估方法效果,研究者使用以下指标:

  1. Precision(精确率):被判定为“词语沙拉”的片段中,实际为“词语沙拉”的比例。

  2. Recall(召回率):所有真实“词语沙拉”片段中,被正确检测到的比例。

  3. F1 分数:精确率与召回率的调和平均。

  4. Token budget waste(Token 消耗浪费):重复循环所占的输出 token 比例。

此外,他们还关注了两个定性指标:

  • 模型是否在陷入循环后仍尝试“自我修正”;

  • 在检测到循环后手动终止生成并重新提示时,模型能否成功继续回答。

图片
结果发现:

1. 词语沙拉的广泛存在性

“词语沙拉循环”不仅存在于 o1-mini,也普遍出现在其他推理型模型中。
Claude 3.5、GPT-4o-mini 在长推理任务中,都出现了明显的自我重复现象。

尤其在数学推理 和多步逻辑任务中,模型常在 2000–4000 token 之后陷入无意义的长段自我解释、重述、或对“自身思路”的重复反刍。

“在 1000 条推理轨迹中,约有 61% 的轨迹出现过至少一次词语沙拉循环,平均浪费了 23% 的解码预算。”

2. 分类器检测效果

线性分类器在仅使用隐藏状态(无需额外输入或模型修改)的情况下,就能以较高精度检测出这些重复片段:

图片

研究者分析了模型的隐藏状态,发现当模型陷入“词语沙拉循环”时,内部激活信号会出现非常明显的模式变化。

这也是论文最震撼的发现,不是模型啰嗦——而是它“知道自己在啰嗦”。

模型的神经层在“语义混乱”时,会呈现出特征性波动。
换句话说,AI 自己知道自己开始胡说八道了。

只不过,它停不下来。就像一个讲不出重点的发言人,只能不停补充、重复、重述,以维持表面的“逻辑连贯”。

3. 干预后的改进

在检测器实时接入后,当系统监测到连续两个片段被判定为“词语沙拉”时,就会终止生成并发出固定再生成提示。
结果表明:

  • 在不训练模型本身的情况下,最多可缩短57%的输出
  • 对整体正确率的影响可以忽略

  • 推理延迟显著降低

图片
图片

图片

为什么推理模型特别容易陷入“词语沙拉”

作者提出了三种主要原因:

  1. 长上下文窗口
    模型能“记住”自己说过的废话,从而把它再度引用、重组,形成自我循环。

  2. 高一致性偏好
    推理型模型被训练成要维持语言流畅、思维连贯,即使已经偏题,也会强行“接着讲完”。

  3. 缺乏显式终止条件
    当前推理架构没有“我想不出来了”的机制,因此在逻辑死胡同时,只能继续生成表面合理的文字。

这三点共同导致模型在推理任务中,更容易“过度思考”,甚至产生语言幻觉。

图片

“AI的幻觉”,其实也是算力幻觉


这篇论文还有另一个隐含观点:

我们一直以为模型的“幻觉(hallucination)”是事实错误,但它也可能是算力层面的幻觉——模型把计算资源浪费在无意义的循环上,却仍然“自信满满”。

研究者批评了目前业界和学界用于评估推理模型性能的标准(如 GSM8K、MATH、GPQA 等)本身存在缺陷。
这些 benchmark 关注模型是否“答对”,但很少衡量模型是否高效、是否在浪费预算

“我们认为,许多所谓的'高效推理方法’之所以看起来有效,部分原因是评估基准本身过于宽松。
一旦未来出现更全面的评测体系,许多被吹捧的高效推理方法可能会彻底失效,或表现与原生模型完全不同。”

这其实也是对整个“CoT(思维链)热潮”的一次隐性反思:

当前模型的“推理能力”,有相当部分只是看起来在思考,而不是真正地在推理

那么,评论区的各位大佬们:

你用 AI 时,有没有遇到它“越解释越离谱”的情况?
如果 AI 能自己检测到在胡说八道,并停下来,你会更信任它吗?

参考链接:

https:///pdf/2511.00536

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多