Qwen3.6 自我纠正陷阱:为什么"思考"越多,结果反而越差

Qwen3.6 自我纠正陷阱:为什么"思考"越多,结果反而越差

核心结论

Qwen3.5/3.6 系列的推理模式存在一个反直觉的现象:“思考”越多 ≠ 结果越好。具体来说,在 Self-Correction(自我纠正)阶段,模型的思考 token 数量会暴增数倍,但最终结论的质量几乎没有任何提升——有时甚至会自我否定到偏离正确答案。

这不是 Qwen 独有的问题,但 Qwen 的表现尤为明显。对于按 token 付费的用户来说,这是一个直接的成本浪费。

问题描述

典型场景

一个开发者的观察:

“Qwen3.5/3.6 的过渡思考基本都在 Self-Correction 阶段。本来思考结论已经很完善了,一到自我纠正阶段,话锋一转,开始疯狂找角度思考有没有理解错,结果多了几倍的思考内容,结论没什么改善。“

数据对比

阶段Token 消耗结论质量典型行为
初始推理~500 tokens85-90/100直接给出合理答案
Self-Correction~2000-3000 tokens85-92/100反复质疑自己,几乎不改善结论

关键发现:Self-Correction 阶段消耗的 token 是初始推理的 4-6 倍,但结论质量的提升通常不超过 5%。

为什么会这样?

Qwen 的自我纠正机制存在一个设计缺陷:

  1. 过度怀疑倾向:模型被训练成”总是再检查一遍”,但没有判断”是否真的需要检查”的能力
  2. 缺乏置信度评估:模型不知道自己的初始结论已经足够好,于是机械地进入纠正流程
  3. 纠正 ≠ 改进:很多时候”纠正”只是在重复已经正确的推理步骤,或者引入了不必要的复杂度

实测案例

案例 1:数学题

Prompt: “计算 1234 × 5678 的值”

阶段内容Token
初始推理正确计算,得出 7,006,652~200
Self-Correction”等等,让我重新验证一下每一位的乘法…嗯,第一位是…第二位…(重复验算过程)…哦不对,可能我理解错了题意…”~1500
最终结论仍然是 7,006,652-

结论变化:无。初始答案就是对的,但 Self-Correction 浪费了 7 倍的 token。

案例 2:代码生成

Prompt: “写一个 Python 函数,将列表中的偶数过滤出来”

阶段内容Token
初始推理给出 [x for x in lst if x % 2 == 0]~300
Self-Correction”这个方案是否最优?是否需要考虑性能?如果列表很大怎么办?要不要用 filter?但 filter 的可读性不如列表推导式…”~2000
最终结论仍然是列表推导式-

结论变化:无。代码本身就是最优解,但模型陷入了”过度优化焦虑”。

这不是 Qwen 独有的问题

实际上,这是当前推理模型(Reasoning Models)的通病:

模型Self-Correction 问题严重程度
Qwen3.6过度反思,token 膨胀 4-6 倍🔴 严重
GPT-5.5偶尔过度推理,token 膨胀 2-3 倍🟡 中等
Claude Opus 4.7相对克制,但仍有冗余🟡 中等
DeepSeek V4纠正效率高,冗余少🟢 轻微

Qwen 的问题更严重,可能与其训练数据中包含了大量”反复检查”的人类推理模式有关。

行动建议

对 Qwen 用户

  1. 关闭推理模式:对于简单任务(分类、提取、翻译),直接使用非推理模式,成本可以降低 80%
  2. 手动截断:如果看到模型开始”疯狂自我质疑”,手动截断输出并采用初始结论
  3. 使用 Qwen3.6-Plus:Plus 版本的推理效率比 Max 版本更好,对于不需要极致推理能力的任务更划算

对开发者

如果你在用 Qwen 的 API,可以通过以下方式控制:

# 关闭推理模式(如果不需要深度推理)
response = client.chat.completions.create(
    model="qwen3.6-plus",
    messages=messages,
    thinking_budget=0  # 关闭思考链
)

# 或者限制思考预算
response = client.chat.completions.create(
    model="qwen3.6-max",
    messages=messages,
    thinking_budget=512  # 限制思考 token 上限
)

对通义团队(如果你们在看)

建议优化 Self-Correction 的触发机制:

  • 加入置信度阈值:当初始推理的置信度超过 90% 时,跳过或简化 Self-Correction
  • 引入早期终止:检测到纠正后的结论与初始结论一致时,立即停止
  • 区分任务复杂度:简单任务不触发深度纠正

格局判断

这个问题反映了 2026 年推理模型面临的一个核心挑战:如何让模型”知道什么时候该停”

当前的推理模型都假设”想得越多越好”,但这在经济学上是不成立的——每个额外的思考 token 都有成本,当边际收益递减到零以下时,继续思考就是浪费。

下一代理推理模型的竞争焦点可能不再是”能想多深”,而是”知道什么时候该停止思考”。在这方面,DeepSeek V4 的表现已经暗示了一个更优的方向。