Qwen3.6 自我纠正陷阱：为什么"思考"越多，结果反而越差

核心结论

Qwen3.5/3.6 系列的推理模式存在一个反直觉的现象：“思考”越多 ≠ 结果越好。具体来说，在 Self-Correction（自我纠正）阶段，模型的思考 token 数量会暴增数倍，但最终结论的质量几乎没有任何提升——有时甚至会自我否定到偏离正确答案。

这不是 Qwen 独有的问题，但 Qwen 的表现尤为明显。对于按 token 付费的用户来说，这是一个直接的成本浪费。

问题描述

典型场景

一个开发者的观察：

“Qwen3.5/3.6 的过渡思考基本都在 Self-Correction 阶段。本来思考结论已经很完善了，一到自我纠正阶段，话锋一转，开始疯狂找角度思考有没有理解错，结果多了几倍的思考内容，结论没什么改善。“

数据对比

阶段	Token 消耗	结论质量	典型行为
初始推理	~500 tokens	85-90/100	直接给出合理答案
Self-Correction	~2000-3000 tokens	85-92/100	反复质疑自己，几乎不改善结论

关键发现：Self-Correction 阶段消耗的 token 是初始推理的 4-6 倍，但结论质量的提升通常不超过 5%。

为什么会这样？

Qwen 的自我纠正机制存在一个设计缺陷：

过度怀疑倾向：模型被训练成”总是再检查一遍”，但没有判断”是否真的需要检查”的能力
缺乏置信度评估：模型不知道自己的初始结论已经足够好，于是机械地进入纠正流程
纠正 ≠ 改进：很多时候”纠正”只是在重复已经正确的推理步骤，或者引入了不必要的复杂度

实测案例

案例 1：数学题

Prompt: “计算 1234 × 5678 的值”

阶段	内容	Token
初始推理	正确计算，得出 7,006,652	~200
Self-Correction	”等等，让我重新验证一下每一位的乘法…嗯，第一位是…第二位…（重复验算过程）…哦不对，可能我理解错了题意…”	~1500
最终结论	仍然是 7,006,652	-

结论变化：无。初始答案就是对的，但 Self-Correction 浪费了 7 倍的 token。

案例 2：代码生成

Prompt: “写一个 Python 函数，将列表中的偶数过滤出来”

阶段	内容	Token
初始推理	给出 `[x for x in lst if x % 2 == 0]`	~300
Self-Correction	”这个方案是否最优？是否需要考虑性能？如果列表很大怎么办？要不要用 filter？但 filter 的可读性不如列表推导式…”	~2000
最终结论	仍然是列表推导式	-

结论变化：无。代码本身就是最优解，但模型陷入了”过度优化焦虑”。

这不是 Qwen 独有的问题

实际上，这是当前推理模型（Reasoning Models）的通病：

模型	Self-Correction 问题	严重程度
Qwen3.6	过度反思，token 膨胀 4-6 倍	🔴 严重
GPT-5.5	偶尔过度推理，token 膨胀 2-3 倍	🟡 中等
Claude Opus 4.7	相对克制，但仍有冗余	🟡 中等
DeepSeek V4	纠正效率高，冗余少	🟢 轻微

Qwen 的问题更严重，可能与其训练数据中包含了大量”反复检查”的人类推理模式有关。

行动建议

对 Qwen 用户

关闭推理模式：对于简单任务（分类、提取、翻译），直接使用非推理模式，成本可以降低 80%
手动截断：如果看到模型开始”疯狂自我质疑”，手动截断输出并采用初始结论
使用 Qwen3.6-Plus：Plus 版本的推理效率比 Max 版本更好，对于不需要极致推理能力的任务更划算

对开发者

如果你在用 Qwen 的 API，可以通过以下方式控制：

# 关闭推理模式（如果不需要深度推理）
response = client.chat.completions.create(
    model="qwen3.6-plus",
    messages=messages,
    thinking_budget=0  # 关闭思考链
)

# 或者限制思考预算
response = client.chat.completions.create(
    model="qwen3.6-max",
    messages=messages,
    thinking_budget=512  # 限制思考 token 上限
)

对通义团队（如果你们在看）

建议优化 Self-Correction 的触发机制：

加入置信度阈值：当初始推理的置信度超过 90% 时，跳过或简化 Self-Correction
引入早期终止：检测到纠正后的结论与初始结论一致时，立即停止
区分任务复杂度：简单任务不触发深度纠正

格局判断

这个问题反映了 2026 年推理模型面临的一个核心挑战：如何让模型”知道什么时候该停”。

当前的推理模型都假设”想得越多越好”，但这在经济学上是不成立的——每个额外的思考 token 都有成本，当边际收益递减到零以下时，继续思考就是浪费。

下一代理推理模型的竞争焦点可能不再是”能想多深”，而是”知道什么时候该停止思考”。在这方面，DeepSeek V4 的表现已经暗示了一个更优的方向。