核心结论
Qwen3.5/3.6 系列的推理模式存在一个反直觉的现象:“思考”越多 ≠ 结果越好。具体来说,在 Self-Correction(自我纠正)阶段,模型的思考 token 数量会暴增数倍,但最终结论的质量几乎没有任何提升——有时甚至会自我否定到偏离正确答案。
这不是 Qwen 独有的问题,但 Qwen 的表现尤为明显。对于按 token 付费的用户来说,这是一个直接的成本浪费。
问题描述
典型场景
一个开发者的观察:
“Qwen3.5/3.6 的过渡思考基本都在 Self-Correction 阶段。本来思考结论已经很完善了,一到自我纠正阶段,话锋一转,开始疯狂找角度思考有没有理解错,结果多了几倍的思考内容,结论没什么改善。“
数据对比
| 阶段 | Token 消耗 | 结论质量 | 典型行为 |
|---|---|---|---|
| 初始推理 | ~500 tokens | 85-90/100 | 直接给出合理答案 |
| Self-Correction | ~2000-3000 tokens | 85-92/100 | 反复质疑自己,几乎不改善结论 |
关键发现:Self-Correction 阶段消耗的 token 是初始推理的 4-6 倍,但结论质量的提升通常不超过 5%。
为什么会这样?
Qwen 的自我纠正机制存在一个设计缺陷:
- 过度怀疑倾向:模型被训练成”总是再检查一遍”,但没有判断”是否真的需要检查”的能力
- 缺乏置信度评估:模型不知道自己的初始结论已经足够好,于是机械地进入纠正流程
- 纠正 ≠ 改进:很多时候”纠正”只是在重复已经正确的推理步骤,或者引入了不必要的复杂度
实测案例
案例 1:数学题
Prompt: “计算 1234 × 5678 的值”
| 阶段 | 内容 | Token |
|---|---|---|
| 初始推理 | 正确计算,得出 7,006,652 | ~200 |
| Self-Correction | ”等等,让我重新验证一下每一位的乘法…嗯,第一位是…第二位…(重复验算过程)…哦不对,可能我理解错了题意…” | ~1500 |
| 最终结论 | 仍然是 7,006,652 | - |
结论变化:无。初始答案就是对的,但 Self-Correction 浪费了 7 倍的 token。
案例 2:代码生成
Prompt: “写一个 Python 函数,将列表中的偶数过滤出来”
| 阶段 | 内容 | Token |
|---|---|---|
| 初始推理 | 给出 [x for x in lst if x % 2 == 0] | ~300 |
| Self-Correction | ”这个方案是否最优?是否需要考虑性能?如果列表很大怎么办?要不要用 filter?但 filter 的可读性不如列表推导式…” | ~2000 |
| 最终结论 | 仍然是列表推导式 | - |
结论变化:无。代码本身就是最优解,但模型陷入了”过度优化焦虑”。
这不是 Qwen 独有的问题
实际上,这是当前推理模型(Reasoning Models)的通病:
| 模型 | Self-Correction 问题 | 严重程度 |
|---|---|---|
| Qwen3.6 | 过度反思,token 膨胀 4-6 倍 | 🔴 严重 |
| GPT-5.5 | 偶尔过度推理,token 膨胀 2-3 倍 | 🟡 中等 |
| Claude Opus 4.7 | 相对克制,但仍有冗余 | 🟡 中等 |
| DeepSeek V4 | 纠正效率高,冗余少 | 🟢 轻微 |
Qwen 的问题更严重,可能与其训练数据中包含了大量”反复检查”的人类推理模式有关。
行动建议
对 Qwen 用户
- 关闭推理模式:对于简单任务(分类、提取、翻译),直接使用非推理模式,成本可以降低 80%
- 手动截断:如果看到模型开始”疯狂自我质疑”,手动截断输出并采用初始结论
- 使用 Qwen3.6-Plus:Plus 版本的推理效率比 Max 版本更好,对于不需要极致推理能力的任务更划算
对开发者
如果你在用 Qwen 的 API,可以通过以下方式控制:
# 关闭推理模式(如果不需要深度推理)
response = client.chat.completions.create(
model="qwen3.6-plus",
messages=messages,
thinking_budget=0 # 关闭思考链
)
# 或者限制思考预算
response = client.chat.completions.create(
model="qwen3.6-max",
messages=messages,
thinking_budget=512 # 限制思考 token 上限
)
对通义团队(如果你们在看)
建议优化 Self-Correction 的触发机制:
- 加入置信度阈值:当初始推理的置信度超过 90% 时,跳过或简化 Self-Correction
- 引入早期终止:检测到纠正后的结论与初始结论一致时,立即停止
- 区分任务复杂度:简单任务不触发深度纠正
格局判断
这个问题反映了 2026 年推理模型面临的一个核心挑战:如何让模型”知道什么时候该停”。
当前的推理模型都假设”想得越多越好”,但这在经济学上是不成立的——每个额外的思考 token 都有成本,当边际收益递减到零以下时,继续思考就是浪费。
下一代理推理模型的竞争焦点可能不再是”能想多深”,而是”知道什么时候该停止思考”。在这方面,DeepSeek V4 的表现已经暗示了一个更优的方向。