核心的結論
Qwen3.5/3.6 シリーズの推論モードには直感に反する現象が存在する:「思考」越多 ≠ 結果越好。具体的には、Self-Correction(自己修正)フェーズにおいて、モデルの思考 token 数が 4〜6 倍に急増するが、最終結論の品質はほとんど改善されない——場合によっては自ら正解から逸脱することさえある。
これは Qwen 固有の問題ではなく、Qwen の表現が特に顕著である。token ごとに課金されるユーザーにとって、これは直接のコスト浪費である。
問題の説明
典型的なシナリオ
ある開発者の観察:
「Qwen3.5/3.6 の遷移思考は基本的に Self-Correction フェーズに集中している。初期推論の結論はかなり完善なのに、自己修正段階に入ると、話が一転して「理解し間違えていないか」と疯狂に角度を探し始め、思考内容が数倍に増えるが結論はほとんど改善されない。」
データ比較
| フェーズ | Token 消費 | 結論品質 | 典型的な挙動 |
|---|---|---|---|
| 初期推論 | ~500 tokens | 85-90/100 | 直接合理的な答えを出す |
| Self-Correction | ~2000-3000 tokens | 85-92/100 | 繰り返し自分を疑い、結論はほとんど改善されない |
重要な発見:Self-Correction フェーズの token 消費は初期推論の 4〜6 倍だが、結論品質の改善は通常 5% 未満。
なぜこうなるのか?
Qwen の自己修正メカニズムには設計上の欠陥がある:
- 過度な疑い傾向:モデルは「常に再チェックする」ように訓練されているが、「実際にチェックが必要かどうか」を判断する能力がない
- 信頼度評価の欠如:モデルは自分の初期結論がすでに十分良いことを知らないため、機械的に修正プロセスに入る
- 修正 ≠ 改善:多くの場合「修正」はすでに正しい推論ステップを繰り返しているか、不要な複雑さを導入しているだけ
テストケース
ケース 1:数学問題
プロンプト:「1234 × 5678 の値を計算せよ」
| フェーズ | 内容 | Token |
|---|---|---|
| 初期推論 | 正しく計算、7,006,652 を導出 | ~200 |
| Self-Correction | 「待てよ、もう一度各桁の掛け算を検証しよう…うーん、最初の桁は…2番目の桁は…(検証プロセスを繰り返す)…あれ?もしかして問題の理解を間違えたかも…」 | ~1500 |
| 最終結論 | やはり 7,006,652 | - |
結論の変化:なし。初期答えは正しかったが、Self-Correction が 7 倍の token を浪費した。
ケース 2:コード生成
プロンプト:「リストから偶数をフィルタリングする Python 関数を書け」
| フェーズ | 内容 | Token |
|---|---|---|
| 初期推論 | [x for x in lst if x % 2 == 0] を提示 | ~300 |
| Self-Correction | 「このアプローチは最优か?パフォーマンスを考慮すべきか?リストが非常に大きい場合は?filter を使うべきか?でも filter はリスト内包表記より可読性が低い…」 | ~2000 |
| 最終結論 | やはりリスト内包表記 | - |
結論の変化:なし。コード自体が最优解だったが、モデルは「過度な最適化不安」に陥った。
これは Qwen 固有の問題ではない
実際、これは現在の推論モデル(Reasoning Models)の共通問題である:
| モデル | Self-Correction の問題 | 深刻度 |
|---|---|---|
| Qwen3.6 | 過度な内省、token 膨張 4〜6 倍 | 🔴 深刻 |
| GPT-5.5 | 時折過度な推論、token 膨張 2〜3 倍 | 🟡 中等 |
| Claude Opus 4.7 | 比較的抑制されているが、仍有冗長性 | 🟡 中等 |
| DeepSeek V4 | 修正効率が高く、冗長性が少ない | 🟢 軽微 |
Qwen の問題がより深刻なのは、その訓練データに大量の「繰り返しチェックする」人間の推論パターンが含まれている可能性が高い。
アクション提案
Qwen ユーザー向け
- 推論モードをオフにする:単純タスク(分類、抽出、翻訳)の場合は非推論モードを直接使用——コストを 80% 削減できる
- 手動截断:モデルが「疯狂に自己疑念」し始めたら、手動で出力を截断して初期結論を採用
- Qwen3.6-Plus を使用する:Plus バージョンの推論効率は Max バージョンより良い——極端な推論能力を必要としないタスクによりコストパフォーマンスが高い
開発者向け
Qwen の API を使用している場合、以下の方法で制御できる:
# 推論モードをオフにする(深度推論が不要な場合)
response = client.chat.completions.create(
model="qwen3.6-plus",
messages=messages,
thinking_budget=0 # 思考連鎖を無効化
)
# または思考予算を制限
response = client.chat.completions.create(
model="qwen3.6-max",
messages=messages,
thinking_budget=512 # 思考 token の上限を設定
)
通義チームへ(もし読んでいたら)
Self-Correction のトリガーメカニズムの最適化提案:
- 信頼度閾値を追加:初期推論の信頼度が 90% を超える場合、Self-Correction をスキップまたは簡略化
- 早期終了を導入:修正後の結論が初期結論と一致したことを検知したら、直ちに停止
- タスク複雑度の区別:単純タスクには深度修正をトリガーしない
格局判断
この問題は 2026 年の推論モデルが直面する核心的な課題を反映している:どのようにしてモデルに「いつ止まるべきか」を知らせるか。
現在の推論モデルはすべて「考えれば考えるほど良い」と仮定しているが、これは経済学上成立しない——追加の思考 token ごとにコストがかかり、限界収益がゼロを下回った時点で考え続けることは浪費である。
次世代推論モデルの競争焦点は「どれだけ深く考えられるか」から「いつ思考を止めるべきかを知る」へシフトする可能性がある。この点において、DeepSeek V4 の表現はすでに優れた方向を示唆している。