Qwen3.6 自己修正の罠：なぜ「思考」すればするほど結果が悪くなるのか

核心的結論

Qwen3.5/3.6 シリーズの推論モードには直感に反する現象が存在する：「思考」越多 ≠ 結果越好。具体的には、Self-Correction（自己修正）フェーズにおいて、モデルの思考 token 数が 4〜6 倍に急増するが、最終結論の品質はほとんど改善されない——場合によっては自ら正解から逸脱することさえある。

これは Qwen 固有の問題ではなく、Qwen の表現が特に顕著である。token ごとに課金されるユーザーにとって、これは直接のコスト浪費である。

問題の説明

典型的なシナリオ

ある開発者の観察：

「Qwen3.5/3.6 の遷移思考は基本的に Self-Correction フェーズに集中している。初期推論の結論はかなり完善なのに、自己修正段階に入ると、話が一転して「理解し間違えていないか」と疯狂に角度を探し始め、思考内容が数倍に増えるが結論はほとんど改善されない。」

データ比較

フェーズ	Token 消費	結論品質	典型的な挙動
初期推論	~500 tokens	85-90/100	直接合理的な答えを出す
Self-Correction	~2000-3000 tokens	85-92/100	繰り返し自分を疑い、結論はほとんど改善されない

重要な発見：Self-Correction フェーズの token 消費は初期推論の 4〜6 倍だが、結論品質の改善は通常 5% 未満。

なぜこうなるのか？

Qwen の自己修正メカニズムには設計上の欠陥がある：

過度な疑い傾向：モデルは「常に再チェックする」ように訓練されているが、「実際にチェックが必要かどうか」を判断する能力がない
信頼度評価の欠如：モデルは自分の初期結論がすでに十分良いことを知らないため、機械的に修正プロセスに入る
修正 ≠ 改善：多くの場合「修正」はすでに正しい推論ステップを繰り返しているか、不要な複雑さを導入しているだけ

テストケース

ケース 1：数学問題

プロンプト：「1234 × 5678 の値を計算せよ」

フェーズ	内容	Token
初期推論	正しく計算、7,006,652 を導出	~200
Self-Correction	「待てよ、もう一度各桁の掛け算を検証しよう…うーん、最初の桁は…2番目の桁は…（検証プロセスを繰り返す）…あれ？もしかして問題の理解を間違えたかも…」	~1500
最終結論	やはり 7,006,652	-

結論の変化：なし。初期答えは正しかったが、Self-Correction が 7 倍の token を浪費した。

ケース 2：コード生成

プロンプト：「リストから偶数をフィルタリングする Python 関数を書け」

フェーズ	内容	Token
初期推論	`[x for x in lst if x % 2 == 0]` を提示	~300
Self-Correction	「このアプローチは最优か？パフォーマンスを考慮すべきか？リストが非常に大きい場合は？filter を使うべきか？でも filter はリスト内包表記より可読性が低い…」	~2000
最終結論	やはりリスト内包表記	-

結論の変化：なし。コード自体が最优解だったが、モデルは「過度な最適化不安」に陥った。

これは Qwen 固有の問題ではない

実際、これは現在の推論モデル（Reasoning Models）の共通問題である：

モデル	Self-Correction の問題	深刻度
Qwen3.6	過度な内省、token 膨張 4〜6 倍	🔴 深刻
GPT-5.5	時折過度な推論、token 膨張 2〜3 倍	🟡 中等
Claude Opus 4.7	比較的抑制されているが、仍有冗長性	🟡 中等
DeepSeek V4	修正効率が高く、冗長性が少ない	🟢 軽微

Qwen の問題がより深刻なのは、その訓練データに大量の「繰り返しチェックする」人間の推論パターンが含まれている可能性が高い。

アクション提案

Qwen ユーザー向け

推論モードをオフにする：単純タスク（分類、抽出、翻訳）の場合は非推論モードを直接使用——コストを 80% 削減できる
手動截断：モデルが「疯狂に自己疑念」し始めたら、手動で出力を截断して初期結論を採用
Qwen3.6-Plus を使用する：Plus バージョンの推論効率は Max バージョンより良い——極端な推論能力を必要としないタスクによりコストパフォーマンスが高い

開発者向け

Qwen の API を使用している場合、以下の方法で制御できる：

# 推論モードをオフにする（深度推論が不要な場合）
response = client.chat.completions.create(
    model="qwen3.6-plus",
    messages=messages,
    thinking_budget=0  # 思考連鎖を無効化
)

# または思考予算を制限
response = client.chat.completions.create(
    model="qwen3.6-max",
    messages=messages,
    thinking_budget=512  # 思考 token の上限を設定
)

通義チームへ（もし読んでいたら）

Self-Correction のトリガーメカニズムの最適化提案：

信頼度閾値を追加：初期推論の信頼度が 90% を超える場合、Self-Correction をスキップまたは簡略化
早期終了を導入：修正後の結論が初期結論と一致したことを検知したら、直ちに停止
タスク複雑度の区別：単純タスクには深度修正をトリガーしない

格局判断

この問題は 2026 年の推論モデルが直面する核心的な課題を反映している：どのようにしてモデルに「いつ止まるべきか」を知らせるか。

現在の推論モデルはすべて「考えれば考えるほど良い」と仮定しているが、これは経済学上成立しない——追加の思考 token ごとにコストがかかり、限界収益がゼロを下回った時点で考え続けることは浪費である。

次世代推論モデルの競争焦点は「どれだけ深く考えられるか」から「いつ思考を止めるべきかを知る」へシフトする可能性がある。この点において、DeepSeek V4 の表現はすでに優れた方向を示唆している。