Qwenの過剰思考を解決：Grammarルールでthinkトークン消費を22倍削減

何が起きたか

Qwen3.5/3.6シリーズモデルは思考モード（thinking mode）に対応しているが、実際の使用では深刻な過剰思考に陥ることが多い。モデルが<think>タグ内で大量の冗長な推論ステップを生成し、トークン消費が爆発的に増加して応答速度が低下する一方で、精度の向上は見られない。

4月28日、X上で317いいね、514ブックマークを獲得した投稿が解決策を提示した。Grammarベースの制約ルールにより、Qwenシリーズモデルのthinkトークン消費を最大22倍削減しつつ、精度を維持できるというものだ。

核心となるアイデアは、Grammarルールによって推論フェーズでモデルに構造化された推論形式を強制し、漫然と思考を展開させるのではなく、一定の形式に沿って思考させることだ。

具体的な実装はEBNFスタイルのルートルール：

root  ::= think code
think ::= "<think>\n" "GOAL: " line "APPROACH: " line "EDGE: "

このルールにより、モデルは<think>ブロック内で以下の3つのことのみを行うよう強制される：

モデルがこの構造に従えば、無限に「独り言」を続けることはなくなり、thinkフェーズのトークン数が数千から数百に削減される。

APIユーザーにとって、thinkトークンは直接コストに直結する。過剰思考は応答速度を低下させるだけでなく、1回あたりの呼び出し費用を数倍に増大させる。thinkトークンを22倍削減することは、以下の意味を持つ：

Qwen3.5/3.6のthinking modeは諸刃の剣だ。有効にすると推論能力が大幅に向上する一方、トークン消費が多くのユーザーを躊躇させる。このソリューションは、モデルの重みを変更することなく、推論時の制約によってthinking modeの実用性を「解放」するものだ。

すでにQwen3.5/3.6を本番デプロイしているチームにとって、このソリューションはほぼゼロコストで導入できる。モデルの再トレーニングは不要で、推論設定を変更するだけだ。

これはより広いトレンドを反映している。推論時最適化（inference-time optimization）が、モデルトレーニングと同じくらい重要な研究方向になりつつある。「過剰思考しない」モデルを数ヶ月かけて再トレーニングするよりも、数十行のルールで推論時に出力を制約する方が効率的だ。

今後、同様のアプローチがより多くのシナリオに拡大する可能性がある。出力長の制御、推論スタイルの制約、構造化回答の誘導などだ。Qwenエコシステムはこの分野で先行している。