Qwen3.6 ファミリーが Intelligence Index で首位：27B がトップだが推論コストは Gemma 4 の 21 倍

結論から

2026年4月下旬に Qwen3.6 ファミリーが全面的に展開された後、極めて議論を呼ぶ成績表を提示しました：

Qwen3.6-27B が Artificial Analysis Intelligence Index（150Bパラメータ未満のオープンソースモデル）で 46 点で首位
Qwen3.6-35B 量子化バージョンが DGX-Spark ランキングで 95/92/73 tps を記録、GPT-OSS-120B と Gemma 4 26B を上回る
しかし、Intelligence Index を完走するには約 3.7 倍の出力トークンを必要とし、総合コストは Gemma 4 31B の 21 倍

これは「どちらが強い」という話ではありません。「パフォーマンス税」の話です——Qwen3.6 はより高いスコアのためにより多くのトークンを消費しますが、その代償として推論コストが指数関数的に膨張します。

Intelligence Index データ全景

モデル	Intelligence Index	パラメータ	出力トークン倍率	相対コスト
Qwen3.6-27B	46	27B	3.7x	21x
Gemma 4 31B	39	31B	1.0x	1.0x
Qwen3.6-35B (Q8)	—	35B	—	—
Qwen3.6-35B (Q6)	—	35B	—	—
Qwen3.6-35B (Q4)	—	35B	—	—
GPT-OSS-120B	—	120B	—	—

出典: Artificial Analysis Intelligence Index, DGX-Spark ランキング (2026年4月)

Qwen3.6-27B の 46 点は確かに印象的で、150B パラメータ未満のオープンソースモデルの中で第1位です。しかし、深掘りすると：

異常に高いトークン消費：同等のテストセットを完了するため、Qwen3.6-27B は Gemma 4 31B の 3.7 倍の出力トークンを生成
巨大なコスト差：API 呼び出しと推論時間を合わせると、Qwen3.6 の総コストは Gemma 4 の約 21 倍
量子化バージョンが補完：35B の Q8/Q6/Q4 量子化モデルが DGX-Spark に順次登場し、それぞれ 95/92/73 tps を記録

量子化モデル：コンシューマーハードウェアへの入場券

Qwen3.6-35B の3つの量子化バージョン（Q8/Q6/Q4）の DGX-Spark でのパフォーマンスは注目に値します：

Q8（8-bit）：95 tps — 精度損失最小、出力品質に敏感なシナリオに最適
Q6（6-bit）：92 tps — 最高のコストパフォーマンス、精度と速度のスイートスポット
Q4（4-bit）：73 tps — 最小 VRAM 使用量、エッジデプロイに適す

特筆すべきは、Q4 量子化バージョンでさえ 35B モデルは RTX 3090/4090（24GB VRAM）で実行できないこと——直接 OOM になります。これはコンシューマーユーザーが少なくとも 40GB+ VRAM のハードウェア（RTX 5090 やプロフェッショナルカードなど）を必要とすることを意味します。

市場格局判断

Qwen3.6 ファミリーのリリースは一つの業界トレンドを明らかにしました：オープンソースモデルの「ランキング攻略戦略」がコスト意識によって抑制されつつあるということです。

Qwen キャンプ：Intelligence Index スコアの最大化を目指し、出力トークンを増やして複雑な推論能力を向上
Gemma キャンプ：軽量効率路線、A4B（4B パラメータ活性化）アーキテクチャでコンシューマーハードウェア上でマルチインスタンス推論を実現
中間路線：量子化モデルがパフォーマンスとコストの間の実際的なバランスポイントになりつつある

アクション推奨

シナリオ	推奨	理由
学術研究/ランキング攻略	Qwen3.6-27B	Intelligence Index 最高スコア
本番環境推論	Gemma 4 31B	21 倍安、スコア差わずか 7 点
コンシューマーハードウェアデプロイ	Qwen3.6-35B Q4	最小 VRAM 使用量、73 tps
コスパ首选	Qwen3.6-35B Q6	92 tps、許容可能な精度損失
マルチインスタンス並行処理	Gemma 4 26B A4B	1台のノートで複数インスタンス実行可能

重要な判断：Intelligence Index の上位 5% の絶対的パフォーマンスが必要ない場合、Gemma 4 のコスト優位性は極めて顕著です。しかし、コード生成や複雑な推論を行っているなら、Qwen3.6 のトークン消費は実質的なスコア向上につながります——この計算は予算制約次第です。

結論から

Intelligence Index データ全景

量子化モデル：コンシューマーハードウェアへの入場券

市場格局判断

アクション推奨

関連コンテンツ

Gemini CLI v0.40.0 ローカル Gemma 対応：スマートルーティングで簡単タスクを無料に

Anthropic内部機能Cardinalが明らかに：Claudeにビジュアル対話レビュー機能が搭載へ

MiniMax M2.7深層解析：モデルが自らを訓練するエージェント進化路線