Qwen3.6 ファミリーが Intelligence Index で首位:27B がトップだが推論コストは Gemma 4 の 21 倍

Qwen3.6 ファミリーが Intelligence Index で首位:27B がトップだが推論コストは Gemma 4 の 21 倍

結論から

2026年4月下旬に Qwen3.6 ファミリーが全面的に展開された後、極めて議論を呼ぶ成績表を提示しました:

  • Qwen3.6-27B が Artificial Analysis Intelligence Index(150Bパラメータ未満のオープンソースモデル)で 46 点で首位
  • Qwen3.6-35B 量子化バージョンが DGX-Spark ランキングで 95/92/73 tps を記録、GPT-OSS-120B と Gemma 4 26B を上回る
  • しかし、Intelligence Index を完走するには約 3.7 倍の出力トークンを必要とし、総合コストは Gemma 4 31B の 21 倍

これは「どちらが強い」という話ではありません。「パフォーマンス税」の話です——Qwen3.6 はより高いスコアのためにより多くのトークンを消費しますが、その代償として推論コストが指数関数的に膨張します。

Intelligence Index データ全景

モデルIntelligence Indexパラメータ出力トークン倍率相対コスト
Qwen3.6-27B4627B3.7x21x
Gemma 4 31B3931B1.0x1.0x
Qwen3.6-35B (Q8)35B
Qwen3.6-35B (Q6)35B
Qwen3.6-35B (Q4)35B
GPT-OSS-120B120B

出典: Artificial Analysis Intelligence Index, DGX-Spark ランキング (2026年4月)

Qwen3.6-27B の 46 点は確かに印象的で、150B パラメータ未満のオープンソースモデルの中で第1位です。しかし、深掘りすると:

  1. 異常に高いトークン消費:同等のテストセットを完了するため、Qwen3.6-27B は Gemma 4 31B の 3.7 倍の出力トークンを生成
  2. 巨大なコスト差:API 呼び出しと推論時間を合わせると、Qwen3.6 の総コストは Gemma 4 の約 21 倍
  3. 量子化バージョンが補完:35B の Q8/Q6/Q4 量子化モデルが DGX-Spark に順次登場し、それぞれ 95/92/73 tps を記録

量子化モデル:コンシューマーハードウェアへの入場券

Qwen3.6-35B の3つの量子化バージョン(Q8/Q6/Q4)の DGX-Spark でのパフォーマンスは注目に値します:

  • Q8(8-bit):95 tps — 精度損失最小、出力品質に敏感なシナリオに最適
  • Q6(6-bit):92 tps — 最高のコストパフォーマンス、精度と速度のスイートスポット
  • Q4(4-bit):73 tps — 最小 VRAM 使用量、エッジデプロイに適す

特筆すべきは、Q4 量子化バージョンでさえ 35B モデルは RTX 3090/4090(24GB VRAM)で実行できないこと——直接 OOM になります。これはコンシューマーユーザーが少なくとも 40GB+ VRAM のハードウェア(RTX 5090 やプロフェッショナルカードなど)を必要とすることを意味します。

市場格局判断

Qwen3.6 ファミリーのリリースは一つの業界トレンドを明らかにしました:オープンソースモデルの「ランキング攻略戦略」がコスト意識によって抑制されつつあるということです。

  • Qwen キャンプ:Intelligence Index スコアの最大化を目指し、出力トークンを増やして複雑な推論能力を向上
  • Gemma キャンプ:軽量効率路線、A4B(4B パラメータ活性化)アーキテクチャでコンシューマーハードウェア上でマルチインスタンス推論を実現
  • 中間路線:量子化モデルがパフォーマンスとコストの間の実際的なバランスポイントになりつつある

アクション推奨

シナリオ推奨理由
学術研究/ランキング攻略Qwen3.6-27BIntelligence Index 最高スコア
本番環境推論Gemma 4 31B21 倍安、スコア差わずか 7 点
コンシューマーハードウェアデプロイQwen3.6-35B Q4最小 VRAM 使用量、73 tps
コスパ首选Qwen3.6-35B Q692 tps、許容可能な精度損失
マルチインスタンス並行処理Gemma 4 26B A4B1台のノートで複数インスタンス実行可能

重要な判断:Intelligence Index の上位 5% の絶対的パフォーマンスが必要ない場合、Gemma 4 のコスト優位性は極めて顕著です。しかし、コード生成や複雑な推論を行っているなら、Qwen3.6 のトークン消費は実質的なスコア向上につながります——この計算は予算制約次第です。