結論から
2026年4月下旬に Qwen3.6 ファミリーが全面的に展開された後、極めて議論を呼ぶ成績表を提示しました:
- Qwen3.6-27B が Artificial Analysis Intelligence Index(150Bパラメータ未満のオープンソースモデル)で 46 点で首位
- Qwen3.6-35B 量子化バージョンが DGX-Spark ランキングで 95/92/73 tps を記録、GPT-OSS-120B と Gemma 4 26B を上回る
- しかし、Intelligence Index を完走するには約 3.7 倍の出力トークンを必要とし、総合コストは Gemma 4 31B の 21 倍
これは「どちらが強い」という話ではありません。「パフォーマンス税」の話です——Qwen3.6 はより高いスコアのためにより多くのトークンを消費しますが、その代償として推論コストが指数関数的に膨張します。
Intelligence Index データ全景
| モデル | Intelligence Index | パラメータ | 出力トークン倍率 | 相対コスト |
|---|---|---|---|---|
| Qwen3.6-27B | 46 | 27B | 3.7x | 21x |
| Gemma 4 31B | 39 | 31B | 1.0x | 1.0x |
| Qwen3.6-35B (Q8) | — | 35B | — | — |
| Qwen3.6-35B (Q6) | — | 35B | — | — |
| Qwen3.6-35B (Q4) | — | 35B | — | — |
| GPT-OSS-120B | — | 120B | — | — |
出典: Artificial Analysis Intelligence Index, DGX-Spark ランキング (2026年4月)
Qwen3.6-27B の 46 点は確かに印象的で、150B パラメータ未満のオープンソースモデルの中で第1位です。しかし、深掘りすると:
- 異常に高いトークン消費:同等のテストセットを完了するため、Qwen3.6-27B は Gemma 4 31B の 3.7 倍の出力トークンを生成
- 巨大なコスト差:API 呼び出しと推論時間を合わせると、Qwen3.6 の総コストは Gemma 4 の約 21 倍
- 量子化バージョンが補完:35B の Q8/Q6/Q4 量子化モデルが DGX-Spark に順次登場し、それぞれ 95/92/73 tps を記録
量子化モデル:コンシューマーハードウェアへの入場券
Qwen3.6-35B の3つの量子化バージョン(Q8/Q6/Q4)の DGX-Spark でのパフォーマンスは注目に値します:
- Q8(8-bit):95 tps — 精度損失最小、出力品質に敏感なシナリオに最適
- Q6(6-bit):92 tps — 最高のコストパフォーマンス、精度と速度のスイートスポット
- Q4(4-bit):73 tps — 最小 VRAM 使用量、エッジデプロイに適す
特筆すべきは、Q4 量子化バージョンでさえ 35B モデルは RTX 3090/4090(24GB VRAM)で実行できないこと——直接 OOM になります。これはコンシューマーユーザーが少なくとも 40GB+ VRAM のハードウェア(RTX 5090 やプロフェッショナルカードなど)を必要とすることを意味します。
市場格局判断
Qwen3.6 ファミリーのリリースは一つの業界トレンドを明らかにしました:オープンソースモデルの「ランキング攻略戦略」がコスト意識によって抑制されつつあるということです。
- Qwen キャンプ:Intelligence Index スコアの最大化を目指し、出力トークンを増やして複雑な推論能力を向上
- Gemma キャンプ:軽量効率路線、A4B(4B パラメータ活性化)アーキテクチャでコンシューマーハードウェア上でマルチインスタンス推論を実現
- 中間路線:量子化モデルがパフォーマンスとコストの間の実際的なバランスポイントになりつつある
アクション推奨
| シナリオ | 推奨 | 理由 |
|---|---|---|
| 学術研究/ランキング攻略 | Qwen3.6-27B | Intelligence Index 最高スコア |
| 本番環境推論 | Gemma 4 31B | 21 倍安、スコア差わずか 7 点 |
| コンシューマーハードウェアデプロイ | Qwen3.6-35B Q4 | 最小 VRAM 使用量、73 tps |
| コスパ首选 | Qwen3.6-35B Q6 | 92 tps、許容可能な精度損失 |
| マルチインスタンス並行処理 | Gemma 4 26B A4B | 1台のノートで複数インスタンス実行可能 |
重要な判断:Intelligence Index の上位 5% の絶対的パフォーマンスが必要ない場合、Gemma 4 のコスト優位性は極めて顕著です。しかし、コード生成や複雑な推論を行っているなら、Qwen3.6 のトークン消費は実質的なスコア向上につながります——この計算は予算制約次第です。