Qwen3.6-35B-A3B がオープンソース化：350億パラメータMoE、推論時はわずか30億のみ活性化

結論

通義千問チームはHugging Face上にQwen3.6-35B-A3Bを公開しました。これはQwen3.6シリーズ初のオープンソースバリアントです。総パラメータ35B、推論時はわずか3Bのみ活性化。256エキスパートMoEとGated DeltaNetのハイブリッドアーキテクチャを採用。Apache 2.0ライセンス、ネイティブ262Kコンテキストウィンドウ、100万トークンまで拡張可能。

項目	Qwen3.6-35B-A3B
総パラメータ	35B
活性化パラメータ	3B
エキスパート数	256（8ルーティング + 1共有を活性化）
コンテキスト	262K ネイティブ、1Mまで拡張可能
ライセンス	Apache 2.0
アーキテクチャ	Gated DeltaNet → MoE + Gated Attention → MoE
マルチモーダル	Vision Encoder内蔵（Image-Text-to-Text）

何が起こったのか

アーキテクチャ：Gated DeltaNetとMoEのハイブリッド設計

Qwen3.6-35B-A3Bの核心的イノベーションはハイブリッドアテンションレイアウトにあります：

10 × [
  3 × (Gated DeltaNet → MoE)
  1 × (Gated Attention → MoE)
]

これは単純なMoEの積み重ねではありません。**線形アテンション（Gated DeltaNet）とグローバルアテンション（Gated Attention）**を交互に組み合わせ、DeltaNet 3層ごとにグローバルアテンション層1層を配置しています。DeltaNetは効率的なローカルコンテキストモデリングを担当し、グローバルアテンション層は長距離情報伝達が減衰しないことを保証します。

具体的なパラメータ：

40層、隠れ次元 2048
Gated DeltaNet：32個のVヘッド + 16個のQKヘッド、ヘッド次元 128
Gated Attention：16個のQヘッド + 2個のKVヘッド（GQA）、ヘッド次元 256
MoE：256個のエキスパート、呼び出しごとに8個のルーティングエキスパート + 1個の共有エキスパートを活性化、エキスパート中間次元 512
ボキャブラリサイズ：248,320（パディング後）

推論効率：3B活性化パラメータが意味すること

3Bの活性化パラメータは、現在のオープンソースMoEモデルの中で極めて低い水準です。比較すると：

モデル	総パラメータ	活性化パラメータ	活性化比率
Qwen3.6-35B-A3B	35B	3B	8.6%
DeepSeek V4	1.6T	37B	2.3%
Ling-2.6-Flash	104B	7.4B	7.1%
Kimi K2.6	~1T	~32B	3.2%

Qwen3.6-35B-A3Bの絶対活性化パラメータ数（3B）は他のモデルを大きく下回っており、これは以下を意味します：

シングルカードで実行可能：INT4量子化後、活性化部分のVRAMは約1.5〜2GBで済む
低遅延推論：Qwen3.6-27Bなどの27B denseモデルと比較して数倍高速
マルチインスタンス並列：A100 1枚で複数のインスタンスを同時実行可能、高スループットシナリオに最適

ネイティブマルチモーダル対応

テキストのみのQwen3.6-27Bとは異なり、Qwen3.6-35B-A3BはVision Encoderを内蔵したImage-Text-to-Textアーキテクチャです。つまり、外部ビジョンモデルなしで画像とテキストの混合入力を直接処理できます。262Kのネイティブコンテキストと組み合わせることで、画像を含む長文ドキュメントの複雑な理解タスクに適しています。

Qwen3.6シリーズの2つの重要なアップグレード

公式ブログで言及されている2つの核心的改善方向：

Agentic Codingの強化：フロントエンドワークフローとリポジトリレベルの推論能力が大幅に向上。コードAgentシナリオにおけるツール呼び出しチェーンがより長く、より安定
Thinking Preservation（思考保持）：履歴メッセージから推論コンテキストを保持する新オプション。イテレーティブ開発における重複推論オーバーヘッドを削減。多ターン対話型Agentワークフローに特に重要

なぜ重要なのか

1. Qwen3.6ラインナップのMoE空白を埋める

Qwen3.6シリーズはこれまで主にdenseモデル（27Bなど）をリリースしてきました。35B-A3Bは初のMoEバリアントであり、製品ラインの重要なピースを補完します：

27B dense：MoEの複雑さが不要で安定性を重視するシナリオ向け
35B-A3B MoE：活性化パラメータわずか3B、より大きなdenseモデルに迫る性能、コスト重視の高並行シナリオに最適
大規模版：今後さらに大きなMoEバリアントが登場する可能性

2. コンシューマーGPUに優しい

3B活性化パラメータ + 2048隠れ次元 = 極めて低い推論ハードル。コンシューマーGPUでのデプロイシナリオ：

# RTX 4090 (24GB) で簡単に実行可能
# INT4量子化後、活性化部分は約2GBのVRAMで済む
# 残りのVRAMをKVキャッシュに使用可能、長文コンテキストをサポート

これは個人開発者や小規模チームがクラウドAPIに依存せずに、低コストでマルチモーダルMoEモデルをデプロイできることを意味します。

3. ハイブリッドアーキテクチャの探求価値

Gated DeltaNet + MoEの組み合わせはオープンソースコミュニティではまだ一般的ではありません。線形アテンションのバリエーションであるDeltaNetは、長系列モデリングにおいて天然の優位性を持ち、MoEのスパース計算と組み合わせることで、新たな効率-性能トレードオフパラダイムを表している可能性があります。ベンチマーク結果がこの設計の優位性を検証すれば、他のオープンソースチームも類似のアーキテクチャに追随するでしょう。

競合比較

モデル	総パラメータ	活性化パラメータ	コンテキスト	マルチモーダル	ライセンス	デプロイハードル
Qwen3.6-35B-A3B	35B	3B	262K→1M	✅	Apache 2.0	コンシューマーGPU
Qwen3.6-27B	27B	27B	128K	✅	Apache 2.0	シングル4090
DeepSeek V4	1.6T	37B	128K	❌	MIT	複数A100
Ling-2.6-Flash	104B	7.4B	256K	❌	MIT	シングル4090
MiMo-V2.5-Pro	1T	42B	1M	❌	MIT	複数A100

Qwen3.6-35B-A3Bの独自のポジショニング：絶対的に最低の活性化パラメータ + ネイティブマルチモーダル + Apache 2.0商用ライセンス。

アドバイス

注目すべき人

Agent開発者：Thinking Preservation機能はマルチターンAgent呼び出しの効率を直接最適化
コスト重視のデプロイチーム：3B活性化パラメータは極めて低い推論コストとハードルを意味する
マルチモーダルアプリ開発者：ネイティブImage-Text-to-Textアーキテクチャ、追加のビジョンモデル不要
長文コンテキストニーズ：262Kネイティブ、1Mまで拡張可能なコンテキストウィンドウ

始め方

pip install transformers accelerate

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained(
    "Qwen/Qwen3.6-35B-A3B",
    device_map="auto",
    torch_dtype="auto"
)

vLLM、SGLang、KTransformersなどの推論フレームワークと互換性あり。

注意点

Qwen3.6初のオープンソースバリアントとして、コミュニティツールチェーン（Ollama対応など）はまだ開発中の可能性あり
3B活性化パラメータの代償は総パラメータ35B — 全量読み込みには一定のVRAMが必要（スパースローディング対応のMoE推論フレームワークが必要）
ベンチマークの具体的な数値は公式ブログを参照。現在のページは完全に展開されていない
Apache 2.0ライセンスは商用利用を許可するが、ライセンス条項の遵守が必要

主要ソース：

結論