清華大 ZEDA：学習済みMoEモデルを自己蒸留でエキスパートの半分をスキップ可能に、推論速度1.2倍向上

MoE（Mixture of Experts）は大規模言語モデルの標準アーキテクチャとなりつつあります。しかし、MoEには厄介な課題があります。学習が完了すると「固定化」されてしまうという点です。エキスパートの数は固定されており、各トークンで何個のエキスパートをアクティブにするかも事前に設定されています。

つまり、ユーザーが「1+1はいくつ？」といった簡単な質問をしても、モデルは同じ数のエキスパートをアクティブにし、同じ計算リソースを消費してしまうのです。

清華大学チームの最新研究 ZEDA（Zero-Expert Self-Distillation Adaptation） は、まさにこのリソースの無駄を解消することを目指しています。

静的から動的へ：モデルに「手抜き」を学ばせる

核心的なアイデアは非常にエレガントです。学習済みのMoEモデルに「ゼロ出力エキスパート（zero-output experts）」を組み込みます。これらのエキスパートは何も処理を行わず、出力は常にゼロです。その後、モデルに自己蒸留を通じて学習させます。簡単なタスクはゼロエキスパートに処理させ、複雑なタスクのみが本来のエキスパートを呼び出すようにするのです。

一見簡単そうに聞こえますが、実装には3つの難題があります：

1. アーキテクチャ変換の安定性

学習済みのモデルに突然多数のゼロエキスパートを追加すると、モデルは「混乱」してしまいます。既存のルーティング重みは固定されたエキスパート数で学習されているため、アーキテクチャを変更するとルーティングの挙動が完全に崩壊する可能性があります。

ZEDAの解決策は2段階の自己蒸留です：

第1段階：元のMoEを凍結した教師モデルとして使用し、新モデルに元の挙動を維持するよう学習させる
第2段階：グループレベルのバランシング損失（group-level balancing loss）を導入し、各エキスパート間の負荷分散を確保。すべてのトークンがゼロエキスパートに集中するのを防ぐ

2. ゼロエキスパートの設計

ゼロエキスパートは、単に定数出力を追加するだけでは不十分です。ZEDAが注入するのはパラメータ化されたゼロエキスパートです。初期状態では出力がゼロに設定されていますが、学習過程で徐々に「覚醒」させることができます。これにより、モデルはタスクの難易度に応じて必要な計算量を動的に決定できるようになります。

3. ルーティング戦略の適応性

動的MoEのルーティング機構は、異なる入力に対して異なる数のエキスパートを選択できるようになる必要があります。ZEDAは自己蒸留プロセス中の報酬シグナルを活用し、ルーティング機構にこの能力を自動的に習得させます。追加のアノテーションデータは不要です。

実測結果：計算リソースを半減、精度はほぼ維持

Qwen3-30B-A3BおよびGLM-4.7-Flashの2つのモデルでのテスト結果は以下の通りです：

エキスパートのFLOPsを50%以上削減——簡単なタスクでは、ほとんどのトークンがごく少数のエキスパートのみをアクティブにする
精度低下は極めて小さい——数学、コーディング、指示追従など11のベンチマークにおいて、性能低下は許容範囲内に収まっている
エンドツーエンドの推論速度が約1.2倍向上——後処理適応のみであることを考慮すると、この速度向上は非常に大きい
最強の動的MoEベースラインを6.1ポイントおよび4.0ポイント上回る——それぞれ2つのモデルに対応

なぜこれが聞こえる以上に重要なのか

MoEの推論コスト最適化は、現在の大規模モデルの商業化における核心的な課題の一つです。AnthropicやOpenAIなどのトッププレイヤーも、MoEモデルにおいて「より少ないアクティブパラメータでより多くの処理を行う」ことを追求しています。

ZEDAの独自の価値は、ゼロから再学習する必要がないという点にあります。既存のQwen3やGLM-4.7などのオープンソースMoEモデルは、理論上ZEDAを直接適用して「軽量化」適応を行うことができ、即座に推論高速化を実現できます。

これは中小規模の推論サービスプロバイダーにとって特に魅力的です。数千万規模の学習コストを投じる必要がなく、数日間の自己蒸留学習だけで大幅なコスト最適化を実現できるからです。

冷静な視点

もちろん、注意すべき点もあります：

FLOPsの50%削減は「50%以上」であり「正確に50%」ではない——実際の削減率は入力分布に依存します。簡単なタスクが多い場合は効果が高く、複雑なタスクが多い場合は効果が低くなります
1.2倍のエンドツーエンド高速化は絶対値としては特別大きいわけではありませんが、ZEDAが後処理ソリューションであることを考慮すれば、この結果は十分優れています
GitHub上では現在5スターであり、コードはまだ整理中である可能性があります

主な情報源：

Post-Trained MoE Can Skip Half Experts via Self-Distillation (ZEDA)
https://github.com/TsinghuaC3I/ZEDA

静的から動的へ：モデルに「手抜き」を学ばせる

1. アーキテクチャ変換の安定性

2. ゼロエキスパートの設計

3. ルーティング戦略の適応性

実測結果：計算リソースを半減、精度はほぼ維持

なぜこれが聞こえる以上に重要なのか

冷静な視点

関連コンテンツ

APWA：マルチエージェントシステムを真に並列化する分散アーキテクチャ

Dual-Dimensional Consistency：推論時スケーリングでトークン消費を10倍削減する新手法

MemEye：マルチモーダルエージェントの記憶能力を評価する視覚中心型フレームワーク