C
ChaoBro

Anti-Self-Distillation:逆向自蒸馏——推理型强化学习训练速度提升2~10倍

Anti-Self-Distillation:逆向自蒸馏——推理型强化学习训练速度提升2~10倍

本論文の発見は非常に直感に反するものですが、よく考えてみると実に自然で納得がいきます。

奇妙な失敗パターン

本論文は、ある観察事実から出発しています:オンポリシー型の自蒸留(on-policy self-distillation)は特定のタスクでは優れた性能を示しますが、数学的推論タスクでは不安定になるという現象です。

自蒸留の基本的なアイデアは、学生モデルが「自分自身のコピー(教師モデル)」から学ぶというものです。この教師モデルには、検証済みの解答やフィードバックといった「特権付きコンテキスト(privileged context)」が与えられます。外部のより優れた教師モデルを必要とせず、モデルが自らを教えるのです。

ところが、数学的推論タスクにおいては、この手法がしばしば失敗します。

PMI分析:問題の根源は「特権付きコンテキスト」そのものにある

研究チームは点相互情報量(Pointwise Mutual Information: PMI)を用いた分析により、その原因を明らかにしました。すなわち、特権付きコンテキスト自体が、教師モデルにおける特定のトークンに対する信頼度を過大に高めてしまうのです——たとえば、既に解法に内在する構造的接続詞や検証可能な主張などです。一方で、推論過程における「思考型トークン(deliberation token)」に対する信頼度は低下させます——「Wait」「Let」「Maybe」など、複数ステップにわたる探索を駆動するようなトークンです。

要するに:モデルに答えを見せることで、答えの形式に沿ったトークンを自信を持って生成するようになる一方、じっくり「考える」意欲はむしろ減退してしまうのです。

Anti-SD:逆方向へ進む

Anti-Self-Distillation(Anti-SD)のアイデアは極めて明快です。すなわち、「自蒸留によって学生モデルが教師モデルに近づく」というアプローチに問題があるならば、あえて学生モデルと教師モデルの出力分布を「離れる方向」へ導く——つまり、KL散度などの距離指標を「下げる」のではなく、「上げる」ことを目指すのです。

具体的には、各トークンごとの損失項の符号を反転させることで、1ステップ内で自然に有界なアドバンテージ信号を生成します。さらに、エントロピー駆動型ゲート機構(entropy-triggered gating) を導入:教師モデルのエントロピーが急激に収束(崩壊)した場合には、当該項を自動的に無効化します。これにより、従来の自蒸留手法を直接置き換えることが可能になります。

実験結果

数値結果は非常に説得力があります:

  • 4B~30Bパラメータの合計5種類のモデルを対象に、数学的推論ベンチマークで評価
  • Anti-SDは、GRPOベースラインの2~10倍のステップ数で同等の正確率を達成
  • 最終的な正確率は、最大で11.5点向上

注目に値する理由

本論文の核心的貢献は、単に「より優れた訓練手法」を提案したことにとどまりません。むしろ、推論タスクにおける自蒸留の根本的な矛盾を明らかにした点にあります:すなわち、「モデルに答えを見せる」ことが、かえってその推論能力を弱めてしまう可能性があるという洞察です。

Anti-SDは、言語モデルが自らの訓練信号を通じて自らの推論能力を高めていく——すなわち「スケーラブルな自己改善(scalable self-improvement)」への道を開きます。これは、推論専用モデルの訓練パラダイムにとって、潜在的にパラダイムシフトをもたらす意義を持つでしょう。

論文URL:arXiv:2605.11609