C
ChaoBro

SDAR:自己蒸留とエージェント強化学習が融合したとき、GRPOの安定性問題はこう解決される

エージェント強化学習における一つの課題

強化学習はLLMエージェントの後訓練においてすでに有効性が実証されています——GRPOなどの一連の手法により、モデルはツール呼び出し、ウェブ操作、質問応答といったシナリオにおいてより優れた意思決定を学習できるようになりました。

しかしGRPOには根本的な制限があります:報酬信号がトラジェクトリ(一連の行動履歴)単位でのみ与えられる点です。 多ラウンド対話タスクでは、最終的な成功または失敗という結果が全体としてフィードバックされ、中間の各ステップにおけるトークンレベルの意思決定には、極めて粗い監視信号しか割り当てられません。

これは、コーチが試合終了時に「勝った」または「負けた」とだけ伝えて、どのラウンド・どの一手でミスを犯したかを一切教えてくれない状況に似ています。

自己蒸留の魅力と落とし穴

オンポリシー自己蒸留(OPSD)は、このような課題に対する補完的アプローチを提供します:特権付きコンテキスト(privileged context)を持つteacherブランチを用いて、トークンレベルの密な指導信号を生成します。理想的には、各ステップの意思決定に対してきめ細かなフィードバックを与えることができます。

しかし、このOPSDを多ラウンドエージェントの文脈にそのまま適用すると、以下の2つの問題に直面します:

第一に、多ラウンドにおける不安定性が累積する点です。 多ラウンド対話では、各ステップの誤差が増幅され、teacherが生成する監視信号自体が不安定になります。

第二に、teacher自身も誤りを犯す可能性がある点です。 teacherがあるアクションを拒否したとしても、それが本当に不適切なアクションであるのか、それともteacher自身のスキル検索(skill retrieval)に問題があったためなのかは判別できません。

SDARの核心設計:ゲート制御型補助目的関数

SDARのアプローチは非常に巧妙です:OPSDを主目的関数ではなく、ゲート制御型補助目的関数(gated auxiliary objective) として活用します。強化学習(RL)が依然として主軸となる最適化枠組みであり、OPSDはトークンレベルの補足的フィードバックのみを提供します。

具体的にはどう実現しているか? SDARはteacherによるトークンレベルの信号をシグモイド関数によるゲート制御にマッピングします:

  • teacherが認めた「正のギャップ(positive gap)」トークン:蒸留信号が強化されます
  • teacherが拒否した「負のギャップ(negative gap)」トークン:蒸留信号は穏やかに減衰され、単純に否定的なサンプルとして扱われることはありません

この設計の精妙さは、teacherの不完全性を明示的に認めている点にあります——teacherの拒否は合理的なものである場合もあれば、誤判断である場合もあります。そのため、一律に否定するのではなく、「穏やかな減衰(soft attenuation)」という形で対応しています。

実験結果

Qwen2.5およびQwen3シリーズのモデルを用いた実験において、SDARは3つのベンチマークでGRPOを全面的に上回りました:

ベンチマーク GRPO比の性能向上
ALFWorld +9.4%
WebShop(正解率) +10.2%
Search-QA +7.0%

さらに重要なのは、SDARが単純なGRPO+OPSD組み合わせに由来する訓練不安定性を回避している点です。論文では複数のRL+OPSD混合ベースラインと比較されており、SDARは異なるモデル規模においても一貫して優れた性能を維持しています。

本研究が注目される理由

エージェント強化学習は、現在LLM後訓練の主流方向へと進んでいます。GRPO以降、コミュニティはより優れた多ラウンド訓練手法を模索し続けてきました。SDARの貢献は、OPSDが多ラウンドシナリオで抱える2つの見過ごされがちな課題——「累積的不安定性」と「teacherの誤判断」——を明確に指摘し、シンプルながらも効果的な解決策を提示した点にあります。

ゲート制御型補助目的関数という発想は、より広範なRLHF/RLAIFの文脈にも応用可能な示唆を与えます——外部からの監視信号の品質が不安定な状況では、それを訓練の主導要因とせず、代わりにゲート制御を通じて「穏やかに」主最適化プロセスに影響を与えることが有効である、という洞察です。


主な出典:

  • arXiv:2605.15155 SDAR
  • Zhengxi Lu, Zhiyuan Yao, Zhuowen Han, Zi-Han Wang, Jinyang Wu, Qi Gu, Xunliang Cai, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen