C
ChaoBro

Self-Distilled Agentic RL:Agent 自己教自己,强化学习的新套路

Self-Distilled Agentic RL:Agent 自己教自己,强化学习的新套路

Agent + RL 这条路大家都在走,但训练成本是个绕不开的问题。传统做法要么用人类标注的数据做监督微调,要么用一个更强大的"老师模型"来指导学生 Agent——不管哪种,都贵。

Self-Distilled Agentic Reinforcement Learning 的思路是:让 Agent 自己当自己的老师

自我蒸馏怎么工作

基本流程不复杂:

  1. Agent 在环境中执行任务,收集轨迹
  2. 从这些轨迹中筛选出高质量的子集(比如奖励高的、步骤短的、成功完成任务的)
  3. 用这些高质量轨迹作为"自生成的训练数据",对 Agent 本身做蒸馏更新
  4. 迭代:更新后的 Agent 产生更好的轨迹,更好的轨迹又产生更好的蒸馏数据

这个循环的核心在于"筛选"——不是所有轨迹都有用,只有那些表现好的才值得蒸馏进去。这就形成了一个正反馈:Agent 越做越好,训练数据也越来越好。

为什么这事儿有意思

传统 RL 训练 Agent 的痛点:

  • 样本效率低:需要海量交互才能学到东西
  • 奖励稀疏:很多任务只有最终才有奖励信号,中间步骤不知道对错
  • 老师模型贵:用更强模型做 teacher 效果好,但成本翻几倍

Self-distillation 相当于给 Agent 装了一个"自我反思"机制。每跑完一轮,Agent 回头看自己哪些做得好,把好的做法内化成策略。这不是新概念——人类学习也靠这个——但在 Agent RL 中系统性地做,并且验证有效,这是一个值得关注的方向。

局限

  • 如果 Agent 初始能力太弱,自生成的轨迹质量也低,蒸馏就成了"垃圾进垃圾出"
  • 需要设计好的筛选机制,否则会把噪音也蒸馏进去
  • 论文 11 位作者,但还没有看到独立的第三方复现结果

我的判断

Self-distilled agentic RL 的方向是对的。Agent 的未来不是靠人工标注数据堆出来的,而是能在交互中自主学习进化的。自我蒸馏提供了一种低成本的自主进化路径。

但别急着把训练 pipeline 全换成 self-distillation。现阶段它更适合做辅助手段——在已有的 RL 训练基础上,加一层 self-distillation 来榨取额外性能,而不是完全替代传统的 RL 信号。

主要来源:

  • Hugging Face Daily Papers(2026-05-15)
  • 论文作者团队(11 位作者)