Agent + RL 这条路大家都在走,但训练成本是个绕不开的问题。传统做法要么用人类标注的数据做监督微调,要么用一个更强大的"老师模型"来指导学生 Agent——不管哪种,都贵。
Self-Distilled Agentic Reinforcement Learning 的思路是:让 Agent 自己当自己的老师。
自我蒸馏怎么工作
基本流程不复杂:
- Agent 在环境中执行任务,收集轨迹
- 从这些轨迹中筛选出高质量的子集(比如奖励高的、步骤短的、成功完成任务的)
- 用这些高质量轨迹作为"自生成的训练数据",对 Agent 本身做蒸馏更新
- 迭代:更新后的 Agent 产生更好的轨迹,更好的轨迹又产生更好的蒸馏数据
这个循环的核心在于"筛选"——不是所有轨迹都有用,只有那些表现好的才值得蒸馏进去。这就形成了一个正反馈:Agent 越做越好,训练数据也越来越好。
为什么这事儿有意思
传统 RL 训练 Agent 的痛点:
- 样本效率低:需要海量交互才能学到东西
- 奖励稀疏:很多任务只有最终才有奖励信号,中间步骤不知道对错
- 老师模型贵:用更强模型做 teacher 效果好,但成本翻几倍
Self-distillation 相当于给 Agent 装了一个"自我反思"机制。每跑完一轮,Agent 回头看自己哪些做得好,把好的做法内化成策略。这不是新概念——人类学习也靠这个——但在 Agent RL 中系统性地做,并且验证有效,这是一个值得关注的方向。
局限
- 如果 Agent 初始能力太弱,自生成的轨迹质量也低,蒸馏就成了"垃圾进垃圾出"
- 需要设计好的筛选机制,否则会把噪音也蒸馏进去
- 论文 11 位作者,但还没有看到独立的第三方复现结果
我的判断
Self-distilled agentic RL 的方向是对的。Agent 的未来不是靠人工标注数据堆出来的,而是能在交互中自主学习进化的。自我蒸馏提供了一种低成本的自主进化路径。
但别急着把训练 pipeline 全换成 self-distillation。现阶段它更适合做辅助手段——在已有的 RL 训练基础上,加一层 self-distillation 来榨取额外性能,而不是完全替代传统的 RL 信号。
主要来源:
- Hugging Face Daily Papers(2026-05-15)
- 论文作者团队(11 位作者)