Self-Distilled Agentic RL：Agent 自己教自己，强化学习的新套路

2026年5月16日 by ChaoBro

#强化学习 #Agent #Self-Distillation #Agentic RL #自主学习

Self-Distilled Agentic RL：Agent 自己教自己，强化学习的新套路

Agent + RL 这条路大家都在走，但训练成本是个绕不开的问题。传统做法要么用人类标注的数据做监督微调，要么用一个更强大的"老师模型"来指导学生 Agent——不管哪种，都贵。

Self-Distilled Agentic Reinforcement Learning 的思路是：让 Agent 自己当自己的老师。

自我蒸馏怎么工作

基本流程不复杂：

Agent 在环境中执行任务，收集轨迹
从这些轨迹中筛选出高质量的子集（比如奖励高的、步骤短的、成功完成任务的）
用这些高质量轨迹作为"自生成的训练数据"，对 Agent 本身做蒸馏更新
迭代：更新后的 Agent 产生更好的轨迹，更好的轨迹又产生更好的蒸馏数据

这个循环的核心在于"筛选"——不是所有轨迹都有用，只有那些表现好的才值得蒸馏进去。这就形成了一个正反馈：Agent 越做越好，训练数据也越来越好。

为什么这事儿有意思

传统 RL 训练 Agent 的痛点：

样本效率低：需要海量交互才能学到东西
奖励稀疏：很多任务只有最终才有奖励信号，中间步骤不知道对错
老师模型贵：用更强模型做 teacher 效果好，但成本翻几倍

Self-distillation 相当于给 Agent 装了一个"自我反思"机制。每跑完一轮，Agent 回头看自己哪些做得好，把好的做法内化成策略。这不是新概念——人类学习也靠这个——但在 Agent RL 中系统性地做，并且验证有效，这是一个值得关注的方向。

局限

如果 Agent 初始能力太弱，自生成的轨迹质量也低，蒸馏就成了"垃圾进垃圾出"
需要设计好的筛选机制，否则会把噪音也蒸馏进去
论文 11 位作者，但还没有看到独立的第三方复现结果

我的判断

Self-distilled agentic RL 的方向是对的。Agent 的未来不是靠人工标注数据堆出来的，而是能在交互中自主学习进化的。自我蒸馏提供了一种低成本的自主进化路径。

但别急着把训练 pipeline 全换成 self-distillation。现阶段它更适合做辅助手段——在已有的 RL 训练基础上，加一层 self-distillation 来榨取额外性能，而不是完全替代传统的 RL 信号。

主要来源：

Hugging Face Daily Papers（2026-05-15）
论文作者团队（11 位作者）