训练一个更聪明的 Agent,通常有两种路:要么给它更多高质量的指令微调数据,要么让它在环境里自己摸索。但这两条路都有明显短板——指令数据覆盖的场景有限,自主探索又效率太低。
中科大的研究团队今天提交了一篇论文,提出了一个第三条路:把 Agent 的运行轨迹"编译"成训练数据。
论文叫 ACC(Agent trajectory Compilation for long-Context training)。
轨迹不是日志,是教材
大多数 Agent 系统的运行日志只是被用来调试。ACC 的思路是:这些轨迹本身就包含了模型推理的结构化信息——什么时候调用了工具、什么时候需要更多上下文、什么时候做了错误的决策然后修正了。
把轨迹编译成训练数据,核心挑战是怎么提取"为什么这么做"而不是"做了什么"。如果模型只是学会模仿轨迹中的动作序列,那它学到的只是表面行为,遇到新场景就挂。
ACC 的解法是把轨迹中的关键决策点和推理路径提取出来,作为长上下文训练样本。模型在训练时看到的不只是"输入→输出",而是"输入→中间思考→工具调用→结果→最终输出"的完整链条。
为什么需要长上下文
Agent 的推理过程往往很长。一个复杂任务可能需要十几轮工具调用,中间穿插多次信息检索和推理修正。这些中间步骤构成了模型的"思考过程",但传统的指令微调通常只保留最终输出。
ACC 把这些中间步骤保留下来,作为长上下文训练的一部分。模型在推理时能看到更完整的"前人是怎么想这个问题的",而不是只看到一个冷冰冰的最终答案。
今天刚上 HuggingFace Daily Papers
这篇论文 36 票,提交者是 ustc-community。目前论文细节还没有完全展开,需要等完整的 arXiv 页面开放。
但从方向上看,这个思路和对标领域(Agent 训练数据构建)是吻合的。现在 Agent 能力的瓶颈越来越不在模型本身,而在"怎么教会模型正确使用工具"。ACC 提供了一种结构化的方法来把 Agent 的运行经验转化为训练信号。
两个开放问题
第一,轨迹编译的质量怎么保证?一个 Agent 跑了 50 步才完成任务,其中可能只有 5 步是真正关键的。怎么从 50 步里提取那 5 步,而不是把噪音一起喂给模型?
第二,不同 Agent 系统的轨迹格式差异很大。有的用 ReAct 格式,有的用 LangGraph,有的自定义。ACC 的编译方法是否能跨框架通用,还是一个需要跑通工程层面的问题。
主要来源:
- ACC 论文(USTC Community,2026 年 5 月 22 日)
- Hugging Face Daily Papers(36 upvotes)