中科大 ACC 论文：把 Agent 运行轨迹编译成长上下文训练数据，思路挺野

训练一个更聪明的 Agent，通常有两种路：要么给它更多高质量的指令微调数据，要么让它在环境里自己摸索。但这两条路都有明显短板——指令数据覆盖的场景有限，自主探索又效率太低。

中科大的研究团队今天提交了一篇论文，提出了一个第三条路：把 Agent 的运行轨迹"编译"成训练数据。

论文叫 ACC（Agent trajectory Compilation for long-Context training）。

轨迹不是日志，是教材

大多数 Agent 系统的运行日志只是被用来调试。ACC 的思路是：这些轨迹本身就包含了模型推理的结构化信息——什么时候调用了工具、什么时候需要更多上下文、什么时候做了错误的决策然后修正了。

把轨迹编译成训练数据，核心挑战是怎么提取"为什么这么做"而不是"做了什么"。如果模型只是学会模仿轨迹中的动作序列，那它学到的只是表面行为，遇到新场景就挂。

ACC 的解法是把轨迹中的关键决策点和推理路径提取出来，作为长上下文训练样本。模型在训练时看到的不只是"输入→输出"，而是"输入→中间思考→工具调用→结果→最终输出"的完整链条。

Agent 的推理过程往往很长。一个复杂任务可能需要十几轮工具调用，中间穿插多次信息检索和推理修正。这些中间步骤构成了模型的"思考过程"，但传统的指令微调通常只保留最终输出。

ACC 把这些中间步骤保留下来，作为长上下文训练的一部分。模型在推理时能看到更完整的"前人是怎么想这个问题的"，而不是只看到一个冷冰冰的最终答案。

这篇论文 36 票，提交者是 ustc-community。目前论文细节还没有完全展开，需要等完整的 arXiv 页面开放。

但从方向上看，这个思路和对标领域（Agent 训练数据构建）是吻合的。现在 Agent 能力的瓶颈越来越不在模型本身，而在"怎么教会模型正确使用工具"。ACC 提供了一种结构化的方法来把 Agent 的运行经验转化为训练信号。

第一，轨迹编译的质量怎么保证？一个 Agent 跑了 50 步才完成任务，其中可能只有 5 步是真正关键的。怎么从 50 步里提取那 5 步，而不是把噪音一起喂给模型？

第二，不同 Agent 系统的轨迹格式差异很大。有的用 ReAct 格式，有的用 LangGraph，有的自定义。ACC 的编译方法是否能跨框架通用，还是一个需要跑通工程层面的问题。

主要来源：