ACC：把 Agent 的几十轮工具调用编译成长上下文 QA，训练模型直接推理

Agent 解决问题的方式是这样的：用户问一个问题，模型调一次工具拿到一堆数据，再调一次，再调一次……十几次交互之后终于凑够了信息，给出答案。

但标准 SFT 训练有一个盲区：它只在每一轮内训练工具选择，把工具返回的内容 mask 掉，不参与梯度更新。这意味着 Agent 积累的几十轮环境观察和工具结果——所有这些散落的证据——在训练时全被扔掉了。

ACC（Agent Context Compilation，arXiv:2605.21850，苏启晟等，2026年5月21日）的想法很直接：把这些轨迹"编译"成 QA 对。

编译过程

原始轨迹里，问题和答案之间隔着十几轮工具调用和环境观察。ACC 做的是把原始问题 + 所有工具响应 + 环境观察拼接在一起，形成一个长上下文 QA 对，目标是让模型在没有工具可用的情况下，直接从这个长上下文中找到答案。

这不是简单地把对话拼起来。工具返回的内容往往是非结构化的、带有噪音的，关键信息散落在不同轮次。模型需要学会跨轮次的指代消解和信息整合——这恰恰是长上下文推理最核心也最难的能力。

最妙的部分是：这些数据不需要额外标注。Agent 在运行过程中自然产生的轨迹，经过 ACC 的编译流程就变成了高质量的长上下文训练样本。搜索 Agent、软件工程 Agent、数据库查询 Agent——只要有工具调用和观察，就能编译。

在 Qwen3-30B-A3B 上，经过 ACC 训练：

这个结果已经接近 Qwen3-235B-A22B 的水平。30B 的参数规模，通过一种数据编译方法，在长上下文推理上追上了大 7 倍的模型。

同时，GPQA、MMLU-Pro、AIME、IFEval 等通用能力保持不变——ACC 没有损害模型的泛化能力。

论文还做了一些有意思的机制分析。ACC 训练后的模型展现出"任务自适应的注意力重组"和"专家特化"——也就是说，模型学会了在长上下文中动态调整注意力分布，不同 MoE 专家对不同位置的信息产生了专门化处理。

长上下文训练一直有两个路线：一是用长文档做预训练延续（成本高），二是用启发式方法合成上下文（质量不稳定）。ACC 提供了一个第三条路：利用 Agent 运行过程中自然积累的多轮交互数据，既丰富又真实，还免费。

如果你在做 Agent 开发，你的生产环境里可能已经积累了大量可编译的轨迹数据。ACC 的方法论让这些沉睡数据变成了长上下文训练的最佳素材。

这个方法可以叠加到任何现有的长上下文扩展或训练方法上——它不是替代方案，是增强方案。

主要来源：

arXiv:2605.21850, ACC: Compiling Agent Trajectories for Long-Context Training, Qisheng Su et al., 2026-05-21