より賢い Agent を訓練するには、通常二つの道がある:より高品質な指示微調整データを与えるか、環境中で自分で探求させるか。しかし両方にも明らかな欠点がある——指示データがカバーするシナリオは限られており、自律探求は効率が悪すぎる。
中科大の研究チームが本日論文を提出し、第三の道を提案した:Agent の実行軌跡を訓練データに「コンパイル」する。
論文名は ACC(Agent trajectory Compilation for long-Context training)。
軌跡はログではなく教材
ほとんどの Agent システムの実行ログはデバッグにしか使われていない。ACC の考え方は:これらの軌跡自体がモデル推論の構造化情報を含んでいる——いつツールを呼び出したか、いつより多くのコンテキストが必要だったか、いつ誤った判断をして修正したか。
軌跡を訓練データにコンパイルする核心的な課題は、「何をしたか」ではなく「なぜそうしたか」を抽出すること。モデルが軌跡中の動作シーケンスを模倣するだけなら、表面的な動作を学ぶだけで、新しいシナリオで失敗する。
ACC の解法は、軌跡中の重要な決定ポイントと推論パスを長文脈訓練サンプルとして抽出すること。訓練中、モデル看到的是「入力→出力」だけでなく、「入力→中間思考→ツール呼び出し→結果→最終出力」の完全なチェーン。
なぜ長文脈が必要か
Agent の推論過程は長いことが多い。複雑なタスクは十数回のツール呼び出しを必要とし、その間に情報検索と推論修正が交差する。これらの中間ステップがモデルの「思考過程」を構成するが、従来の指示微調整は通常最終出力のみを保持する。
ACC はこれらの中間ステップを長文脈訓練の一部として保持する。推論時、モデルはより完全な「前の人はこの問題をどう考えたか」を見ることができる。
主要ソース:
- ACC 論文(USTC Community、2026 年 5 月 22 日)
- Hugging Face Daily Papers(36 upvotes)