C
ChaoBro

ACC:エージェント軌道を長文脈QAにコンパイルし、直接推論を訓練

ACC:エージェント軌道を長文脈QAにコンパイルし、直接推論を訓練

エージェントが問題を解決する方法:ユーザーが質問し、モデルがツールを呼び出してデータを取得、また別のツールを呼び出す……十数回のやり取りの後、ようやく十分な情報が揃って答えを出す。

しかし標準SFT訓練には盲点がある:各ターン内のツール選択のみを訓練し、ツールの応答をマスクして勾配更新から除外する。这意味着数十ターンにわたって蓄積されたすべての証拠——訓練時にすべて捨てられる。

ACC(arXiv:2605.21850、蘇启晟他、2026年5月21日)のアイデアは直接的:これらの軌道をQA対に「コンパイル」する。

コンパイルプロセス

生の軌道では、質問と答えの間に十数回のツール呼び出しと環境観察が挟まっている。ACCは元の質問 + すべてのツール応答 + 環境観察を結合して1つの長文脈QA対を作り、ツールなしで直接答えを見つけることをモデルに訓練する。

結果

Qwen3-30B-A3BでACC訓練後:

  • MRCR(跨ターン共参照解決):68.3、ベースラインより**+18.1**
  • GraphWalks(グラフトラバーサル):77.5、ベースラインより**+7.6**

この結果はQwen3-235B-A22Bレベルに迫る。30Bのパラメータ規模で、データコンパイル手法により長文脈推論で7倍大きなモデルに追いついた。

主要ソース:

  • arXiv:2605.21850, ACC: Compiling Agent Trajectories for Long-Context Training, Qisheng Su et al., 2026-05-21