Агенты решают задачи, многократно вызывая инструменты: пользователь задаёт вопрос, модель вызывает инструмент, получает данные, вызывает другой инструмент... После десятка взаимодействий наконец хватает информации для ответа.
Но стандартное SFT-обучение имеет слепую зону: оно обучает только выбор инструментов на уровне хода, маскируя ответы инструментов от обновления градиентов. Все доказательства, накопленные за десятки ходов — выброшены во время обучения.
ACC (arXiv:2605.21850, Qisheng Su и др., 21 мая 2026) предлагает прямую идею: скомпилировать эти траектории в QA-пары.
Результаты
На Qwen3-30B-A3B после обучения ACC:
- MRCR: 68.3, +18.1 к базовой линии
- GraphWalks: 77.5, +7.6 к базовой линии
Эти результаты приближаются к уровню Qwen3-235B-A22B. Модель с 30B параметров через метод компиляции данных догоняет модель в 7 раз больше.
Основные источники:
- arXiv:2605.21850, ACC: Compiling Agent Trajectories for Long-Context Training, Qisheng Su et al., 2026-05-21