ACC: Компиляция траекторий агентов в длинные контекстные QA-пары

Агенты решают задачи, многократно вызывая инструменты: пользователь задаёт вопрос, модель вызывает инструмент, получает данные, вызывает другой инструмент... После десятка взаимодействий наконец хватает информации для ответа.

Но стандартное SFT-обучение имеет слепую зону: оно обучает только выбор инструментов на уровне хода, маскируя ответы инструментов от обновления градиентов. Все доказательства, накопленные за десятки ходов — выброшены во время обучения.

ACC (arXiv:2605.21850, Qisheng Su и др., 21 мая 2026) предлагает прямую идею: скомпилировать эти траектории в QA-пары.

Результаты

На Qwen3-30B-A3B после обучения ACC:

MRCR: 68.3, +18.1 к базовой линии
GraphWalks: 77.5, +7.6 к базовой линии

Эти результаты приближаются к уровню Qwen3-235B-A22B. Модель с 30B параметров через метод компиляции данных догоняет модель в 7 раз больше.

Основные источники:

arXiv:2605.21850, ACC: Compiling Agent Trajectories for Long-Context Training, Qisheng Su et al., 2026-05-21

Результаты

Похожие материалы

Кредитное распределение в RLVR заново: DelTA предлагает взгляд дискриминатора на токеновые вознаграждения

Понимают ли MLLM людей? MM-OCEAN обнаруживает: 51% «правильных оценок» — это угадывание

OPPO: Байесовская рекурсия ценности для токенового кредитного распределения в рассуждениях LLM