C
ChaoBro

Статья USTC об ACC: компиляция траектории выполнения агента в данные для обучения с длинным контекстом — нестандартный подход

Статья USTC об ACC: компиляция траектории выполнения агента в данные для обучения с длинным контекстом — нестандартный подход

Для обучения более умного агента обычно существует два пути: либо предоставить ему больше высококачественных данных для тонкой настройки по инструкциям, либо позволить ему самостоятельно исследовать среду. Однако у обоих подходов есть очевидные недостатки: данные инструкций охватывают ограниченный набор сценариев, а самостоятельное исследование отличается низкой эффективностью.

Сегодня исследовательская группа из USTC представила статью, предлагающую третий путь: «компиляцию» траектории выполнения агента в обучающие данные.

Статья называется ACC (Agent trajectory Compilation for long-Context training).

Траектория — это не журнал логов, а учебный материал

Журналы выполнения большинства систем агентов используются лишь для отладки. Идея ACC заключается в том, что эти траектории сами по себе содержат структурированную информацию о процессе рассуждений модели: когда вызывались инструменты, когда требовался дополнительный контекст, а когда принимались ошибочные решения и как они исправлялись.

Ключевая задача при преобразовании траектории в обучающие данные — извлечь «почему это было сделано», а не просто «что было сделано». Если модель научится лишь имитировать последовательность действий из траектории, она усвоит только поверхностное поведение и не справится с новыми сценариями.

Решение ACC заключается в извлечении ключевых точек принятия решений и путей рассуждений из траектории для использования в качестве образцов для обучения с длинным контекстом. Во время обучения модель видит не просто цепочку «ввод → вывод», а полный процесс: «ввод → промежуточные размышления → вызов инструментов → результат → финальный вывод».

Зачем нужен длинный контекст

Процесс рассуждений агента часто бывает довольно длинным. Сложная задача может потребовать десятков циклов вызова инструментов, перемежающихся многократным поиском информации и корректировкой рассуждений. Эти промежуточные шаги формируют «процесс мышления» модели, однако традиционная тонкая настройка по инструкциям обычно сохраняет только конечный вывод.

ACC сохраняет эти промежуточные шаги, делая их частью обучения с длинным контекстом. При выполнении задач модель получает возможность увидеть более полную картину «как подходили к решению этой проблемы до неё», вместо того чтобы опираться лишь на сухой конечный ответ.

Статья только что появилась в HuggingFace Daily Papers

Статья набрала 36 голосов, её загрузило сообщество ustc-community. На данный момент детали работы ещё не полностью раскрыты, необходимо дождаться открытия полной страницы на arXiv.

Однако с точки зрения направления этот подход полностью соответствует целевой области (построение обучающих данных для агентов). В настоящее время ограничение возможностей агентов всё чаще кроется не в самой модели, а в том, «как научить модель правильно использовать инструменты». ACC предлагает структурированный метод преобразования опыта выполнения агента в обучающие сигналы.

Два открытых вопроса

Во-первых, как гарантировать качество компиляции траектории? Агент может выполнить 50 шагов для завершения задачи, из которых по-настоящему ключевыми могут быть лишь 5. Как извлечь именно эти 5 шагов из 50, не скармливая модели вместе с ними информационный шум?

Во-вторых, форматы траекторий сильно различаются в зависимости от системы агентов. Некоторые используют формат ReAct, другие — LangGraph, третьи применяют собственные решения. Способность метода компиляции ACC работать кросс-платформенно остаётся инженерной задачей, требующей практической проверки.


Основные источники:

  • Статья ACC (USTC Community, 22 мая 2026 г.)
  • Hugging Face Daily Papers (36 голосов)