C
ChaoBro

SkillsVote: «система голосования» для навыков AI-агентов, позволяющая модели самоэволюционировать без обновления весов

SkillsVote: «система голосования» для навыков AI-агентов, позволяющая модели самоэволюционировать без обновления весов

После того как каталог skills в Claude Code стал популярным, в сообществе появилось множество решений для управления навыками. Однако один фундаментальный вопрос обсуждается редко: как управлять библиотекой навыков агента?

При большом количестве навыков возникает избыточность, их качество неоднородно, а зависимости от среды становятся сложными. Если обновлять библиотеку навыков без разбора (indiscriminately), это может «загрязнить» контекст при последующем выполнении. Статья о SkillsVote, опубликованная сегодня исследователями из IAAR-Shanghai и Memtensor Research Group, посвящена именно решению этой проблемы.

Что делает SkillsVote

В основе SkillsVote лежит преобразование траекторий выполнения (trajectories) агента в многоразовые навыки (Agent Skills), а управление этим процессом осуществляется с помощью механизма «голосование — атрибуция — допуск».

До выполнения: поиск в структурированной библиотеке навыков

Перед выполнением задачи SkillsVote выполняет интеллектуальный поиск в структурированной библиотеке навыков, предоставляя агенту релевантные инструкции. Это не просто сопоставление ключевых слов, а комплексный поиск, основанный на требованиях среды, оценке качества и проверяемости.

После выполнения: декомпозиция траектории и атрибуция

После завершения задачи SkillsVote разбивает полную траекторию агента на подзадачи, связанные с навыками, а затем проводит анализ атрибуции результатов:

  • Какая доля успеха приходится на использованные навыки?
  • Какая часть является результатом самостоятельного исследования агента?
  • Какую роль сыграли факторы среды?
  • Сколько приходится на сигналы результатов выполнения?

Допуск: обновление через гейтинг на основе доказательств

Только успешные и воспроизводимые находки проходят «доказательный гейт» и попадают в библиотеку навыков. Это предотвращает включение низкокачественных или случайно успешных навыков.

Результаты экспериментов

Сценарий Базовая конфигурация Прирост
Оффлайн-эволюция GPT-5.2 + Terminal-Bench 2.0 +7,9 п.п.
Онлайн-эволюция Замороженная модель + SWE-Bench Pro +2,6 п.п.

Ключевой момент: веса модели не требуют обновления. Благодаря хорошо управляемой внешней библиотеке навыков, даже «замороженный» агент способен повысить свою производительность.

Корпус навыков масштаба в миллион единиц

Скрытым преимуществом статьи является систематический анализ командой открытого корпуса навыков, насчитывающего миллион записей, с профилированием по трём измерениям: требования среды, качество и проверяемость. Эти данные сами по себе представляют собой ценный актив для области исследований агентов.

Итог в одном предложении

По сути, SkillsVote отвечает на вопрос: как правильно «выращивать» навыки агента? Дело не в том, чтобы их было как можно больше, и не в скорости обновлений. Необходима система управления с отбором, атрибуцией и чёткими критериями допуска. Этот подход будет полезен всем, кто занимается разработкой платформ для агентов.

Основные источники:

  • arXiv:2605.18401 — статья SkillsVote
  • IAAR-Shanghai / Memtensor Research Group