Заставить ИИ «запоминать» что-либо — задача сложнее, чем кажется на первый взгляд.
Современные подходы в целом делятся на два направления: либо «вшить» память непосредственно в веса модели — но для этого требуется дообучение, отнимающее много времени и вычислительных ресурсов; либо подключить внешнюю базу данных — такая поисковая память гибка, но не интегрирована внутренне: каждый раз агент вынужден заново «искать информацию», а не по-настоящему «помнить» её.
Недавно опубликованная на arXiv статья FORGE («Self-Evolving Agent Memory With No Weight Updates via Population Broadcast») предлагает третий путь: агенты в группе обмениваются опытом посредством механизма группового вещания, обеспечивая автономную эволюцию памяти без какого-либо вмешательства в веса модели.
Что такое групповое вещание
Ключевой механизм FORGE называется «групповое вещание» (Population Broadcast). Его логика проста:
Когда агент приобретает опыт в ходе выполнения какой-либо задачи — например, выясняет, какие стратегии работают, какие методы проваливаются или какие данные стоит сохранить — он транслирует этот опыт всем остальным агентам в группе. Получив сообщение, другие агенты интегрируют полученную информацию в собственную память. В следующий раз, столкнувшись с похожей ситуацией, они смогут сразу использовать эту «коллективную память», не прибегая к новому исследованию.
Ключевой момент: в этом процессе веса модели не обновляются. Хранение и извлечение опыта полностью осуществляются во внешнем модуле памяти. Сама модель остаётся неизменной, однако функциональные возможности агента постоянно растут.
Почему такой подход интересен
Отказ от обновления весов даёт несколько важных преимуществ:
Нулевая стоимость дообучения. Традиционные схемы постоянного обучения либо требуют регулярного дообучения модели, либо предполагают разработку сложных алгоритмов инкрементального обучения. FORGE же вообще не затрагивает модель — рост памяти реализуется как внешний, «подключай и работай».
Мгновенный обмен. Опыт, приобретённый одним агентом, мгновенно становится доступным всем остальным. В рамках классических схем дообучения необходимо заново обучить всю модель, а затем развернуть обновлённую версию на всех экземплярах. В FORGE достаточно просто отправить одно сообщение.
Полная прослеживаемость и возможность отката. Поскольку память хранится явно, вы можете просматривать, редактировать или удалять любую запись. Если какая-то запись ошибочна — просто удалите её. При обновлении весов это невозможно: вы не сможете точно локализовать и исправить в модели отдельное «ошибочное убеждение».
Чем FORGE отличается от RAG
Возможно, вы подумаете: «Разве это не то же самое, что RAG (поиск с расширением генерации)? Подключили внешнюю базу знаний, выполнили поиск нужной информации и сгенерировали ответ».
Разница заключается в «самоэволюции». В RAG база знаний поддерживается людьми: вы сами добавляете документы, обновляете содержимое и управляете индексами. Память в FORGE создаётся и поддерживается самими агентами в ходе их взаимодействия. Агенты автоматически решают, какой опыт стоит сохранить, какой забыть, а какой объединить с уже существующим.
Это гораздо ближе к человеческому механизму памяти. Вы ведь не заучиваете ежедневно целую энциклопедию — вы формируете и обновляете собственные воспоминания через личный опыт и рефлексию.
Экспериментальная часть статьи
Авторы протестировали FORGE на нескольких бенчмарках задач для агентов, включая стратегические задания, требующие долговременной памяти, и сложные сценарии, где необходим перенос знаний между различными задачами. Результаты показали, что механизм группового вещания FORGE превосходит как индивидуальное обучение, так и традиционные поисковые подходы по эффективности памяти и качеству выполнения задач.
Особого внимания заслуживает тот факт, что с ростом размера группы агентов эффективность обучения возрастает сверхлинейно — это говорит о том, что групповое вещание действительно порождает эффект «коллективного интеллекта», а не просто суммирует информацию.
Моё мнение
Подход FORGE затрагивает фундаментальное противоречие современных систем агентов: мы хотим, чтобы агенты становились всё умнее, но при этом не желаем переобучать модель каждый раз при повышении их возможностей.
Идея группового вещания предлагает элегантное решение. Она декомпозирует «обучение» и «обновление модели»: обучение происходит на уровне памяти, а модель остаётся неизменной. Это означает, что одну и ту же фиксированную версию модели можно использовать постоянно, а её способности будут расти за счёт расширяющейся коллективной памяти.
Разумеется, остаются и серьёзные проблемы. Как разрешать конфликты в памяти? Что делать, если один агент распространяет ошибочный опыт по всей группе? Как поддерживать эффективность поиска и качество памяти при её неограниченном росте?
На эти вопросы статья пока не даёт исчерпывающих ответов. Однако намеченный ею путь чёток: память агента не должна быть привязана к весам модели — она должна представлять собой отдельный, эволюционирующий и совместно используемый уровень.
Если этот путь окажется жизнеспособным, стоимость развертывания и сопровождения агентов значительно снизится. Вам больше не придётся часто переобучать модели — достаточно позволить группе агентов самостоятельно учиться, вещать и эволюционировать.
Основной источник: