Забудьте описания, запомните решения: статья, переопределяющая память агентов с помощью теории информации

Контринтуитивная гипотеза

В настоящее время практически все системы памяти ИИ-агентов выполняют одну и ту же задачу: максимально точно сжимать опыт в виде резюме для последующего хранения.

Авторы данной статьи утверждают: направление выбрано неверно.

Они формулируют ключевую идею — память агента должна быть не «описанием прошлого», а «дискриминатором решений». Иными словами, ценность памяти определяется не тем, насколько достоверно она отражает произошедшее, а тем, насколько надёжно она сохраняет различение тех исторических состояний, которые необходимо различать, чтобы агент мог принимать качественные решения в условиях ограниченного бюджета памяти.

От теории информации к памяти агентов

Авторы используют аппарат теории скорости-искажения (Rate-Distortion Theory) из теории информации — первоначально разработанной для анализа вопроса: «До какой степени можно сжать сигнал при заданной пропускной способности канала без недопустимых потерь качества?»

Применяя её к памяти агентов:

Скорость (Rate) = бюджет памяти (сколько информации можно хранить)
Искажение (Distortion) = утрата качества решений (снижение эффективности решений вследствие забывания)

Эта рамка позволяет сделать два принципиальных вывода:

1. Точная граница допустимого забывания

При заданном бюджете памяти можно математически определить, какие сведения можно безопасно забыть, а какие необходимо сохранить. При этом критерий — не расплывчатые понятия «релевантности» или «значимости», а строгий вопрос: «Приведёт ли удаление этой информации к конфликту решений?»

2. Граница компромисса «память–искажение»

Существует оптимальная кривая компромисса, описывающая зависимость между бюджетом памяти и качеством решений. Все точки на этой кривой являются Парето-оптимальными: невозможно повысить качество решений без увеличения объёма памяти, равно как невозможно сократить объём памяти без ухудшения качества решений.

DeMem: от теории к реализации

На основе этой рамки авторы предлагают DeMem (Decision-centric Memory) — онлайн-обучающийся механизм управления памятью. Его ключевой принцип таков:

Разбиение памяти на более мелкие категории производится только тогда, когда данные показывают, что объединение двух ситуаций в одно состояние памяти ведёт к конфликту решений.

Простыми словами: не стоит заранее сохранять все события в максимальной детализации; вместо этого применяется стратегия «ленивой загрузки» — различение вводится лишь тогда, когда обнаруживается, что «эти два случая выглядят похоже, но требуют разных действий».

Это напоминает тонкую особенность человеческой памяти. Мы не запоминаем каждую деталь ежедневной поездки на работу, однако если в один из дней на пути происходит необычное событие (авария, случайная встреча), мы чётко запоминаем именно тот маршрут — потому что «в тот день всё было иначе, и его нужно отличать от обычного».

Экспериментальные результаты

В статье проверяется эффективность DeMem в двух сценариях:

Контролируемые синтетические диагностические задачи: в специально спроектированной тестовой среде DeMem превосходит базовые методы при одинаковом бюджете памяти
Бенчмарк длинных диалогов: в реалистичных многоходовых диалогах, требующих длительного сохранения контекста, DeMem демонстрирует стабильное улучшение показателей

Конкретные количественные значения повышения приведены в статье, однако ключевой вывод таков: результаты не просто «незначительно лучше», а представляют собой устойчивый выигрыш при одинаковом временном и вычислительном бюджете.

Что это значит для разработки агентов

Современные распространённые подходы к памяти агентов — будь то буфер диалогов в LangChain, хранение опыта в векторных базах данных или различные стратегии суммаризации — ориентированы на описание. Они исходят из предположения, что цель памяти — точно отразить прошлое.

DeMem предлагает иной парадигмальный сдвиг: цель памяти — обеспечивать высокое качество решений в условиях ограничений по объёму памяти.

Если данная парадигма получит широкое признание, это может потребовать фундаментальной перестройки всей инфраструктуры управления памятью агентов.

Авторский коллектив

В число авторов входят исследователи из Университета Монаша (Цзэнлин Сюй, Лизхэнь Цюй), Китайского университета Гонконга (Ирвин Кинг) и ByteDance/других организаций. Такой состав свидетельствует о сочетании глубокой академической проработки и практической ориентации на промышленные задачи.

Взвешенный взгляд

Теоретическая основа выглядит убедительно, однако ряд вопросов остаётся открытым и требует дальнейшего исследования:

Как будет себя вести DeMem в более сложных реальных сценариях — например, у агентов, использующих множество инструментов, или у агентов, осуществляющих навигацию по веб-страницам?
Какова вычислительная стоимость самой процедуры обнаружения конфликтов решений? Если механизм обнаружения слишком затратен, он может полностью нивелировать выгоды от сокращения объёма хранимой памяти.
Есть ли открытая реализация? В статье не указаны планы по публикации исходного кода.

Одна фраза

«Запоминайте решения, а не описания» — если этот принцип подтвердится, он может стать переломным моментом в проектировании систем памяти для агентов.

Основные источники:

arXiv:2605.10870 — DeMem
Авторы: Минси Цзоу, Чжихань Го, Ланчжан Лян, Чжуо Ван, Цифань Ван, Цинсон Вэнь, Ирвин Кинг, Лизхэнь Цюй, Цзэнлин Сюй

Контринтуитивная гипотеза

От теории информации к памяти агентов

DeMem: от теории к реализации

Экспериментальные результаты

Что это значит для разработки агентов

Авторский коллектив

Взвешенный взгляд

Одна фраза

Похожие материалы

Самая большая ловушка при написании LLM кода для комбинаторной оптимизации: просишь оптимизировать — модель только всё портит

Чем детальнее оценочные критерии, тем больше модель находит лазейки: взлом системы вознаграждения в обучении с подкреплением на основе рубрик

RLHF тихонько разрушает «честность» ИИ: в чём суть Semantic Reward Collapse