У крупных языковых моделей существует давняя и сложная проблема: во время диалога они постепенно забывают, о чём говорили ранее.
Конечно, можно увеличить размер окна контекста — до 128K, 256K или даже 1 млн токенов. Однако увеличение окна не гарантирует улучшения памяти. Исследования показывают, что простое расширение окна контекста часто приводит к «разбавлению внимания»: модель видит всю информацию, но не способна определить, какие фрагменты действительно важны.
В недавней статье, опубликованной на arXiv, представлен новый подход под названием δ-mem (Delta Memory): вместо того чтобы заставлять модель запоминать всё подряд, ей предоставляется отдельный внешний модуль памяти.
Основная идея: матрица состояния размером 8×8
Дизайн δ-mem поражает своей минималистичностью — к LLM добавляется всего лишь онлайн-матрица состояния памяти размером 8×8.
Эта матрица постоянно обновляется по правилу дельта-обучения (delta-rule learning), сжимая в себя информацию из предыдущих диалогов. При генерации нового токена δ-mem считывает данные из этой матрицы и формирует низкоранговый корректирующий член, который напрямую суммируется с вычислениями внимания в основной модели.
На всём протяжении этого процесса веса основной модели полностью заморожены. Не требуется тонкая настройка, замена слоёв внимания или изменение архитектуры модели. δ-mem представляет собой готовый к использованию «внешний модуль памяти», подключаемый «как есть».
Каковы результаты?
В статье приведены ключевые количественные показатели:
- Средний общий балл: достигает 1,10× от результата базовой замороженной модели и 1,15× от лучшего существующего метода памяти без δ-mem
- MemoryAgentBench (бенчмарк для задач с высокими требованиями к памяти): прирост на 31 % (в 1,31 раза)
- LoCoMo (бенчмарк для оценки памяти в длительных диалогах): прирост на 20 % (в 1,20 раза)
- Сохранение общих возможностей: при усилении памяти исходные универсальные способности модели практически полностью сохраняются
Матрица 8×8 = 64 параметра обеспечивает рост эффективности на 31 % в задачах, требующих интенсивного использования памяти. Такое соотношение «затраты/результат» в исследованиях LLM встречается крайне редко.
Почему бы просто не использовать более широкое окно контекста?
Ответ в статье предельно ясен: расширение окна контекста дорогостоящее и не гарантирует эффективного использования контекста.
Более широкое окно означает:
- Более высокие вычислительные затраты на вывод (сложность вычислений внимания растёт квадратично с длиной последовательности)
- Увеличение задержки при выводе
- Проблему «разбавления внимания» — модель теряет фокус среди огромного объёма информации
В то же время объём памяти δ-mem фиксирован (8×8) и не зависит от длины диалога. Неважно, общались ли вы с моделью 100 или 10 000 раундов — объём вычислений, связанных с матрицей памяти, остаётся неизменным.
Технические детали: дельта-правило обучения
Название δ-mem происходит от его основного алгоритма обучения — дельта-правила, классического метода инкрементального обучения. При поступлении новой информации матрица памяти обновляется лишь небольшим шагом, а не перезаписывается целиком.
Такой подход даёт два ключевых преимущества:
- Стабильность: старая информация не стирается новой безвозвратно
- Эффективность: объём вычислений при обновлении минимален и позволяет выполнять обновление в реальном времени во время вывода
Процесс чтения в δ-mem также продуман до мелочей. Он не сводится к простому поиску фрагментов в памяти; вместо этого генерируется низкоранговый корректирующий член, который изменяет вычисления внимания. Это означает, что память не «добавляется поверх модели», а непосредственно интегрируется в процесс рассуждения модели.
Авторский коллектив
В число авторов входят Цзинди Лэй (Jingdi Lei), Ди Чжан (Di Zhang), Соуджанья Пория (Soujanya Poria) и ещё 8 исследователей из таких организаций, как SUTD (Сингапурский технологический университет проектирования). Соуджанья Пория — известный специалист в области мультимодальных ИИ и анализа эмоций.
Ограничения и перспективы
На сегодня δ-mem остаётся исследовательским прототипом. В статье не рассматриваются его характеристики при применении к промышленным LLM (например, с 70 млрд+ параметров), а также не затрагиваются сценарии мультимодальной памяти.
Однако философия его дизайна заслуживает пристального внимания: память не должна реализовываться за счёт грубого расширения окна контекста, а должна усиливаться тщательно спроектированным лёгким модулем. Если эта концепция подтвердит свою эффективность на моделях большего масштаба, она может стать одним из ключевых направлений развития систем памяти для LLM.
Поскольку сценарии агентов и долгосрочных помощников становятся всё более распространёнными, готовый к подключению модуль памяти может оказаться практичнее, чем просто увеличенное окно контекста.
Статья: arXiv:2605.12357