Современные мультимодальные большие модели умеют практически всё: описывать изображения, отвечать на вопросы по картинкам и тексту, понимать видео. Но мало кто всерьёз задавался вопросом: а есть ли у этих моделей вообще «память»?
Речь не о кратковременной памяти в виде контекстного окна, а о способности к долгосрочному запоминанию, сохраняющемуся между сессиями и на протяжении длительного времени.
Работа NVIDIA, представленная на Hugging Face Daily Papers под названием MemLens, как раз призвана дать ответ на этот вопрос: исследователи создали первый бенчмарк, специально разработанный для оценки способности крупных визуально-языковых моделей (LVLM) к мультимодальной долгосрочной памяти.
Зачем нужен MemLens
Текущие оценки LVLM сосредоточены преимущественно на выполнении мгновенных задач: модель получает изображение и вопрос, после чего проверяется правильность ответа. Однако это совершенно не затрагивает способности к запоминанию.
Представьте ситуацию: в понедельник вы показываете модели эскиз дизайна продукта, а в пятницу возвращаетесь с вопросом: «В том эскизе от понедельника рамка экрана была скруглённой или прямоугольной?» — большинство современных моделей просто не смогут ответить, поскольку у них отсутствуют механизмы памяти, работающие между сессиями.
MemLens как раз и призван количественно оценить эту способность: может ли модель запоминать ранее увиденную информацию в ходе многоэтапного взаимодействия? Как долго она её хранит? Насколько точно?
Критерии оценки
MemLens оценивает долгосрочную память LVLM по нескольким параметрам:
- Дальность памяти: насколько давнюю информацию способна запомнить модель
- Точность памяти: степень соответствия воспроизведённой информации исходным данным
- Кросс-модальная память: способность устанавливать связи между запомненными изображениями, текстом и видео
- Устойчивость к помехам: возможность точно извлечь исходные воспоминания после вставки промежуточной информации
Модели, участвовавшие в оценке
MemLens провёл систематическую оценку современных популярных крупных визуально-языковых моделей. Хотя в статье не опубликован подробный рейтинг всех моделей, она предлагает воспроизводимый протокол оценки, позволяющий будущим исследованиям сравнивать способности к запоминанию у разных моделей по единой шкале.
Практическая значимость
Для создания ИИ-приложений, требующих долгосрочного взаимодействия, таких как персональные ассистенты, образовательные платформы или медицинские консультации, MemLens предоставляет ключевой критерий оценки. Если модель не запоминает ранее сказанное или увиденное, то, какой бы умной она ни была, её память остаётся на уровне «золотой рыбки».
Инвестиции NVIDIA в это направление также указывают на важную тенденцию: следующим фокусом конкуренции среди мультимодальных моделей, вероятно, станет не столько «способность к пониманию», сколько «способность к запоминанию».
Работа MemLens, представленная исследовательской командой NVIDIA, получила 67 голосов «upvote» и 16 комментариев на Hugging Face Daily Papers, что свидетельствует о высоком интересе со стороны сообщества.