Мы предполагали: если большая модель может правильно описать изображение, она его «понимает».
Статья, опубликованная 14 мая, говорит: не обязательно.
«Senses Wide Shut: A Representation-Action Gap in Omnimodal LLMs», авторы из Наньянского технологического университета (команда Ziwei Liu). Ключевой вывод контринтуитивен — омнимодальные LLM имеют систематический разрыв между визуальным пониманием на уровне «представлений» и выходными данными на уровне «действий».
Что обнаружили
Модель может действительно «видеть» содержание изображения (внутренние представления верны). Но при ответе на вопросы её вывод не соответствует этому пониманию.
Это не проблема «галлюцинаций». Галлюцинация — это когда модель выдумывает несуществующую информацию. Здесь ситуация страннее: модель знает правильный ответ (извлекаемый из внутренних представлений), но говорит другой.
Почему это важно
Омнимодальные модели — горячее направление 2026 года. GPT-4o, Gemini, Qwen-VL, Claude — все быстро развивают визуальные способности. Все соревнуются в «поддержке большего числа модальностей».
Но эта статья задаёт более фундаментальный вопрос: «Видеть» ≠ «Использовать».
Если медицинский AI может правильно идентифицировать опухоли на рентгене (представления верны), но даёт диагноз «аномалий не обнаружено» (действие ошибочно), клиническая ценность модели равна нулю — или отрицательна.
Моя оценка
Ценность статьи не в «указании на проблему» — все знают, что у мультимодальных моделей есть недостатки. Её ценность в точном локализации проблемы на уровне интерфейса «представление-действие».
Следующий вызов для омнимодальных моделей — не «заставить видеть больше», а «заставить делать то, что他们说».
Основные источники: