Понимают ли MLLM людей? MM-OCEAN обнаруживает: 51% «правильных оценок»

MLLM всё чаще развёртываются в сценариях «чтения людей»: помощь в собеседованиях, социальный анализ, консультационная поддержка. Но на один фундаментальный вопрос мало кто серьёзно отвечал: когда модель оценивает личность человека, она действительно выводит выводы из поведения или просто «угадывает» по поверхностным признакам?

Статья от Университета Токио и Qualcomm (arXiv:2605.22109, Caixin Kang и др., 21 мая 2026) даёт неудобный ответ: более половины всех «правильных» оценок — по сути угадывание.

Проблема

Существующие бенчмарки восприятия личности MLLM делают одно: показывают модели видео или изображение, просят предсказать баллы Big Five. Если баллы совпадают с человеческой аннотацией — модель «способна».

Но это как проверять экзамен только по ответам — правильно есть правильно, независимо от того, вывел ли студент или угадал.

Авторы формализуют новую задачу: Grounded Personality Reasoning (GPR). Модель должна выполнить три шага:

Оценить каждое измерение Big Five
Объяснить почему
Привязать объяснение к конкретным наблюдаемым поведениям в видео

Оценка → Рассуждение → Привязка к доказательствам. Пропуск любого шага = провал.

Результаты: разрыв предубеждений

Протестировано 27 MLLM (13 закрытых, 14 открытых) с четырьмя метриками режимов отказов:

Частота предубеждений (PR): правильная оценка, но не привязана к извлечённым сигналам
Частота конфабуляции (CR):fabricating несуществующих доказательств
Частота отказа интеграции (IR): видит сигналы, но не может интегрировать рассуждение
Полная привязка (HR): оценка, рассуждение и сигналы согласованы

Результат тревожен: 51% правильных оценок не основаны на наблюдаемых сигналах. Наивысший показатель полной привязки среди всех моделей — лишь 33.5%, низший — 0%.

Основные источники:

arXiv:2605.22109, Perception or Prejudice: Can MLLMs Go Beyond First Impressions of Personality?, Caixin Kang et al., 2026-05-21

Проблема

Результаты: разрыв предубеждений

Похожие материалы

ACC: Компиляция траекторий агентов в длинные контекстные QA-пары

Кредитное распределение в RLVR заново: DelTA предлагает взгляд дискриминатора на токеновые вознаграждения

OPPO: Байесовская рекурсия ценности для токенового кредитного распределения в рассуждениях LLM