C
ChaoBro

Понимают ли MLLM людей? MM-OCEAN обнаруживает: 51% «правильных оценок» — это угадывание

Понимают ли MLLM людей? MM-OCEAN обнаруживает: 51% «правильных оценок» — это угадывание

MLLM всё чаще развёртываются в сценариях «чтения людей»: помощь в собеседованиях, социальный анализ, консультационная поддержка. Но на один фундаментальный вопрос мало кто серьёзно отвечал: когда модель оценивает личность человека, она действительно выводит выводы из поведения или просто «угадывает» по поверхностным признакам?

Статья от Университета Токио и Qualcomm (arXiv:2605.22109, Caixin Kang и др., 21 мая 2026) даёт неудобный ответ: более половины всех «правильных» оценок — по сути угадывание.

Проблема

Существующие бенчмарки восприятия личности MLLM делают одно: показывают модели видео или изображение, просят предсказать баллы Big Five. Если баллы совпадают с человеческой аннотацией — модель «способна».

Но это как проверять экзамен только по ответам — правильно есть правильно, независимо от того, вывел ли студент или угадал.

Авторы формализуют новую задачу: Grounded Personality Reasoning (GPR). Модель должна выполнить три шага:

  1. Оценить каждое измерение Big Five
  2. Объяснить почему
  3. Привязать объяснение к конкретным наблюдаемым поведениям в видео

Оценка → Рассуждение → Привязка к доказательствам. Пропуск любого шага = провал.

Результаты: разрыв предубеждений

Протестировано 27 MLLM (13 закрытых, 14 открытых) с четырьмя метриками режимов отказов:

  • Частота предубеждений (PR): правильная оценка, но не привязана к извлечённым сигналам
  • Частота конфабуляции (CR):fabricating несуществующих доказательств
  • Частота отказа интеграции (IR): видит сигналы, но не может интегрировать рассуждение
  • Полная привязка (HR): оценка, рассуждение и сигналы согласованы

Результат тревожен: 51% правильных оценок не основаны на наблюдаемых сигналах. Наивысший показатель полной привязки среди всех моделей — лишь 33.5%, низший — 0%.

Основные источники:

  • arXiv:2605.22109, Perception or Prejudice: Can MLLMs Go Beyond First Impressions of Personality?, Caixin Kang et al., 2026-05-21