MLLM всё чаще развёртываются в сценариях «чтения людей»: помощь в собеседованиях, социальный анализ, консультационная поддержка. Но на один фундаментальный вопрос мало кто серьёзно отвечал: когда модель оценивает личность человека, она действительно выводит выводы из поведения или просто «угадывает» по поверхностным признакам?
Статья от Университета Токио и Qualcomm (arXiv:2605.22109, Caixin Kang и др., 21 мая 2026) даёт неудобный ответ: более половины всех «правильных» оценок — по сути угадывание.
Проблема
Существующие бенчмарки восприятия личности MLLM делают одно: показывают модели видео или изображение, просят предсказать баллы Big Five. Если баллы совпадают с человеческой аннотацией — модель «способна».
Но это как проверять экзамен только по ответам — правильно есть правильно, независимо от того, вывел ли студент или угадал.
Авторы формализуют новую задачу: Grounded Personality Reasoning (GPR). Модель должна выполнить три шага:
- Оценить каждое измерение Big Five
- Объяснить почему
- Привязать объяснение к конкретным наблюдаемым поведениям в видео
Оценка → Рассуждение → Привязка к доказательствам. Пропуск любого шага = провал.
Результаты: разрыв предубеждений
Протестировано 27 MLLM (13 закрытых, 14 открытых) с четырьмя метриками режимов отказов:
- Частота предубеждений (PR): правильная оценка, но не привязана к извлечённым сигналам
- Частота конфабуляции (CR):fabricating несуществующих доказательств
- Частота отказа интеграции (IR): видит сигналы, но не может интегрировать рассуждение
- Полная привязка (HR): оценка, рассуждение и сигналы согласованы
Результат тревожен: 51% правильных оценок не основаны на наблюдаемых сигналах. Наивысший показатель полной привязки среди всех моделей — лишь 33.5%, низший — 0%.
Основные источники:
- arXiv:2605.22109, Perception or Prejudice: Can MLLMs Go Beyond First Impressions of Personality?, Caixin Kang et al., 2026-05-21