MLLM 看人准吗？MM-OCEAN 发现 51% 的"正确评分"其实是在瞎猜

现在的 MLLM 越来越多被用在面试辅助、社交分析、心理咨询辅助这些"看人"的场景里。但有一个根本问题没人认真回答过：模型判断一个人的性格，是真的从行为中推导出来的，还是靠表面特征在"猜"？

东京大学和高通等团队的这篇论文（arXiv:2605.22109，康彩欣等，2026年5月21日）给了一个让人不太舒服的答案：一半以上的"正确"评分，其实是在瞎猜。

问题出在哪

现有的 MLLM 人格感知评测只做一件事：让模型看一段视频或图片，预测 Big Five 人格维度的分数。如果分数接近人工标注，就算模型"能力强"。

但这就好比考试只改答案不给过程——答对了就是答对了，不管你是推出来的还是蒙的。

论文把这个缺陷正式化为一个新任务：Grounded Personality Reasoning（GPR）。要求模型做三件事：

打分 → 推理 → 证据锚定。少一步都不算合格。

为了支持这个评测，他们构建了 MM-OCEAN 数据集：1,104 个视频，5,320 道选择题，由多 Agent 流水线生成并经人工验证。每条数据包含时间戳标记的行为观察、基于证据的特质分析，以及七类线索锚定选择题。

他们测了 27 个 MLLM（13 个闭源，14 个开源），定义了四个失败模式指标：

发现令人不安：51% 的正确评分没有基于可观察线索。 全局锚定率最高的模型也只有 33.5%，最低的——0%。

换句话说，目前最强的 MLLM 在人格感知任务上，大部分时候是在"蒙对了答案但说不出原因"。模型可能从视频中的某些表面模式（穿着、背景、表情）学到了与人格分数的统计关联，但并不真正理解行为与人格之间的因果关系。

如果 MLLM 在面试评估、社交推荐、心理辅助这些场景中被部署，这个发现意味着：

这不是 MLLM 独有的问题。人类也有"第一印象偏见"——见面三分钟就给人贴标签，之后的信息全部用来证实初始判断。但 MLLM 的偏见是统计性的、不可解释的，比人类的认知偏差更难发现和纠正。

论文给出的路线图很清晰：未来的 MLLM 社会认知研究不能只看"评分准不准"，必须看"推理对不对、证据在哪"。

我期待看到更多研究跟进 GPR 这个框架。人格感知只是一个切口——同样的"答对 ≠ 理解"问题，在情感分析、意图识别、可信度评估等所有涉及"读人"的 NLP 任务中都可能存在。

主要来源：

arXiv:2605.22109, Perception or Prejudice: Can MLLMs Go Beyond First Impressions of Personality?, Caixin Kang et al., 2026-05-21