C
ChaoBro

MLLM 看人准吗?MM-OCEAN 发现 51% 的"正确评分"其实是在瞎猜

MLLM 看人准吗?MM-OCEAN 发现 51% 的"正确评分"其实是在瞎猜

现在的 MLLM 越来越多被用在面试辅助、社交分析、心理咨询辅助这些"看人"的场景里。但有一个根本问题没人认真回答过:模型判断一个人的性格,是真的从行为中推导出来的,还是靠表面特征在"猜"?

东京大学和高通等团队的这篇论文(arXiv:2605.22109,康彩欣等,2026年5月21日)给了一个让人不太舒服的答案:一半以上的"正确"评分,其实是在瞎猜。

问题出在哪

现有的 MLLM 人格感知评测只做一件事:让模型看一段视频或图片,预测 Big Five 人格维度的分数。如果分数接近人工标注,就算模型"能力强"。

但这就好比考试只改答案不给过程——答对了就是答对了,不管你是推出来的还是蒙的。

论文把这个缺陷正式化为一个新任务:Grounded Personality Reasoning(GPR)。要求模型做三件事:

  1. 给 Big Five 的每个维度打分
  2. 解释为什么这么打分
  3. 把解释锚定在视频中的具体可观察行为上

打分 → 推理 → 证据锚定。少一步都不算合格。

MM-OCEAN 数据集

为了支持这个评测,他们构建了 MM-OCEAN 数据集:1,104 个视频,5,320 道选择题,由多 Agent 流水线生成并经人工验证。每条数据包含时间戳标记的行为观察、基于证据的特质分析,以及七类线索锚定选择题。

结果:偏见鸿沟

他们测了 27 个 MLLM(13 个闭源,14 个开源),定义了四个失败模式指标:

  • 偏见率(PR):答对了但没有基于检索到的线索
  • 幻觉率(CR):凭空捏造不存在的证据
  • 整合失败率(IR):能看到线索但无法整合推理
  • 全局锚定率(HR):评分、推理、线索三者一致

发现令人不安:51% 的正确评分没有基于可观察线索。 全局锚定率最高的模型也只有 33.5%,最低的——0%。

换句话说,目前最强的 MLLM 在人格感知任务上,大部分时候是在"蒙对了答案但说不出原因"。模型可能从视频中的某些表面模式(穿着、背景、表情)学到了与人格分数的统计关联,但并不真正理解行为与人格之间的因果关系。

这说明了什么

如果 MLLM 在面试评估、社交推荐、心理辅助这些场景中被部署,这个发现意味着:

  • 模型可能给出"正确"的性格判断,但推理链是错的
  • 同样的模型在不同人群上的表现可能因为表面特征偏差而系统性地不公平
  • 当被要求解释判断依据时,模型的解释可能是幻觉

这不是 MLLM 独有的问题。人类也有"第一印象偏见"——见面三分钟就给人贴标签,之后的信息全部用来证实初始判断。但 MLLM 的偏见是统计性的、不可解释的,比人类的认知偏差更难发现和纠正。

下一步

论文给出的路线图很清晰:未来的 MLLM 社会认知研究不能只看"评分准不准",必须看"推理对不对、证据在哪"。

我期待看到更多研究跟进 GPR 这个框架。人格感知只是一个切口——同样的"答对 ≠ 理解"问题,在情感分析、意图识别、可信度评估等所有涉及"读人"的 NLP 任务中都可能存在。

主要来源:

  • arXiv:2605.22109, Perception or Prejudice: Can MLLMs Go Beyond First Impressions of Personality?, Caixin Kang et al., 2026-05-21