MLLMは人を正確に読めるか？MM-OCEANが明らかにする「正解の51%は推測」

MLLMは面接支援、ソーシャル分析、カウンセリング支援といった「人を読む」シナリオでますます活用されている。しかし、一つの根本的な問いに真剣に答えた研究はほとんどなかった：モデルが人の性格を判断するとき、実際に行動から導き出しているのか、それとも表面的な特徴で「推測」しているのか？

東京大学とQualcommなどのチームの論文（arXiv:2605.22109、康彩欣他、2026年5月21日）は居心地の悪い答えを出した：「正解」の半分以上は実は推測に過ぎない。

問題点

既存のMLLM人格知覚ベンチマークは一つのことしかしない：モデルに動画や画像を見せて、Big Five人格次元のスコアを予測させる。スコアが人工アノテーションに近ければ、モデルは「能力がある」とされる。

しかし、これは答えだけをチェックする試験のようなものだ——正解なら正解、推導してきたのか偶然なのかは問わない。

論文は新しいタスクを公式化した：Grounded Personality Reasoning（GPR）。モデルは3つのことをする必要がある：

スコア → 推論 → 証拠アンカー。一つでも欠ければ不合格。

27のMLLM（13クローズドソース、14オープンソース）をテストし、4つの失敗モード指標を定義：

発見は不安を煽る：正解评分の51%が観察可能な手がかりに基づいていない。 全モデルで最高のホリスティックグラウンディング率は33.5%、最低は——0%。

主要ソース：

arXiv:2605.22109, Perception or Prejudice: Can MLLMs Go Beyond First Impressions of Personality?, Caixin Kang et al., 2026-05-21