C
ChaoBro

MLLMは人を正確に読めるか?MM-OCEANが明らかにする「正解の51%は推測」

MLLMは人を正確に読めるか?MM-OCEANが明らかにする「正解の51%は推測」

MLLMは面接支援、ソーシャル分析、カウンセリング支援といった「人を読む」シナリオでますます活用されている。しかし、一つの根本的な問いに真剣に答えた研究はほとんどなかった:モデルが人の性格を判断するとき、実際に行動から導き出しているのか、それとも表面的な特徴で「推測」しているのか?

東京大学とQualcommなどのチームの論文(arXiv:2605.22109、康彩欣他、2026年5月21日)は居心地の悪い答えを出した:「正解」の半分以上は実は推測に過ぎない。

問題点

既存のMLLM人格知覚ベンチマークは一つのことしかしない:モデルに動画や画像を見せて、Big Five人格次元のスコアを予測させる。スコアが人工アノテーションに近ければ、モデルは「能力がある」とされる。

しかし、これは答えだけをチェックする試験のようなものだ——正解なら正解、推導してきたのか偶然なのかは問わない。

論文は新しいタスクを公式化した:Grounded Personality Reasoning(GPR)。モデルは3つのことをする必要がある:

  1. Big Fiveの各次元にスコアをつける
  2. なぜそうスコアつけたか説明する
  3. 説明を動画内の具体的な観察可能な行動にアンカーする

スコア → 推論 → 証拠アンカー。一つでも欠ければ不合格。

結果:偏見ギャップ

27のMLLM(13クローズドソース、14オープンソース)をテストし、4つの失敗モード指標を定義:

  • 偏見率(PR):正解だが検索された手がかりに基づいていない
  • 幻覚率(CR):存在しない証拠をでっち上げる
  • 統合失敗率(IR):手がかりは見えるが推論を統合できない
  • ホリスティックグラウンディング率(HR):スコア、推論、手がかりの三者が一致

発見は不安を煽る:正解评分の51%が観察可能な手がかりに基づいていない。 全モデルで最高のホリスティックグラウンディング率は33.5%、最低は——0%。

主要ソース:

  • arXiv:2605.22109, Perception or Prejudice: Can MLLMs Go Beyond First Impressions of Personality?, Caixin Kang et al., 2026-05-21