MLLMは面接支援、ソーシャル分析、カウンセリング支援といった「人を読む」シナリオでますます活用されている。しかし、一つの根本的な問いに真剣に答えた研究はほとんどなかった:モデルが人の性格を判断するとき、実際に行動から導き出しているのか、それとも表面的な特徴で「推測」しているのか?
東京大学とQualcommなどのチームの論文(arXiv:2605.22109、康彩欣他、2026年5月21日)は居心地の悪い答えを出した:「正解」の半分以上は実は推測に過ぎない。
問題点
既存のMLLM人格知覚ベンチマークは一つのことしかしない:モデルに動画や画像を見せて、Big Five人格次元のスコアを予測させる。スコアが人工アノテーションに近ければ、モデルは「能力がある」とされる。
しかし、これは答えだけをチェックする試験のようなものだ——正解なら正解、推導してきたのか偶然なのかは問わない。
論文は新しいタスクを公式化した:Grounded Personality Reasoning(GPR)。モデルは3つのことをする必要がある:
- Big Fiveの各次元にスコアをつける
- なぜそうスコアつけたか説明する
- 説明を動画内の具体的な観察可能な行動にアンカーする
スコア → 推論 → 証拠アンカー。一つでも欠ければ不合格。
結果:偏見ギャップ
27のMLLM(13クローズドソース、14オープンソース)をテストし、4つの失敗モード指標を定義:
- 偏見率(PR):正解だが検索された手がかりに基づいていない
- 幻覚率(CR):存在しない証拠をでっち上げる
- 統合失敗率(IR):手がかりは見えるが推論を統合できない
- ホリスティックグラウンディング率(HR):スコア、推論、手がかりの三者が一致
発見は不安を煽る:正解评分の51%が観察可能な手がかりに基づいていない。 全モデルで最高のホリスティックグラウンディング率は33.5%、最低は——0%。
主要ソース:
- arXiv:2605.22109, Perception or Prejudice: Can MLLMs Go Beyond First Impressions of Personality?, Caixin Kang et al., 2026-05-21