私たちはこう仮定してきた:大規模モデルが画像を正しく記述できるなら、それを「理解している」。
5月14日に発表されたこの論文は言う:そうでないかもしれない。
タイトルは「Senses Wide Shut: A Representation-Action Gap in Omnimodal LLMs」。南洋理工大学(Ziwei Liu チーム)の研究。コアな発見は直感に反する——omnimodal LLM(テキスト、画像、音声、ビデオを同時に処理するモデル)の「表現レベル」の視覚理解と「行動レベル」の出力の間に体系的なギャップが存在する。
発見されたこと
モデルは画像の内容を本当に「見て」いるかもしれない(内部表現は正しい)。だが質問に答えたりタスクを実行したりするとき、出力はその理解と一致しない。
これは「幻覚」問題ではない。幻覚はモデルが存在しない情報をでっち上げるものだ。ここでの状況はもっと奇妙だ:モデルは正解を知っている(内部表現から抽出可能)が、別の答えを言う。
なぜ重要なのか
omnimodalモデルは2026年のホットな方向性だ。GPT-4o、Gemini、Qwen-VL、Claudeの視覚能力はすべて急速にイテレーションしている。誰もが「より多くのモーダリティをサポートする」ことを競っている。
だがこの論文はより根本的な問いを投げかけている:「見る」≠「使う」。
医療AIがX線写真の腫瘍を正しく識別できる(表現は正しい)が、診断提案が「異常なし」である(行動は誤り)なら、そのモデルの臨床的価値はゼロ——あるいはマイナスだ。
私の判断
この論文の価値は「問題を指摘した」ことではない——マルチモーダルモデルに問題があることは皆知っている。その価値は問題を「表現-行動」インターフェース層に正確に位置づけたことにある。
omnimodalの次の課題は「もっと見させる」ことではなく、「見たことを行動に移させる」ことだ。
主なソース: