マルチモーダルLLMの「感覚断絶」：新論文がomnimodal LLMの表現-行動ギャップを明らかに

私たちはこう仮定してきた：大規模モデルが画像を正しく記述できるなら、それを「理解している」。

5月14日に発表されたこの論文は言う：そうでないかもしれない。

タイトルは「Senses Wide Shut: A Representation-Action Gap in Omnimodal LLMs」。南洋理工大学（Ziwei Liu チーム）の研究。コアな発見は直感に反する——omnimodal LLM（テキスト、画像、音声、ビデオを同時に処理するモデル）の「表現レベル」の視覚理解と「行動レベル」の出力の間に体系的なギャップが存在する。

発見されたこと

モデルは画像の内容を本当に「見て」いるかもしれない（内部表現は正しい）。だが質問に答えたりタスクを実行したりするとき、出力はその理解と一致しない。

これは「幻覚」問題ではない。幻覚はモデルが存在しない情報をでっち上げるものだ。ここでの状況はもっと奇妙だ：モデルは正解を知っている（内部表現から抽出可能）が、別の答えを言う。

なぜ重要なのか

omnimodalモデルは2026年のホットな方向性だ。GPT-4o、Gemini、Qwen-VL、Claudeの視覚能力はすべて急速にイテレーションしている。誰もが「より多くのモーダリティをサポートする」ことを競っている。

だがこの論文はより根本的な問いを投げかけている：「見る」≠「使う」。

医療AIがX線写真の腫瘍を正しく識別できる（表現は正しい）が、診断提案が「異常なし」である（行動は誤り）なら、そのモデルの臨床的価値はゼロ——あるいはマイナスだ。

私の判断

この論文の価値は「問題を指摘した」ことではない——マルチモーダルモデルに問題があることは皆知っている。その価値は問題を「表現-行動」インターフェース層に正確に位置づけたことにある。

omnimodalの次の課題は「もっと見させる」ことではなく、「見たことを行動に移させる」ことだ。

主なソース：

arXiv:2605.13737 - Senses Wide Shut

発見されたこと

なぜ重要なのか

私の判断

関連コンテンツ

Chrome DevTools公式がMCPサーバーを公開：AIプログラミングエージェントがついにブラウザを「見られる」ように

Google I/O 2026：検索の「エージェント化」は単なるアップグレードではなく、根本的な書き換えだ

GoogleのSynthID透かし技術がOpenAI、Nvidiaなどの大手に採用：AIコンテンツのトレーサビリティが標準化の時代へ