C
ChaoBro

マルチモーダルLLMの「感覚断絶」:新論文がomnimodal LLMの表現-行動ギャップを明らかに

マルチモーダルLLMの「感覚断絶」:新論文がomnimodal LLMの表現-行動ギャップを明らかに

私たちはこう仮定してきた:大規模モデルが画像を正しく記述できるなら、それを「理解している」。

5月14日に発表されたこの論文は言う:そうでないかもしれない。

タイトルは「Senses Wide Shut: A Representation-Action Gap in Omnimodal LLMs」。南洋理工大学(Ziwei Liu チーム)の研究。コアな発見は直感に反する——omnimodal LLM(テキスト、画像、音声、ビデオを同時に処理するモデル)の「表現レベル」の視覚理解と「行動レベル」の出力の間に体系的なギャップが存在する。

発見されたこと

モデルは画像の内容を本当に「見て」いるかもしれない(内部表現は正しい)。だが質問に答えたりタスクを実行したりするとき、出力はその理解と一致しない。

これは「幻覚」問題ではない。幻覚はモデルが存在しない情報をでっち上げるものだ。ここでの状況はもっと奇妙だ:モデルは正解を知っている(内部表現から抽出可能)が、別の答えを言う

なぜ重要なのか

omnimodalモデルは2026年のホットな方向性だ。GPT-4o、Gemini、Qwen-VL、Claudeの視覚能力はすべて急速にイテレーションしている。誰もが「より多くのモーダリティをサポートする」ことを競っている。

だがこの論文はより根本的な問いを投げかけている:「見る」≠「使う」

医療AIがX線写真の腫瘍を正しく識別できる(表現は正しい)が、診断提案が「異常なし」である(行動は誤り)なら、そのモデルの臨床的価値はゼロ——あるいはマイナスだ。

私の判断

この論文の価値は「問題を指摘した」ことではない——マルチモーダルモデルに問題があることは皆知っている。その価値は問題を「表現-行動」インターフェース層に正確に位置づけたことにある。

omnimodalの次の課題は「もっと見させる」ことではなく、「見たことを行動に移させる」ことだ。


主なソース: