多模态大模型的"感官失调"：新论文揭示 omnimodal LLM 的表征-行动鸿沟

我们一直假设：如果一个大模型能正确描述一张图片，那它"理解"了这张图片。

这篇 5 月 14 日发布的论文说：不一定。

论文标题叫 "Senses Wide Shut: A Representation-Action Gap in Omnimodal LLMs"，作者来自新加坡南洋理工大学（Ziwei Liu 团队）。核心发现很反直觉——全模态大模型（能同时处理文本、图像、音频、视频的模型）在"表征层面"（representation）的视觉理解和"行动层面"（action）的输出之间存在系统性鸿沟。

发现了什么

简单来说：模型可能真的"看到"了图像中的内容（内部表征是正确的），但在回答问题或执行任务时，输出却与这种理解不一致。

这不是"幻觉"问题——幻觉是模型编造了不存在的信息。这里的情况更诡异：模型知道正确答案（从内部表征可以提取出来），但说出来的却是另一个答案。

论文用了"感官关闭"（Senses Wide Shut）这个比喻——就像一个人明明睁着眼睛看东西，但做出的反应却像没看到一样。

为什么这事重要

全模态模型是 2026 年的热门方向。GPT-4o、Gemini、Qwen-VL、Claude 的视觉能力都在快速迭代。大家都在拼"能看懂多少种模态"——图像、视频、音频、3D、触觉……

但这篇论文在问一个更基本的问题："看懂"不等于"会用"。

如果一个医疗 AI 能正确识别 X 光片中的肿瘤（表征层正确），但给出的诊断建议却是"未见异常"（行动层错误），那这个模型在临床上的价值就是零——甚至为负。

技术细节

论文的关键方法论是：

探测内部表征——通过 probing 技术直接读取模型的视觉表征，确认模型"看到了什么"
对比输出行为——检查模型对同一视觉输入的文字/行动输出
量化鸿沟——测量表征与行动之间的不一致程度

这个方法比传统的"给模型一张图，看它回答什么"要深入得多。传统评测只看输出，看不到模型"脑子里"到底发生了什么。

我的判断

这篇论文的价值不在于"指出了一个问题"——大家早就知道多模态模型有各种缺陷。它的价值在于把问题精确定位到了"表征-行动"这个接口层。

这对几个方向有直接影响：

模型评测：只看输出的 benchmark 可能严重低估或高估模型能力
安全对齐：如果模型"知道"但"不说"，传统的 RLHF 对齐方法可能失效
多模态 Agent：基于视觉理解做决策的 Agent，需要额外的验证层来确保行动与理解一致

Ziwei Liu 团队在多模态领域一直产出高质量研究。这篇论文的发现如果能在更多模型上复现，那全模态模型的发展路线可能需要重新审视——不是"增加更多模态"，而是"确保已有的模态理解能可靠地转化为行动"。

多模态的下一个挑战，可能不是"让它看得更多"，而是"让它说到做到"。

主要来源：

发现了什么

为什么这事重要

技术细节

我的判断

相关内容

Chrome DevTools 官方发布 MCP 服务器：AI 编程代理终于能"看到"浏览器了

Google I/O 2026：搜索的"Agent 化"不是升级，是重写

Google SynthID 水印技术被 OpenAI、Nvidia 等巨头采用：AI 内容溯源进入标准化时代