C
ChaoBro

多模态大模型的"感官失调":新论文揭示 omnimodal LLM 的表征-行动鸿沟

多模态大模型的"感官失调":新论文揭示 omnimodal LLM 的表征-行动鸿沟

我们一直假设:如果一个大模型能正确描述一张图片,那它"理解"了这张图片。

这篇 5 月 14 日发布的论文说:不一定。

论文标题叫 "Senses Wide Shut: A Representation-Action Gap in Omnimodal LLMs",作者来自新加坡南洋理工大学(Ziwei Liu 团队)。核心发现很反直觉——全模态大模型(能同时处理文本、图像、音频、视频的模型)在"表征层面"(representation)的视觉理解和"行动层面"(action)的输出之间存在系统性鸿沟。

发现了什么

简单来说:模型可能真的"看到"了图像中的内容(内部表征是正确的),但在回答问题或执行任务时,输出却与这种理解不一致。

这不是"幻觉"问题——幻觉是模型编造了不存在的信息。这里的情况更诡异:模型知道正确答案(从内部表征可以提取出来),但说出来的却是另一个答案

论文用了"感官关闭"(Senses Wide Shut)这个比喻——就像一个人明明睁着眼睛看东西,但做出的反应却像没看到一样。

为什么这事重要

全模态模型是 2026 年的热门方向。GPT-4o、Gemini、Qwen-VL、Claude 的视觉能力都在快速迭代。大家都在拼"能看懂多少种模态"——图像、视频、音频、3D、触觉……

但这篇论文在问一个更基本的问题:"看懂"不等于"会用"

如果一个医疗 AI 能正确识别 X 光片中的肿瘤(表征层正确),但给出的诊断建议却是"未见异常"(行动层错误),那这个模型在临床上的价值就是零——甚至为负。

技术细节

论文的关键方法论是:

  1. 探测内部表征——通过 probing 技术直接读取模型的视觉表征,确认模型"看到了什么"
  2. 对比输出行为——检查模型对同一视觉输入的文字/行动输出
  3. 量化鸿沟——测量表征与行动之间的不一致程度

这个方法比传统的"给模型一张图,看它回答什么"要深入得多。传统评测只看输出,看不到模型"脑子里"到底发生了什么。

我的判断

这篇论文的价值不在于"指出了一个问题"——大家早就知道多模态模型有各种缺陷。它的价值在于把问题精确定位到了"表征-行动"这个接口层

这对几个方向有直接影响:

  • 模型评测:只看输出的 benchmark 可能严重低估或高估模型能力
  • 安全对齐:如果模型"知道"但"不说",传统的 RLHF 对齐方法可能失效
  • 多模态 Agent:基于视觉理解做决策的 Agent,需要额外的验证层来确保行动与理解一致

Ziwei Liu 团队在多模态领域一直产出高质量研究。这篇论文的发现如果能在更多模型上复现,那全模态模型的发展路线可能需要重新审视——不是"增加更多模态",而是"确保已有的模态理解能可靠地转化为行动"。

多模态的下一个挑战,可能不是"让它看得更多",而是"让它说到做到"。


主要来源: