MMSkills：上海交大想让视觉 Agent 真正学会"看"和"做"，而不是死记硬背

视觉Agent这个方向，说大不大，说小也不小。

大是因为几乎所有具身智能、机器人操作、屏幕交互的场景都绕不开它——Agent得先"看懂"画面，才知道该"做什么"。小是因为，到目前为止，大多数所谓"视觉Agent"本质上还是在做模式匹配：输入一张图片，输出一个动作，中间的"理解"过程基本靠模型在训练数据里见过的类似场景来蒙。

上海交大这篇 MMSkills（Towards Multimodal Skills for General Visual Agents）想解决的问题正好戳在这个痛处。

什么是"多模态技能"

论文的核心观点很直接：一个真正通用的视觉Agent，不应该只会"看图出动作"。它应该掌握"技能"——一种可以跨任务迁移、跨场景复用的多模态能力单元。

这里的关键是"技能"和"动作"的区别。

"动作"是原子级的：点击、拖动、抓取、移动。"技能"是结构化的：它会组合多个动作，会根据视觉反馈调整策略，会在不同情境下做出不同选择。比如"打开一个应用"是一个技能——它可能包含"找到图标→点击→等待加载→确认窗口出现"这一系列动作，但Agent执行时不需要每次都重新学习这套流程。

MMSkills 的设计就是让 Agent 学习这种结构化的多模态技能，而不是孤立的动作-观察对。

论文的方法论有几个值得注意的设计：

技能表示。MMSkills 把技能编码为多模态的表示——同时包含视觉信息和动作序列信息。这意味着Agent在学习一个技能时，不是只记住"看到A就做B"，而是理解"在什么视觉条件下，执行什么动作序列，能达到什么效果"。

技能组合。学会的技能可以组合使用。这类似于人类学习：你先学会"开门"，再学会"开灯"，然后你就能完成"进入房间并开灯"这个复合任务，而不需要从头学习。

跨任务泛化。这是MMSkills想要证明的核心能力——学到的技能能不能用到训练时没见过的任务上。

当前视觉Agent训练的主流方案大致分两类：

一类是端到端训练，比如 RT-2、VLA 系列模型，直接把图像映射为动作。这类方案的优势是简单，但缺点是缺乏可解释性，而且学到的能力很难迁移到新任务。

另一类是基于规划的方案，先用大模型做高层决策，再调用底层控制器执行。这类方案灵活但依赖大模型的视觉理解能力，而这恰恰是目前大模型的短板——它们在语言任务上表现惊人，但在精细视觉理解上仍然力不从心。

MMSkills 走的是第三条路：在中间层引入"技能"这个抽象。它不追求端到端的简洁，也不依赖大模型的泛化能力，而是通过系统性地学习和组合技能，来构建Agent的能力基座。

论文在多个视觉操作基准上进行了评估。结果显示，MMSkills 在跨任务泛化方面表现突出——在训练时没有见过的任务上，它的表现显著优于端到端方案和基于大模型的方案。

这验证了论文的核心假设：结构化的技能学习比单纯的模式匹配更能带来泛化能力。

MMSkills 的方向是对的。视觉Agent要实现真正的通用性，不可能靠"更多数据+更大模型"的暴力路径来解决。它需要结构化的知识表示和可组合的能力单元——这正是"技能"这个抽象提供的。

不过，论文目前展示的还主要是学术基准上的结果。从学术基准到真实世界的应用，中间隔着巨大的鸿沟。真实场景中的视觉输入远比论文中的数据复杂，技能的定义和边界也没有基准任务那么清晰。

但方向是对的。当Agent不再只是"看到什么做什么"，而是真正掌握了可复用、可组合的技能时，通用视觉智能才算是迈出了实质性的一步。

主要来源：