C
ChaoBro

MMSkills:上海交大想让视觉 Agent 真正学会"看"和"做",而不是死记硬背

MMSkills:上海交大想让视觉 Agent 真正学会"看"和"做",而不是死记硬背

视觉Agent这个方向,说大不大,说小也不小。

大是因为几乎所有具身智能、机器人操作、屏幕交互的场景都绕不开它——Agent得先"看懂"画面,才知道该"做什么"。小是因为,到目前为止,大多数所谓"视觉Agent"本质上还是在做模式匹配:输入一张图片,输出一个动作,中间的"理解"过程基本靠模型在训练数据里见过的类似场景来蒙。

上海交大这篇 MMSkills(Towards Multimodal Skills for General Visual Agents)想解决的问题正好戳在这个痛处。

什么是"多模态技能"

论文的核心观点很直接:一个真正通用的视觉Agent,不应该只会"看图出动作"。它应该掌握"技能"——一种可以跨任务迁移、跨场景复用的多模态能力单元。

这里的关键是"技能"和"动作"的区别。

"动作"是原子级的:点击、拖动、抓取、移动。"技能"是结构化的:它会组合多个动作,会根据视觉反馈调整策略,会在不同情境下做出不同选择。比如"打开一个应用"是一个技能——它可能包含"找到图标→点击→等待加载→确认窗口出现"这一系列动作,但Agent执行时不需要每次都重新学习这套流程。

MMSkills 的设计就是让 Agent 学习这种结构化的多模态技能,而不是孤立的动作-观察对。

方法论:让Agent像人一样学技能

论文的方法论有几个值得注意的设计:

技能表示。MMSkills 把技能编码为多模态的表示——同时包含视觉信息和动作序列信息。这意味着Agent在学习一个技能时,不是只记住"看到A就做B",而是理解"在什么视觉条件下,执行什么动作序列,能达到什么效果"。

技能组合。学会的技能可以组合使用。这类似于人类学习:你先学会"开门",再学会"开灯",然后你就能完成"进入房间并开灯"这个复合任务,而不需要从头学习。

跨任务泛化。这是MMSkills想要证明的核心能力——学到的技能能不能用到训练时没见过的任务上。

与现有方案的差异

当前视觉Agent训练的主流方案大致分两类:

一类是端到端训练,比如 RT-2、VLA 系列模型,直接把图像映射为动作。这类方案的优势是简单,但缺点是缺乏可解释性,而且学到的能力很难迁移到新任务。

另一类是基于规划的方案,先用大模型做高层决策,再调用底层控制器执行。这类方案灵活但依赖大模型的视觉理解能力,而这恰恰是目前大模型的短板——它们在语言任务上表现惊人,但在精细视觉理解上仍然力不从心。

MMSkills 走的是第三条路:在中间层引入"技能"这个抽象。它不追求端到端的简洁,也不依赖大模型的泛化能力,而是通过系统性地学习和组合技能,来构建Agent的能力基座。

实验与效果

论文在多个视觉操作基准上进行了评估。结果显示,MMSkills 在跨任务泛化方面表现突出——在训练时没有见过的任务上,它的表现显著优于端到端方案和基于大模型的方案。

这验证了论文的核心假设:结构化的技能学习比单纯的模式匹配更能带来泛化能力。

我的判断

MMSkills 的方向是对的。视觉Agent要实现真正的通用性,不可能靠"更多数据+更大模型"的暴力路径来解决。它需要结构化的知识表示和可组合的能力单元——这正是"技能"这个抽象提供的。

不过,论文目前展示的还主要是学术基准上的结果。从学术基准到真实世界的应用,中间隔着巨大的鸿沟。真实场景中的视觉输入远比论文中的数据复杂,技能的定义和边界也没有基准任务那么清晰。

但方向是对的。当Agent不再只是"看到什么做什么",而是真正掌握了可复用、可组合的技能时,通用视觉智能才算是迈出了实质性的一步。


主要来源: