机器人学里有一个老问题:你教机器人做一件事,它学会了。但你换一个场景、换一件物品、换一种光照,它就不会了。
这就是 Vision-Language-Action(VLA)模型面临的困境。VLA 模型在语义泛化上已经做得不错——它能理解"把红色杯子放到桌子左边"这种自然语言指令,并转化为动作。但它本质上学的是一种反应式映射:看到什么画面,就做什么动作。它不关心"如果我这么做,世界会变成什么样"。
OpenMOSS 团队的新综述把正在兴起的解决方案命名为一个统一的范式:WorldActionModels(WAMs)。
从"看到就做"到"先想再做"
WAMs 的核心思想并不复杂:把世界模型(预测环境动态变化的模型)整合进动作生成的流程中。
现有的 VLA 模型学的是 P(动作 | 观察, 指令)——给定当前观察和指令,输出动作。WAMs 学的是 P(未来状态, 动作 | 当前状态, 指令)——不仅输出动作,还预测动作执行后世界会变成什么样。
这多出来的"预测"能力,让机器人有了某种形式的"想象力"。它可以在执行动作之前,先在内部模拟一下"如果我伸手抓这个杯子,杯子会怎么移动,我的手会到达什么位置,会不会碰到旁边的东西"。
两种架构路线
综述把现有的 WAMs 方法分成了两大类:
级联式(Cascaded WAMs)。 先用一个世界模型预测未来状态,再用一个策略模型基于预测状态生成动作。两个模块是独立的,可以分别训练。好处是模块化清晰、便于调试;坏处是误差会累积——世界模型预测得不准,策略模型就会跟着犯错。
联合式(Joint WAMs)。 世界模型和策略模型共享表示、联合训练,目标是未来状态和动作的联合分布。好处是两个模块可以互相纠正;坏处是训练更复杂、计算成本更高。
综述进一步按照生成模态(生成图像还是生成特征)、条件机制(基于文本条件还是基于视觉条件)、动作解码策略(直接输出还是自回归生成)做了更细的分类。
数据生态:从遥操作到互联网视频
WAMs 的发展严重依赖数据,综述系统梳理了四类数据来源:
- 机器人遥操作数据:人类遥控机器人操作,记录动作和状态变化。质量高但规模小。
- 便携式人类演示:用 VR 头显或手套记录人类操作,再迁移到机器人。可扩展性更好。
- 仿真数据:在 Isaac Sim、MuJoCo 等模拟器中生成。规模可以很大,但仿真到现实的 gap 是永恒难题。
- 互联网规模的自我中心视频:从 YouTube 等平台采集人类第一视角视频。规模最大,但缺乏精确的动作标注。
有趣的是,综述提到了一些方法正在尝试用"潜动作"(latent action)来桥接这些数据源之间的鸿沟——从视频中学习隐式的动作表示,而不需要精确的关节角度标注。
评估:三个维度
WAMs 的评估协议也在逐渐成型,综述归纳了三个核心维度:
- 视觉保真度:预测的未来画面有多接近真实画面
- 物理常识:预测是否符合物理规律(比如物体不会穿模、重力方向正确)
- 动作合理性:生成的动作在目标任务中是否有效
这三个维度分别对应世界模型的"看得准不准"、"想得对不对"和策略模型的"做得好不好"。
为什么这个综述来得正是时候
WAMs 不是一个新发明,但它确实到了一个需要被"正名"的阶段。过去两年,Google 的 RT 系列、Figure AI 的 Figure 01、还有各家机器人公司的方案,都在往"VLA + 世界模型"这个方向走,但各自用各自的术语、各自的架构。
OpenMOSS 这篇综述的意义在于:它给了这个正在形成的范式一个统一的名称和分类体系。对于刚进入这个领域的研究者来说,这能省去大量的文献梳理时间;对于已经在做的人来说,这提供了一个定位自己工作的坐标系。
具身 AI 正在从"模仿学习"走向"理解-预测-行动"的闭环。WAMs 是这个转变中的一个关键节点。
HuggingFace 论文页:WorldActionModels on HF Papers