WorldActionModels：具身 AI 的下一个范式，让机器人不仅会行动，还能预测世界如何变化

机器人学里有一个老问题：你教机器人做一件事，它学会了。但你换一个场景、换一件物品、换一种光照，它就不会了。

这就是 Vision-Language-Action（VLA）模型面临的困境。VLA 模型在语义泛化上已经做得不错——它能理解"把红色杯子放到桌子左边"这种自然语言指令，并转化为动作。但它本质上学的是一种反应式映射：看到什么画面，就做什么动作。它不关心"如果我这么做，世界会变成什么样"。

OpenMOSS 团队的新综述把正在兴起的解决方案命名为一个统一的范式：WorldActionModels（WAMs）。

从"看到就做"到"先想再做"

WAMs 的核心思想并不复杂：把世界模型（预测环境动态变化的模型）整合进动作生成的流程中。

现有的 VLA 模型学的是 P(动作 | 观察, 指令)——给定当前观察和指令，输出动作。WAMs 学的是 P(未来状态, 动作 | 当前状态, 指令)——不仅输出动作，还预测动作执行后世界会变成什么样。

这多出来的"预测"能力，让机器人有了某种形式的"想象力"。它可以在执行动作之前，先在内部模拟一下"如果我伸手抓这个杯子，杯子会怎么移动，我的手会到达什么位置，会不会碰到旁边的东西"。

综述把现有的 WAMs 方法分成了两大类：

级联式（Cascaded WAMs）。 先用一个世界模型预测未来状态，再用一个策略模型基于预测状态生成动作。两个模块是独立的，可以分别训练。好处是模块化清晰、便于调试；坏处是误差会累积——世界模型预测得不准，策略模型就会跟着犯错。

联合式（Joint WAMs）。 世界模型和策略模型共享表示、联合训练，目标是未来状态和动作的联合分布。好处是两个模块可以互相纠正；坏处是训练更复杂、计算成本更高。

综述进一步按照生成模态（生成图像还是生成特征）、条件机制（基于文本条件还是基于视觉条件）、动作解码策略（直接输出还是自回归生成）做了更细的分类。

WAMs 的发展严重依赖数据，综述系统梳理了四类数据来源：

有趣的是，综述提到了一些方法正在尝试用"潜动作"（latent action）来桥接这些数据源之间的鸿沟——从视频中学习隐式的动作表示，而不需要精确的关节角度标注。

WAMs 的评估协议也在逐渐成型，综述归纳了三个核心维度：

这三个维度分别对应世界模型的"看得准不准"、"想得对不对"和策略模型的"做得好不好"。

WAMs 不是一个新发明，但它确实到了一个需要被"正名"的阶段。过去两年，Google 的 RT 系列、Figure AI 的 Figure 01、还有各家机器人公司的方案，都在往"VLA + 世界模型"这个方向走，但各自用各自的术语、各自的架构。

OpenMOSS 这篇综述的意义在于：它给了这个正在形成的范式一个统一的名称和分类体系。对于刚进入这个领域的研究者来说，这能省去大量的文献梳理时间；对于已经在做的人来说，这提供了一个定位自己工作的坐标系。

具身 AI 正在从"模仿学习"走向"理解-预测-行动"的闭环。WAMs 是这个转变中的一个关键节点。