ロボティクスにおける長年の課題がある。あるタスクをロボットに教え込むと、それはできるようになる。しかし、場所を変え、対象物を変え、照明条件を変えるだけで、途端にできなくなってしまうのだ。
これこそが Vision-Language-Action(VLA)モデルが直面しているジレンマである。VLA モデルは意味的な汎化性能においてすでに優れた成果を上げている。「赤いカップをテーブルの左に置いて」といった自然言語の指示を理解し、動作に変換できる。しかし、本質的に学習しているのはリアクティブなマッピングに過ぎない。ある視覚情報を入力すれば、それに対応する動作を出力するだけだ。「もし自分がこう行動したら、世界はどう変化するか?」という点には関心を持たない。
OpenMOSS チームによる最新のレビュー論文は、台頭しつつあるこの解決策に統一された名前を与え、一つのパラダイムとして定義した。それが**WorldActionModels(WAMs)**である。
「見て即実行」から「考えてから実行」へ
WAMs の核心となるアイデアはそれほど複雑ではない。環境の動的変化を予測する「世界モデル」を、動作生成のプロセスに統合するというものだ。
既存の VLA モデルが学習するのは P(動作 | 観測, 指示) である。現在の観測と指示が与えられた条件下で、動作を出力する。対して WAMs が学習するのは P(未来状態, 動作 | 現在状態, 指示) だ。動作を出力するだけでなく、その動作を実行した後に世界がどのように変化するかを同時に予測する。
この追加された「予測」能力により、ロボットはある種の「想像力」を備えることになる。実際に動作を実行する前に、内部でシミュレーションを行えるのだ。「もしこのカップに手を伸ばしたら、カップはどう動くか。手はどこに到達するか。隣のものにぶつからないか」を事前に検証できる。
二つのアーキテクチャアプローチ
本レビューでは、既存の WAMs 手法を主に二つのカテゴリーに分類している。
カスケード型(Cascaded WAMs)。 まず世界モデルで未来の状態を予測し、その後、予測された状態に基づいてポリシー(方策)モデルが動作を生成する。両モジュールは独立しており、個別に訓練可能だ。モジュール化が明確でデバッグが容易という利点がある一方、誤差が累積しやすいという欠点もある。世界モデルの予測が不正確だと、ポリシーモデルも連鎖して誤りを犯すことになる。
ジョイント型(Joint WAMs)。 世界モデルとポリシーモデルが表現を共有し、共同で訓練される。目標は未来状態と動作の結合分布を学習することだ。両モジュールが互いに誤りを補正し合うことができるという利点がある反面、訓練がより複雑で計算コストが高くなるという欠点もある。
レビューではさらに、生成モーダリティ(画像生成か特徴量生成か)、条件付けメカニズム(テキスト条件ベースか視覚条件ベースか)、動作デコード戦略(直接出力か自己回帰型生成か)に基づき、より詳細な分類を行っている。
データエコシステム:テレオペレーションからインターネット動画へ
WAMs の発展はデータへの依存度が極めて高い。レビューでは、以下の4種類のデータソースを体系的に整理している。
- ロボットテレオペレーションデータ:人間がロボットを遠隔操作し、動作と状態変化を記録するもの。品質は高いが、規模は小さい。
- ポータブルな人間のデモデータ:VR ヘッドセットや手袋を用いて人間の操作を記録し、ロボットへ転移させるもの。スケーラビリティに優れる。
- シミュレーションデータ:Isaac Sim や MuJoCo などのシミュレータ内で生成されるもの。大規模化が可能だが、シミュレーションと現実のギャップ(Sim-to-Real)は長年の課題である。
- インターネット規模のエゴセントリック動画:YouTube などのプラットフォームから人間の一人称視点動画を収集するもの。規模は最大級だが、正確な動作ラベル付けが欠如している。
興味深いことに、レビューではこれらのデータソース間の溝を埋めるため、「潜在動作(latent action)」を活用する手法がいくつか言及されている。これは、正確な関節角度のラベル付けを必要とせず、動画から暗黙的な動作表現を学習するというアプローチだ。
評価:三つの次元
WAMs の評価プロトコルも徐々に確立されつつあり、レビューでは以下の3つの核心次元がまとめられている。
- 視覚的忠実度:予測された未来の映像が、実際の映像にどれだけ近いか
- 物理的常識性:予測が物理法則に従っているか(例:物体がめり込まない、重力の向きが正しいなど)
- 動作の妥当性:生成された動作が目標タスクにおいて有効かどうか
これら3つの次元は、それぞれ世界モデルの「正しく見えているか」「正しく推論できているか」、そしてポリシーモデルの「適切に実行できているか」に対応している。
なぜこのレビューが今、必要とされるのか
WAMs は全く新しい発明ではないが、今まさに「正統な名前」を与えて体系化する段階に来ている。過去2年間、Google の RT シリーズ、Figure AI の Figure 01、さらには各ロボット企業のソリューションはいずれも「VLA + 世界モデル」の方向へ進んでいる。しかし、各社が独自の用語やアーキテクチャを使用しているのが実情だ。
OpenMOSS による本レビューの意義は、形成途中のこのパラダイムに統一された名称と分類体系を与えた点にある。この分野に新たに参加する研究者にとって、文献調査に費やす膨大な時間を省くことができる。すでに研究を進めている者にとっては、自身の研究を位置づけるための座標軸を提供するものだ。
エンボディッド AI は現在、「模倣学習」から「理解・予測・行動」というクローズドループへと移行しつつある。WAMs はこの変遷における重要なターニングポイントである。
HuggingFace 論文ページ:WorldActionModels on HF Papers