WorldActionModels: следующая парадигма воплощённого ИИ, позволяющая роботам не только действовать, но и предсказывать изменения в мире

В робототехнике есть старая проблема: вы учите робота выполнять одно действие, и он осваивает его. Но стоит изменить обстановку, предмет или освещение, как он перестает справляться.

Именно в этом заключается трудность моделей Vision-Language-Action (VLA). Модели VLA уже неплохо справляются с семантическим обобщением — они способны понимать такие команды на естественном языке, как «поставь красную кружку слева на столе», и переводить их в действия. Однако по своей сути они обучаются реактивному отображению: что видит, то и делает. Их не волнует вопрос: «Что произойдет с миром, если я сделаю это?»

Новый обзор от команды OpenMOSS объединяет возникающие решения под единой парадигмой: WorldActionModels (WAMs).

От «увидел — сделал» к «подумал — сделал»

Основная идея WAMs не так уж сложна: интеграция мировой модели (модели, предсказывающей динамику изменений в окружающей среде) в процесс генерации действий.

Существующие модели VLA изучают распределение P(действие | наблюдение, команда) — при заданных текущем наблюдении и команде выводят действие. WAMs же изучают P(будущее состояние, действие | текущее состояние, команда) — они не только выдают действие, но и предсказывают, как изменится мир после его выполнения.

Эта дополнительная способность к «предсказанию» наделяет роботов неким подобием «воображения». Прежде чем выполнить действие, робот может внутренне смоделировать сценарий: «Если я протяну руку, чтобы схватить эту кружку, как она сместится, куда переместится моя рука и не задену ли я что-то рядом».

Два архитектурных подхода

В обзоре существующие методы WAMs разделены на две основные категории:

Каскадные (Cascaded WAMs). Сначала мировая модель предсказывает будущее состояние, затем модель стратегии генерирует действие на основе этого прогноза. Два модуля независимы и могут обучаться раздельно. Преимущество: четкая модульность и удобство отладки. Недостаток: накопление ошибок — если мировая модель предсказывает неточно, модель стратегии тоже ошибется.

Совместные (Joint WAMs). Мировая модель и модель стратегии используют общие представления и обучаются совместно, стремясь к совместному распределению будущих состояний и действий. Преимущество: модули могут взаимно корректировать друг друга. Недостаток: более сложное обучение и высокие вычислительные затраты.

Обзор также предлагает более детальную классификацию по модальности генерации (изображения или признаки), механизму обусловливания (текстовые или визуальные условия) и стратегии декодирования действий (прямой вывод или авторегрессивная генерация).

Экосистема данных: от телеуправления до интернет-видео

Развитие WAMs сильно зависит от данных, и в обзоре систематизированы четыре основных источника:

Данные телеуправления роботами: человек дистанционно управляет роботом, записываются действия и изменения состояния. Высокое качество, но небольшой масштаб.
Портативные демонстрации человека: операции человека записываются с помощью VR-гарнитуры или перчаток, а затем переносятся на робота. Лучшая масштабируемость.
Данные симуляции: генерируются в симуляторах, таких как Isaac Sim, MuJoCo. Масштаб может быть огромным, но разрыв между симуляцией и реальностью (sim-to-real gap) остается вечной проблемой.
Видео от первого лица интернет-масштаба: сбор видеозаписей с точки зрения человека с платформ вроде YouTube. Наибольший масштаб, но отсутствие точной разметки действий.

Интересно, что в обзоре упоминаются методы, пытающиеся преодолеть разрыв между этими источниками данных с помощью «латентных действий» (latent action) — изучение неявных представлений действий из видео без необходимости точной разметки углов суставов.

Оценка: три измерения

Протоколы оценки WAMs также постепенно формируются, и в обзоре выделены три ключевых измерения:

Визуальная точность: насколько предсказанное будущее изображение соответствует реальному.
Физическая осмысленность: соответствует ли прогноз законам физики (например, объекты не проникают сквозь друг друга, направление гравитации верно).
Целесообразность действий: насколько сгенерированные действия эффективны для целевой задачи.

Эти три измерения соответственно отвечают на вопросы: насколько точно мировая модель «видит», насколько правильно она «мыслит» и насколько хорошо модель стратегии «действует».

Почему этот обзор появился именно вовремя

WAMs — это не новое изобретение, но эта область действительно достигла стадии, когда требуется формализация и унификация терминологии. За последние два года серии Google RT, Figure 01 от Figure AI и решения различных робототехнических компаний двигались в направлении «VLA + мировая модель», но каждая использовала свои собственные термины и архитектуры.

Значение этого обзора от OpenMOSS заключается в том, что: он предоставляет формирующейся парадигме единое название и систему классификации. Для исследователей, только вступающих в эту область, это сэкономит массу времени на изучение литературы; для тех, кто уже работает в ней, это служит системой координат для позиционирования собственных исследований.

Воплощённый ИИ переходит от «обучения подражанию» к замкнутому циклу «понимание — предсказание — действие». WAMs являются ключевой вехой в этой трансформации.

Страница с работами на HuggingFace: WorldActionModels on HF Papers

От «увидел — сделал» к «подумал — сделал»

Два архитектурных подхода

Экосистема данных: от телеуправления до интернет-видео

Оценка: три измерения

Почему этот обзор появился именно вовремя

Похожие материалы

Claude Code поддерживает Artifacts: кодовые агенты наконец начинают предоставлять «интерактивные страницы»

Claude Platform поддерживает Workload Identity Federation: эпоха API-ключей отодвинута ещё на шаг