В робототехнике есть старая проблема: вы учите робота выполнять одно действие, и он осваивает его. Но стоит изменить обстановку, предмет или освещение, как он перестает справляться.
Именно в этом заключается трудность моделей Vision-Language-Action (VLA). Модели VLA уже неплохо справляются с семантическим обобщением — они способны понимать такие команды на естественном языке, как «поставь красную кружку слева на столе», и переводить их в действия. Однако по своей сути они обучаются реактивному отображению: что видит, то и делает. Их не волнует вопрос: «Что произойдет с миром, если я сделаю это?»
Новый обзор от команды OpenMOSS объединяет возникающие решения под единой парадигмой: WorldActionModels (WAMs).
От «увидел — сделал» к «подумал — сделал»
Основная идея WAMs не так уж сложна: интеграция мировой модели (модели, предсказывающей динамику изменений в окружающей среде) в процесс генерации действий.
Существующие модели VLA изучают распределение P(действие | наблюдение, команда) — при заданных текущем наблюдении и команде выводят действие. WAMs же изучают P(будущее состояние, действие | текущее состояние, команда) — они не только выдают действие, но и предсказывают, как изменится мир после его выполнения.
Эта дополнительная способность к «предсказанию» наделяет роботов неким подобием «воображения». Прежде чем выполнить действие, робот может внутренне смоделировать сценарий: «Если я протяну руку, чтобы схватить эту кружку, как она сместится, куда переместится моя рука и не задену ли я что-то рядом».
Два архитектурных подхода
В обзоре существующие методы WAMs разделены на две основные категории:
Каскадные (Cascaded WAMs). Сначала мировая модель предсказывает будущее состояние, затем модель стратегии генерирует действие на основе этого прогноза. Два модуля независимы и могут обучаться раздельно. Преимущество: четкая модульность и удобство отладки. Недостаток: накопление ошибок — если мировая модель предсказывает неточно, модель стратегии тоже ошибется.
Совместные (Joint WAMs). Мировая модель и модель стратегии используют общие представления и обучаются совместно, стремясь к совместному распределению будущих состояний и действий. Преимущество: модули могут взаимно корректировать друг друга. Недостаток: более сложное обучение и высокие вычислительные затраты.
Обзор также предлагает более детальную классификацию по модальности генерации (изображения или признаки), механизму обусловливания (текстовые или визуальные условия) и стратегии декодирования действий (прямой вывод или авторегрессивная генерация).
Экосистема данных: от телеуправления до интернет-видео
Развитие WAMs сильно зависит от данных, и в обзоре систематизированы четыре основных источника:
- Данные телеуправления роботами: человек дистанционно управляет роботом, записываются действия и изменения состояния. Высокое качество, но небольшой масштаб.
- Портативные демонстрации человека: операции человека записываются с помощью VR-гарнитуры или перчаток, а затем переносятся на робота. Лучшая масштабируемость.
- Данные симуляции: генерируются в симуляторах, таких как Isaac Sim, MuJoCo. Масштаб может быть огромным, но разрыв между симуляцией и реальностью (sim-to-real gap) остается вечной проблемой.
- Видео от первого лица интернет-масштаба: сбор видеозаписей с точки зрения человека с платформ вроде YouTube. Наибольший масштаб, но отсутствие точной разметки действий.
Интересно, что в обзоре упоминаются методы, пытающиеся преодолеть разрыв между этими источниками данных с помощью «латентных действий» (latent action) — изучение неявных представлений действий из видео без необходимости точной разметки углов суставов.
Оценка: три измерения
Протоколы оценки WAMs также постепенно формируются, и в обзоре выделены три ключевых измерения:
- Визуальная точность: насколько предсказанное будущее изображение соответствует реальному.
- Физическая осмысленность: соответствует ли прогноз законам физики (например, объекты не проникают сквозь друг друга, направление гравитации верно).
- Целесообразность действий: насколько сгенерированные действия эффективны для целевой задачи.
Эти три измерения соответственно отвечают на вопросы: насколько точно мировая модель «видит», насколько правильно она «мыслит» и насколько хорошо модель стратегии «действует».
Почему этот обзор появился именно вовремя
WAMs — это не новое изобретение, но эта область действительно достигла стадии, когда требуется формализация и унификация терминологии. За последние два года серии Google RT, Figure 01 от Figure AI и решения различных робототехнических компаний двигались в направлении «VLA + мировая модель», но каждая использовала свои собственные термины и архитектуры.
Значение этого обзора от OpenMOSS заключается в том, что: он предоставляет формирующейся парадигме единое название и систему классификации. Для исследователей, только вступающих в эту область, это сэкономит массу времени на изучение литературы; для тех, кто уже работает в ней, это служит системой координат для позиционирования собственных исследований.
Воплощённый ИИ переходит от «обучения подражанию» к замкнутому циклу «понимание — предсказание — действие». WAMs являются ключевой вехой в этой трансформации.
Страница с работами на HuggingFace: WorldActionModels on HF Papers