«Гонка эффективности» моделей мира
Модель мира (World Model) — одно из самых перспективных направлений в области ИИ: это модель, способная понимать физические законы окружающего мира и генерировать будущие кадры видео на основе заданных действий.
Однако ранее модели мира страдали от двух ключевых проблем: масштаба и стоимости. Их количество параметров исчислялось десятками миллиардов, обучение требовало нескольких тысяч GPU в течение недель или даже месяцев, а для вывода (inference) требовалось одновременное использование нескольких топовых графических процессоров.
Подход SANA-WM заключается в следующем: мы можем создать модель, которая будет значительно меньше, быстрее и дешевле — при этом не уступая по качеству.
2,6 млрд параметров — уровень промышленных крупных моделей
SANA-WM содержит всего 2,6 млрд параметров. Для сравнения: промышленные эталонные модели, такие как LingBot-World и HY-WorldPlay, обычно имеют в несколько раз больше параметров.
Тем не менее в статье утверждается, что SANA-WM достигает уровня визуального качества, сопоставимого с этими крупными моделями — весьма смелое заявление.
Ключевые показатели:
- Генерация видео разрешением 720p и продолжительностью одна минута
- Точное управление камерой (отслеживание траектории с шестью степенями свободы — 6-DoF)
- Эффективность обучения: всего ~213 тыс. общедоступных видеороликов, обучение на 64 GPU H100 в течение 15 дней
- Эффективность вывода: генерация 60-секундного видео на одном GPU; версия с дистилляцией и квантованием NVFP4 выполняет денойзинг на одной видеокарте RTX 5090 за 34 секунды
Четыре ключевых архитектурных решения
Гибридное линейное внимание (Hybrid Linear Attention)
Это основа высокой вычислительной эффективности. В SANA-WM объединены межкадровая сеть Gated DeltaNet (GDN) и softmax-внимание, что позволяет сохранить способность моделировать длинные временные зависимости при значительном снижении потребления памяти.
Простыми словами: GDN обрабатывает временную зависимость между кадрами (экономя память), а softmax-внимание отвечает за пространственные детали внутри каждого кадра (обеспечивая высокую точность). Эти два механизма дополняют друг друга.
Двухветвевое управление камерой
Обеспечивает строгое соответствие сгенерированного видео заданной входной траектории камеры с 6 степенями свободы. Одна ветвь отвечает за пространственную локализацию, другая — за временную гладкость; их совместная работа гарантирует стабильность и физическую корректность движения камеры.
Двухэтапный конвейер генерации
На первом этапе генерируется базовая последовательность видео, а на втором этапе специальный модуль long-video refiner уточняет результат первого этапа. Такой подход аналогичен «черновик–финальная доработка» в генерации изображений, однако его реализация для видео гораздо сложнее — здесь требуется дополнительная гарантия временной согласованности кадров.
Устойчивый конвейер аннотирования
Извлечение точных метрических 6-DoF-поз камеры из общедоступных видео для использования в качестве меток действий. Качество этого этапа напрямую определяет точность физических закономерностей, усваиваемых моделью.
Значение открытости
Открытый релиз SANA-WM представляет собой важнейший импульс для сообщества исследователей моделей мира. До этого высококачественные модели мира практически полностью оставались закрытыми, и научное сообщество могло оценивать их возможности лишь по публикациям и демонстрационным роликам.
Сейчас же исследователи-одиночки и небольшие команды получили доступ к открытой модели мира с 2,6 млрд параметров, которую можно развернуть даже на потребительских GPU (например, RTX 5090) — и проводить собственные эксперименты и разработки в этой области.
Потенциальные применения
Модели мира минутного масштаба открывают широкие перспективы в следующих областях:
- Генерация динамических сцен в играх и виртуальных средах
- Симуляция автономного вождения (генерация дорожных сцен под разными углами обзора камеры и различными действиями)
- Предварительная визуализация (pre-visualization) в кинопроизводстве
- Создание сред обучения для эмбодимент-интеллекта (embodied intelligence)
Основные источники:
- arXiv:2605.15178 SANA-WM
- Haoyi Zhu, Haozhe Liu, Yuyang Zhao, Tian Ye, Junsong Chen, Jincheng Yu, Tong He, Song Han, Enze Xie
- NVIDIA
- Страница проекта