C
ChaoBro

SANA-WM: 2,6 млрд параметров, обучение на 64 GPU H100 в течение 15 дней — NVIDIA реализовала модель мира минутного масштаба с развертыванием на одной видеокарте

«Гонка эффективности» моделей мира

Модель мира (World Model) — одно из самых перспективных направлений в области ИИ: это модель, способная понимать физические законы окружающего мира и генерировать будущие кадры видео на основе заданных действий.

Однако ранее модели мира страдали от двух ключевых проблем: масштаба и стоимости. Их количество параметров исчислялось десятками миллиардов, обучение требовало нескольких тысяч GPU в течение недель или даже месяцев, а для вывода (inference) требовалось одновременное использование нескольких топовых графических процессоров.

Подход SANA-WM заключается в следующем: мы можем создать модель, которая будет значительно меньше, быстрее и дешевле — при этом не уступая по качеству.

2,6 млрд параметров — уровень промышленных крупных моделей

SANA-WM содержит всего 2,6 млрд параметров. Для сравнения: промышленные эталонные модели, такие как LingBot-World и HY-WorldPlay, обычно имеют в несколько раз больше параметров.

Тем не менее в статье утверждается, что SANA-WM достигает уровня визуального качества, сопоставимого с этими крупными моделями — весьма смелое заявление.

Ключевые показатели:

  • Генерация видео разрешением 720p и продолжительностью одна минута
  • Точное управление камерой (отслеживание траектории с шестью степенями свободы — 6-DoF)
  • Эффективность обучения: всего ~213 тыс. общедоступных видеороликов, обучение на 64 GPU H100 в течение 15 дней
  • Эффективность вывода: генерация 60-секундного видео на одном GPU; версия с дистилляцией и квантованием NVFP4 выполняет денойзинг на одной видеокарте RTX 5090 за 34 секунды

Четыре ключевых архитектурных решения

Гибридное линейное внимание (Hybrid Linear Attention)

Это основа высокой вычислительной эффективности. В SANA-WM объединены межкадровая сеть Gated DeltaNet (GDN) и softmax-внимание, что позволяет сохранить способность моделировать длинные временные зависимости при значительном снижении потребления памяти.

Простыми словами: GDN обрабатывает временную зависимость между кадрами (экономя память), а softmax-внимание отвечает за пространственные детали внутри каждого кадра (обеспечивая высокую точность). Эти два механизма дополняют друг друга.

Двухветвевое управление камерой

Обеспечивает строгое соответствие сгенерированного видео заданной входной траектории камеры с 6 степенями свободы. Одна ветвь отвечает за пространственную локализацию, другая — за временную гладкость; их совместная работа гарантирует стабильность и физическую корректность движения камеры.

Двухэтапный конвейер генерации

На первом этапе генерируется базовая последовательность видео, а на втором этапе специальный модуль long-video refiner уточняет результат первого этапа. Такой подход аналогичен «черновик–финальная доработка» в генерации изображений, однако его реализация для видео гораздо сложнее — здесь требуется дополнительная гарантия временной согласованности кадров.

Устойчивый конвейер аннотирования

Извлечение точных метрических 6-DoF-поз камеры из общедоступных видео для использования в качестве меток действий. Качество этого этапа напрямую определяет точность физических закономерностей, усваиваемых моделью.

Значение открытости

Открытый релиз SANA-WM представляет собой важнейший импульс для сообщества исследователей моделей мира. До этого высококачественные модели мира практически полностью оставались закрытыми, и научное сообщество могло оценивать их возможности лишь по публикациям и демонстрационным роликам.

Сейчас же исследователи-одиночки и небольшие команды получили доступ к открытой модели мира с 2,6 млрд параметров, которую можно развернуть даже на потребительских GPU (например, RTX 5090) — и проводить собственные эксперименты и разработки в этой области.

Потенциальные применения

Модели мира минутного масштаба открывают широкие перспективы в следующих областях:

  • Генерация динамических сцен в играх и виртуальных средах
  • Симуляция автономного вождения (генерация дорожных сцен под разными углами обзора камеры и различными действиями)
  • Предварительная визуализация (pre-visualization) в кинопроизводстве
  • Создание сред обучения для эмбодимент-интеллекта (embodied intelligence)

Основные источники: