C
ChaoBro

NVIDIA SANA-WM: открытая мировая модель с 2,6 млрд параметров для генерации видеороликов продолжительностью до одной минуты в разрешении 720p

В области генерации видео прозвучала ещё одна «бомба». Однако на этот раз её подбросила не какая-нибудь закрытая стартап-компания, а NVIDIA — и, что особенно важно, модель открыта.

SANA-WM — это мировая модель с 2,6 млрд параметров, способная генерировать управляемые видеоролики в разрешении 720p и длительностью до одной минуты на одном GPU, используя лишь одно входное изображение и траекторию движения камеры. На платформе Hacker News проект набрал 312 баллов и вызвал 128 обсуждений — редкий уровень интереса для темы генерации видео с помощью ИИ на главной странице HN.

Значение цифр

Рассмотрим несколько ключевых показателей:

  • 2,6 млрд параметров: по меркам моделей генерации видео такой объём считается «лёгким». Для сравнения: у некоторых промышленных видео-моделей количество параметров достигает 10 млрд и более
  • Обучение на 64 GPU H100 в течение 15 дней: затраты на обучение остаются в пределах разумного, в отличие от проектов, требующих кластеров из тысяч GPU
  • Инференс на одном GPU H100: для генерации одного минутного ролика в разрешении 720p достаточно одной видеокарты
  • 34 секунды на RTX 5090: после дистилляции и квантования в формате NVFP4 потребительская флагманская видеокарта выполняет денойзинг 60-секундного видео в разрешении 720p за 34 секунды

В совокупности эти цифры передают чёткое сообщение: генерация высококачественного видео переходит от «облачного монопольного решения» к «локальному исполнению».

Архитектурные инновации: гибридное линейное внимание

Ключевым фактором, позволившим SANA-WM достичь таких результатов, стала её архитектура.

Традиционные трансформеры используют полное softmax-внимание, при котором объём памяти и вычислительные затраты растут квадратично с увеличением длины последовательности. Для минутного видео (при частоте 30 кадров/с — это 1800 кадров) полное внимание неприменимо: в собственной статье NVIDIA прямо указывает, что подход с full-softmax приводит к исчерпанию памяти (OOM) уже при длительности 60 секунд.

Решение SANA-WM называется гибридным линейным вниманием (Hybrid Linear Attention): оно объединяет пошаговую архитектуру Gated DeltaNet и периодическое softmax-внимание. Gated DeltaNet эффективно поддерживает долгосрочное состояние, тогда как периодическое softmax-внимание обеспечивает точные вычисления внимания в критических моментов.

Результат этого сочетания: объём требуемой памяти растёт линейно с длиной последовательности, а не квадратично. Именно поэтому SANA-WM способна обрабатывать минутные видеоролики, в то время как другие решения исчерпывают видеопамять уже при нескольких секундах.

Точное управление камерой

Способность генерировать видео — ещё не всё. Ключевое преимущество SANA-WM — контролируемость.

Модель реализует двухветвевую систему управления камерой: одна ветвь — грубая, глобальная, отвечает за общее движение камеры; вторая — тонкая, геометрически выровненная по пикселям, обеспечивает локальную точность. В совокупности обе ветви позволяют точно отслеживать траекторию камеры в шести степенях свободы (6-DoF).

Проще говоря: если вы задаёте модели команду «камера перемещается слева направо, затем поднимается вверх», сгенерированное видео будет строго следовать этой траектории — без произвольных отклонений.

Двухэтапный процесс генерации

Процесс генерации SANA-WM состоит из двух этапов:

  1. Первый этап: основная модель с 2,6 млрд параметров генерирует базовое видео, гарантируя согласованность содержимого и точность управления камерой
  2. Второй этап: уточняющий модуль для длинных видео (17 млрд параметров) повышает детализацию выходного ролика первого этапа, улучшая текстуры, качество движения и временную согласованность

Подход «сначала сгенерировать, затем уточнить» широко распространён в области генерации изображений (например, SDXL), но в задачах генерации видео он пока применяется редко. SANA-WM успешно переносит его в сценарий длинных видеороликов — с заметным эффектом.

Что значит «открытый исходный код»?

Возможно, наибольшую ценность SANA-WM представляет не техническая спецификация, а её статус открытой модели.

На сегодняшний день доминирующие коммерческие продукты в области генерации видео — Runway, Pika, Luma, Kling — все они закрыты. Исследователям и небольшим командам не хватает качественных открытых базовых моделей для экспериментов в этой области.

SANA-WM заполняет этот пробел. Хотя веса модели пока помечены как «SOON» («скоро»), их публикация, скорее всего, станет отправной точкой для нового этапа развития сообщества, занимающегося открытой генерацией видео.

Конкурентный ландшафт

В статье приводятся сравнения с несколькими эталонными моделями: LingBot-World и HY-WorldPlay — промышленными базовыми решениями. SANA-WM демонстрирует сопоставимое качество визуального воспроизведения, но при этом обеспечивает в 36 раз более высокую пропускную способность.

Это сравнение заслуживает внимания. Оно показывает: в генерации видео объём параметров и вычислительные затраты не являются прямым показателем качества результата. Удачная архитектура позволяет достичь сопоставимого уровня качества на значительно меньшей модели.

Заключение

Публикация SANA-WM — знаковое событие в области открытого ИИ от NVIDIA. Она доказывает, что даже промышленные возможности генерации видео могут быть реализованы в лёгкой, открытой и локально исполняемой форме.

Для исследовательских команд, работающих в области генерации видео, появление SANA-WM снижает порог входа. Для разработчиков, желающих запускать генерацию видео локально, производительность — 34 секунды на RTX 5090 для генерации минутного ролика — уже вполне практична.

Эпоха открытых мировых моделей может наступить быстрее, чем мы предполагали.

Статья: arXiv | Страница проекта: nvlabs.github.io/Sana/WM