Старая проблема генерации видео: диффузионные модели дают качество, но медленные; авторегрессионные модели быстрые, но жертвуют качеством. Кажется, между ними всегда стоит стена.
Causal Forcing++ группы ML Tsinghua стремится эту стену разрушить — сделать диффузионные модели способными к интерактивной генерации видео в реальном времени.
Ключевая идея
Диффузионная дистилляция — не новая концепция. Ранние работы вроде SDXL Turbo и LCM уже доказали: 50-шаговый диффузионный процесс можно дистиллировать в 1-4 шага. Но генерация видео намного сложнее генерации изображений — каждый кадр должен не только выглядеть хорошо сам по себе, но и сохранять временную когерентность с соседними кадрами.
Ключ Causal Forcing++ — в «causal forcing». В генерации видео каждый кадр зависит от предыдущих — позиция персонажа в кадре 30 определяется кадром 29, тот — кадром 28. Это причинно-следственная цепочка.
Сложность дистилляции: учитель генерирует медленно за 50 шагов, ученик — быстро за 4 шага. Их промежуточные hidden-состояния совершенно не совпадают. Традиционные методы дистилляции матчат только финальный вывод, игнорируя причинную структуру промежуточных шагов.
Causal Forcing++ принуждает ученика сохранять те же причинные зависимости, что и учитель, даже при быстрой генерации.
Моя оценка
Направление верное. Для того чтобы генерация видео действительно вошла в рабочие процессы, задержку нужно снизить до секунд. Если Causal Forcing++ найдёт приемлемый баланс между качеством и скоростью, это может стать стандартным компонентом в пайплайнах генерации видео.
Основные источники:
- Hugging Face Daily Papers (2026-05-15)
- Группа ML Tsinghua (thu-ml)