Causal Forcing++: группа ML Tsinghua — генерация видео в реальном времени через дистилляцию за несколько шагов

Старая проблема генерации видео: диффузионные модели дают качество, но медленные; авторегрессионные модели быстрые, но жертвуют качеством. Кажется, между ними всегда стоит стена.

Causal Forcing++ группы ML Tsinghua стремится эту стену разрушить — сделать диффузионные модели способными к интерактивной генерации видео в реальном времени.

Ключевая идея

Диффузионная дистилляция — не новая концепция. Ранние работы вроде SDXL Turbo и LCM уже доказали: 50-шаговый диффузионный процесс можно дистиллировать в 1-4 шага. Но генерация видео намного сложнее генерации изображений — каждый кадр должен не только выглядеть хорошо сам по себе, но и сохранять временную когерентность с соседними кадрами.

Ключ Causal Forcing++ — в «causal forcing». В генерации видео каждый кадр зависит от предыдущих — позиция персонажа в кадре 30 определяется кадром 29, тот — кадром 28. Это причинно-следственная цепочка.

Сложность дистилляции: учитель генерирует медленно за 50 шагов, ученик — быстро за 4 шага. Их промежуточные hidden-состояния совершенно не совпадают. Традиционные методы дистилляции матчат только финальный вывод, игнорируя причинную структуру промежуточных шагов.

Causal Forcing++ принуждает ученика сохранять те же причинные зависимости, что и учитель, даже при быстрой генерации.

Моя оценка

Направление верное. Для того чтобы генерация видео действительно вошла в рабочие процессы, задержку нужно снизить до секунд. Если Causal Forcing++ найдёт приемлемый баланс между качеством и скоростью, это может стать стандартным компонентом в пайплайнах генерации видео.

Основные источники:

Hugging Face Daily Papers (2026-05-15)
Группа ML Tsinghua (thu-ml)

Ключевая идея

Моя оценка

Похожие материалы

ACC: Компиляция траекторий агентов в длинные контекстные QA-пары

Кредитное распределение в RLVR заново: DelTA предлагает взгляд дискриминатора на токеновые вознаграждения

Понимают ли MLLM людей? MM-OCEAN обнаруживает: 51% «правильных оценок» — это угадывание