CogOmniControl: превращение «понимания творческого замысла» в движок рассуждений для генерации видео

Область генерации видео переживает тонкий, но важный поворот: от задачи «создать визуально правдоподобное видео» к задаче «создать именно то видео, которое хочет пользователь». Разрыв между этими двумя целями оказывается значительно больше, чем может показаться на первый взгляд.

Статья CogOmniControl принадлежит исследовательской группе Цзяньбин Шэнь из Пекинского технологического института. В ней выбран очень конкретный фокус — контролируемая генерация видео, то есть не просто генерация произвольного видеоролика, а строго целенаправленная генерация в соответствии с творческим замыслом пользователя.

Основная идея: разделение «думать» и «рисовать»

Философия проектирования CogOmniControl проста, но эффективна: контролируемая генерация видео разбивается на два этапа — когнитивное понимание творческого замысла (CogVLM) + генерация видео (CogOmniDiT).

Это звучит как общеизвестный принцип, однако большинство современных моделей генерации видео либо внедряют условные сигналы через адаптеры, либо интегрируют универсальную визуально-языковую модель (VLM) непосредственно в основу диффузионной архитектуры. В результате возникает систематический разрыв между точностью управления условиями и качеством генерации.

CogVLM: визуальная модель, понимающая «язык творчества»

Ключевым нововведением является выбор обучающих данных для CogVLM — реальные данные профессионального анимационного производства, а не общие пары «изображение–текст».

Почему именно анимация? Потому что в процессе создания анимации естественным образом происходит масса преобразований «абстрактное условие → конкретное изображение»: раскадровки-черновики, рендеринг в стиле пластилина, концепт-арты — всё это примеры разреженных и абстрактных творческих условий. VLM, обученная на таких данных, способна профессионально и чётко интерпретировать творческий замысел пользователя, преобразуя разреженные подсказки в плотные, логически обоснованные выводы.

CogOmniDiT: унифицированное управление множеством условий в контексте

На этапе генерации используется CogOmniDiT, которая обеспечивает генерацию в контексте (in-context generation) для унифицированной обработки управляющих сигналов, поступающих из различных источников условий, и одновременно согласует свои выходные данные с выводами CogVLM с помощью обучения с подкреплением (reinforcement learning, RL).

Замкнутая архитектура

Ещё более интересным является тот факт, что CogOmniControl реализует всю систему как замкнутую архитектуру типа «harness»:

CogVLM интерпретирует творческий замысел пользователя;
CogOmniDiT генерирует видео;
CogVLM одновременно выступает в роли оценщика, формируя специфические критерии оценки;
Выполняется выбор наилучшего результата из N вариантов (Best-of-N).

Такая архитектура позволяет модели не только генерировать видео, но и самостоятельно оценивать результаты и совершенствоваться.

Два новых бенчмарка

В статье также представлены два новых бенчмарка — CogReasonBench и CogControlBench, построенные на основе реальных рабочих процессов анимационного производства и содержащие подлинные творческие замыслы, а не искусственно смоделированные намерения. На обоих этих бенчмарках CogOmniControl превосходит все существующие открытые модели.

Ссылка на статью: arXiv:2605.19995

Основная идея: разделение «думать» и «рисовать»

CogVLM: визуальная модель, понимающая «язык творчества»

CogOmniDiT: унифицированное управление множеством условий в контексте

Замкнутая архитектура

Два новых бенчмарка

Похожие материалы

APWA: Распределённая архитектура для истинной параллелизации мультиагентных систем

Dual-Dimensional Consistency: новый метод, позволяющий сократить расход токенов при масштабировании во время вывода в 10 раз

MemEye: Визуально-ориентированная платформа оценки памяти мультимодальных агентов