C
ChaoBro

CogOmniControl:把"创意意图理解"做成视频生成的推理引擎

CogOmniControl:把"创意意图理解"做成视频生成的推理引擎

视频生成领域正在经历一个微妙转向:从"生成看起来真实的视频"走向"生成用户想要的视频"。这两个目标之间的差距,比想象中大得多。

CogOmniControl 这篇论文来自北京理工大学 Jianbing Shen 团队,它选择了一个非常具体的切入点:可控视频生成——不是随便生成一段视频,而是按照用户的创意意图生成。

核心思路:拆分"想"和"画"

CogOmniControl 的设计哲学很简单但有效:把可控视频生成拆成两步——创意意图认知(CogVLM)+ 视频生成(CogOmniDiT)

这听起来像是常识,但大多数视频生成模型要么通过 adapter 注入条件,要么在扩散 backbone 里塞一个通用 VLM,结果就是条件控制和质量之间存在能力落差。

CogVLM:懂"创作语言"的视觉模型

关键创新在于 CogVLM 的训练数据——真实的动漫制作数据,而不是通用的图文对。

为什么选动漫?因为动漫制作流程天然涉及大量的"抽象条件→具体画面"转换:分镜草图、黏土渲染、概念稿……这些都是稀疏、抽象的创作条件。用这些数据训练的 VLM,能更专业、更清晰地理解用户的创意意图,把稀疏线索转化为密集的推理输出。

CogOmniDiT:in-context 统一多条件控制

生成端采用了 CogOmniDiT,通过 in-context generation 统一处理来自各种条件的控制信号,并通过强化学习与 CogVLM 的推理输出对齐。

闭环架构

更有趣的是,CogOmniControl 把整个框架变成了一个闭环"harness-like"架构

  1. CogVLM 理解用户意图
  2. CogOmniDiT 生成视频
  3. CogVLM 同时充当评估器,规划特定的评价标准
  4. Best-of-N 选择最佳生成结果

这让模型不仅能生成,还能自我评估和改进。

两个新基准

论文还发布了 CogReasonBenchCogControlBench,从专业工作流数据构建,携带真正的创意意图而非模拟意图。在这两个基准上,CogOmniControl 超越了现有开源模型。

论文地址:arXiv:2605.19995