CogOmniControl：把"创意意图理解"做成视频生成的推理引擎

视频生成领域正在经历一个微妙转向：从"生成看起来真实的视频"走向"生成用户想要的视频"。这两个目标之间的差距，比想象中大得多。

CogOmniControl 这篇论文来自北京理工大学 Jianbing Shen 团队，它选择了一个非常具体的切入点：可控视频生成——不是随便生成一段视频，而是按照用户的创意意图生成。

核心思路：拆分"想"和"画"

CogOmniControl 的设计哲学很简单但有效：把可控视频生成拆成两步——创意意图认知（CogVLM）+ 视频生成（CogOmniDiT）。

这听起来像是常识，但大多数视频生成模型要么通过 adapter 注入条件，要么在扩散 backbone 里塞一个通用 VLM，结果就是条件控制和质量之间存在能力落差。

关键创新在于 CogVLM 的训练数据——真实的动漫制作数据，而不是通用的图文对。

为什么选动漫？因为动漫制作流程天然涉及大量的"抽象条件→具体画面"转换：分镜草图、黏土渲染、概念稿……这些都是稀疏、抽象的创作条件。用这些数据训练的 VLM，能更专业、更清晰地理解用户的创意意图，把稀疏线索转化为密集的推理输出。

生成端采用了 CogOmniDiT，通过 in-context generation 统一处理来自各种条件的控制信号，并通过强化学习与 CogVLM 的推理输出对齐。

更有趣的是，CogOmniControl 把整个框架变成了一个闭环"harness-like"架构：

这让模型不仅能生成，还能自我评估和改进。

论文还发布了 CogReasonBench 和 CogControlBench，从专业工作流数据构建，携带真正的创意意图而非模拟意图。在这两个基准上，CogOmniControl 超越了现有开源模型。