视频生成领域正在经历一个微妙转向:从"生成看起来真实的视频"走向"生成用户想要的视频"。这两个目标之间的差距,比想象中大得多。
CogOmniControl 这篇论文来自北京理工大学 Jianbing Shen 团队,它选择了一个非常具体的切入点:可控视频生成——不是随便生成一段视频,而是按照用户的创意意图生成。
核心思路:拆分"想"和"画"
CogOmniControl 的设计哲学很简单但有效:把可控视频生成拆成两步——创意意图认知(CogVLM)+ 视频生成(CogOmniDiT)。
这听起来像是常识,但大多数视频生成模型要么通过 adapter 注入条件,要么在扩散 backbone 里塞一个通用 VLM,结果就是条件控制和质量之间存在能力落差。
CogVLM:懂"创作语言"的视觉模型
关键创新在于 CogVLM 的训练数据——真实的动漫制作数据,而不是通用的图文对。
为什么选动漫?因为动漫制作流程天然涉及大量的"抽象条件→具体画面"转换:分镜草图、黏土渲染、概念稿……这些都是稀疏、抽象的创作条件。用这些数据训练的 VLM,能更专业、更清晰地理解用户的创意意图,把稀疏线索转化为密集的推理输出。
CogOmniDiT:in-context 统一多条件控制
生成端采用了 CogOmniDiT,通过 in-context generation 统一处理来自各种条件的控制信号,并通过强化学习与 CogVLM 的推理输出对齐。
闭环架构
更有趣的是,CogOmniControl 把整个框架变成了一个闭环"harness-like"架构:
- CogVLM 理解用户意图
- CogOmniDiT 生成视频
- CogVLM 同时充当评估器,规划特定的评价标准
- Best-of-N 选择最佳生成结果
这让模型不仅能生成,还能自我评估和改进。
两个新基准
论文还发布了 CogReasonBench 和 CogControlBench,从专业工作流数据构建,携带真正的创意意图而非模拟意图。在这两个基准上,CogOmniControl 超越了现有开源模型。
论文地址:arXiv:2605.19995