C
ChaoBro

ViMax:一个能自己当导演、编剧、制片人的 AI 视频生成工具

当前的 AI 视频生成工具普遍面临三个问题:

片段太短。 大多数工具只能生成几秒钟的视频,连一个完整场景都讲不完。

一致性混乱。 角色在帧与帧之间变脸,场景忽明忽暗,风格前后不一致。

只有画面,没有叙事。 缺少脚本、音频、故事结构——你能得到一个好看的 3 秒 GIF,但不是"一段视频"。

ViMax 尝试回答一个更大的问题:如果让 AI 自己当导演、编剧、制片人,再加一个视频生成器,能不能从零开始做出一段完整的视频?

四合一架构

ViMax 来自香港大学数据科学实验室(HKUDS),它的架构设计很有意思——不是单一的"文本到视频"模型,而是一个多 Agent 协作系统,每个 Agent 扮演影视制作中的一个角色:

🎬 Director(导演)——负责整体的创意方向和视觉风格把控。它决定视频的节奏、色调、构图策略,确保最终成片在视觉上是一致的。

📝 Screenwriter(编剧)——根据你的概念输入,自主撰写剧本。不是简单的 prompt 扩写,而是有叙事结构的故事——开场、发展、高潮、结尾。

🎥 Producer(制片人)——负责协调资源和流程。它把剧本拆成场景,把场景拆成镜头,管理角色一致性、场景连贯性,确保每个环节的资源到位。

🎞️ Video Generator(视频生成器)——执行实际的视频帧生成。基于前面三个 Agent 的规划,逐镜头生成视频内容。

这四个角色协同工作,你只需要输入一个概念——比如"一个机器人在雨中的东京街头行走"——然后 ViMax 自主完成剩下的所有工作。

为什么这个思路重要?

目前的视频生成工具(Runway、Pika、Sora 等)本质上都是"文本到像素"的映射——你输入 prompt,它输出一段视频。但专业的视频制作不是这样的。

专业流程是:概念 → 剧本 → 分镜 → 角色设计 → 场景搭建 → 拍摄 → 后期。每个环节都需要不同的专业技能和决策。

ViMax 的 Agentic 架构模拟了这个流程。它不是在生成"一段视频",而是在执行"一次制作"。这意味着:

  • 叙事一致性——编剧 Agent 确保故事有结构,不是随机片段的拼接
  • 视觉一致性——导演 Agent 确保风格统一,不是每个镜头各搞各的
  • 角色一致性——制片人 Agent 跟踪角色在视频中的外观和行为,避免变脸
  • 端到端——你输入概念,它输出成片,中间不需要人工干预

技术实现

项目用 Python 3.12 编写,支持 uv 包管理器,MIT 许可证。

从仓库结构来看,ViMax 有几个技术亮点:

多 Agent 编排——四个角色不是顺序执行,而是有反馈循环。导演可以要求编剧修改某个场景的节奏,制片人可以要求视频生成器重新渲染某个镜头。这种交互式的 Agent 协作是实现高质量成片的关键。

角色一致性追踪——ViMax 有专门的机制来确保角色在不同场景、不同镜头之间保持一致的外观。这在当前的 AI 视频生成中是一个公认的难题。

分层生成——不是直接生成完整视频,而是先做分镜、再做角色设定、最后生成视频帧。这种分层方法提高了可控性和一致性。

实际能到什么水平?

必须诚实:这个项目还在早期阶段。

它展示了"从概念到成片"的完整流程是可行的——这在 AI 视频生成领域本身就是一个重要进展。但成片的时长、质量、流畅度,距离专业级还有差距。

不过,GitHub 上的演示视频已经足够让人看到方向:角色在多场景中保持一致、叙事有起承转合、视觉风格统一。这些在 2025 年的 AI 视频工具中都是稀缺能力。

项目有飞书群和微信群,说明中文社区已经有活跃用户在参与。YouTube 上也有专门的频道展示生成效果。

6,619 星的含金量

这个项目创建于 2025 年 3 月 30 日,到现在一年多。6,619 星在视频生成领域不算特别多——但考虑到它是一个学术团队的项目(而非商业公司),这个数字已经相当不错了。

本周新增 2,495 星说明项目近期可能有重要更新或演示发布,引发了关注。

谁应该关注这个项目?

AI 视频创作者——如果你在用 Runway、Pika 等工具做视频,ViMax 的端到端流程可能会改变你的工作方式。不需要手动写 prompt、不需要反复调整一致性。

研究者和开发者——多 Agent 协作在视频生成中的应用是一个前沿方向。ViMax 的开源实现值得研究。

内容创作者——如果你需要批量生产视频内容(比如短视频、产品展示),ViMax 的自动化流程可以大幅提高效率。

主要来源:GitHub - HKUDS/ViMax