ViMax：一个能自己当导演、编剧、制片人的 AI 视频生成工具

当前的 AI 视频生成工具普遍面临三个问题：

片段太短。 大多数工具只能生成几秒钟的视频，连一个完整场景都讲不完。

一致性混乱。 角色在帧与帧之间变脸，场景忽明忽暗，风格前后不一致。

只有画面，没有叙事。 缺少脚本、音频、故事结构——你能得到一个好看的 3 秒 GIF，但不是"一段视频"。

ViMax 尝试回答一个更大的问题：如果让 AI 自己当导演、编剧、制片人，再加一个视频生成器，能不能从零开始做出一段完整的视频？

四合一架构

ViMax 来自香港大学数据科学实验室（HKUDS），它的架构设计很有意思——不是单一的"文本到视频"模型，而是一个多 Agent 协作系统，每个 Agent 扮演影视制作中的一个角色：

🎬 Director（导演）——负责整体的创意方向和视觉风格把控。它决定视频的节奏、色调、构图策略，确保最终成片在视觉上是一致的。

📝 Screenwriter（编剧）——根据你的概念输入，自主撰写剧本。不是简单的 prompt 扩写，而是有叙事结构的故事——开场、发展、高潮、结尾。

🎥 Producer（制片人）——负责协调资源和流程。它把剧本拆成场景，把场景拆成镜头，管理角色一致性、场景连贯性，确保每个环节的资源到位。

🎞️ Video Generator（视频生成器）——执行实际的视频帧生成。基于前面三个 Agent 的规划，逐镜头生成视频内容。

这四个角色协同工作，你只需要输入一个概念——比如"一个机器人在雨中的东京街头行走"——然后 ViMax 自主完成剩下的所有工作。

目前的视频生成工具（Runway、Pika、Sora 等）本质上都是"文本到像素"的映射——你输入 prompt，它输出一段视频。但专业的视频制作不是这样的。

专业流程是：概念 → 剧本 → 分镜 → 角色设计 → 场景搭建 → 拍摄 → 后期。每个环节都需要不同的专业技能和决策。

ViMax 的 Agentic 架构模拟了这个流程。它不是在生成"一段视频"，而是在执行"一次制作"。这意味着：

项目用 Python 3.12 编写，支持 uv 包管理器，MIT 许可证。

从仓库结构来看，ViMax 有几个技术亮点：

多 Agent 编排——四个角色不是顺序执行，而是有反馈循环。导演可以要求编剧修改某个场景的节奏，制片人可以要求视频生成器重新渲染某个镜头。这种交互式的 Agent 协作是实现高质量成片的关键。

角色一致性追踪——ViMax 有专门的机制来确保角色在不同场景、不同镜头之间保持一致的外观。这在当前的 AI 视频生成中是一个公认的难题。

分层生成——不是直接生成完整视频，而是先做分镜、再做角色设定、最后生成视频帧。这种分层方法提高了可控性和一致性。

必须诚实：这个项目还在早期阶段。

它展示了"从概念到成片"的完整流程是可行的——这在 AI 视频生成领域本身就是一个重要进展。但成片的时长、质量、流畅度，距离专业级还有差距。

不过，GitHub 上的演示视频已经足够让人看到方向：角色在多场景中保持一致、叙事有起承转合、视觉风格统一。这些在 2025 年的 AI 视频工具中都是稀缺能力。

项目有飞书群和微信群，说明中文社区已经有活跃用户在参与。YouTube 上也有专门的频道展示生成效果。

这个项目创建于 2025 年 3 月 30 日，到现在一年多。6,619 星在视频生成领域不算特别多——但考虑到它是一个学术团队的项目（而非商业公司），这个数字已经相当不错了。

本周新增 2,495 星说明项目近期可能有重要更新或演示发布，引发了关注。

AI 视频创作者——如果你在用 Runway、Pika 等工具做视频，ViMax 的端到端流程可能会改变你的工作方式。不需要手动写 prompt、不需要反复调整一致性。

研究者和开发者——多 Agent 协作在视频生成中的应用是一个前沿方向。ViMax 的开源实现值得研究。

内容创作者——如果你需要批量生产视频内容（比如短视频、产品展示），ViMax 的自动化流程可以大幅提高效率。