HKUDS/ViMax

GitHub: HKUDS/ViMax

ViMax 是一个多智能体协作的端到端视频生成框架，通过自动化脚本编写、分镜头设计、角色一致性管理和视频合成，将创意、小说或剧本直接转化为高质量长视频。

Stars: 10712 | Forks: 1561

ViMax: Agentic Video Generation

### 🚨 当前视频生成的局限性： - ❌ **仅限于短视频** - 大多数 AI 工具只能生成几秒钟的画面。
- ❌ **一致性混乱** - 角色和场景在不同帧之间发生不可预测的变化。
- ❌ **仅关注视觉效果** - 缺少脚本、音频、叙事结构和故事深度。
### 💡 ViMax 解决方案： 🎬 **导演**、**编剧**、**制片人**和**视频生成器****合四为一**！我们正在探索一个 AI 成为完整创意引擎的未来。 💡 只需输入您的创意。ViMax 会自主处理其余所有工作。它负责编排剧本编写、分镜头脚本设计、角色创建和最终的视频生成——全程端到端实现。 🚀 https://github.com/user-attachments/assets/5bad46b2-8276-4e1d-9480-3522640744b2

## 📑 目录 - [💡 核心功能](#key-features) - [🔮 演示](#Video-Demos-Generated-from-Scratch) - [🏗️ 架构](#️-architecture) - [🚀 快速入门](#quick-start) ## 💡核心功能

🌟 Idea2Video

从灵感到屏幕

通过智能的多 Agent 工作流自动化处理故事讲述、角色设计和制作，将原始想法转化为完整的视频故事。

🎨 Novel2Video

智能文学改编引擎

通过智能叙事压缩、角色追踪和逐场景视觉改编，将完整小说转化为分集视频内容

⚙️ Script2Video

无限的剧本视频创作

释放您的创造力，编写任何剧本，从个人故事到史诗般的冒险，让您完全掌控视觉叙事的方方面面。

🤳 AutoCameo

从您的照片生成视频

创建您自己的客串视频，将您自己/宠物转变为客串明星，出现在无限的创意剧本、电影级连续镜头和交互式故事情节中。

## 🔮从零生成的视频演示

### 🎯 **端到端视频创作引擎** **面临的挑战**： - 🌅 **参考图像**：获取、组织和调整参考帧非常耗时，这些帧需要准确捕捉角色、物体、位置和环境。 - 🫠 **一致性检查**：有时，即使给图像生成器提供了正确的角色、位置、环境参考图像和提示词，它也可能生成无法使用的图像。 - 📄 **脚本生成**：专业且高质量的视频需要具备丰富的信息密度和结构化设计。 - 📝 **分镜头脚本设计**：将故事转化为视觉叙事需要大多数创作者所缺乏的电影摄影、场景构图和视觉叙事方面的专业知识。 - 🎬 **镜头设计**：在复杂的场景中保持叙事流畅的同时，创建具有适当角度、过渡和节奏的连贯镜头序列。 - 🎨 **开发延迟**：在长篇内容的数百个镜头中，确保角色外观、环境和艺术风格保持一致。 - ⏱️ **制作效率**：传统的视频创作涉及多个专家和冗长的工作流，为独立创作者和快速原型设计制造了障碍。 - 🎥 **扩展 AI 生成视频**：AI 生成的视频通常只有几秒钟长，达到分钟甚至小时级别的高质量长视频需要复杂的跨场景连续性和多分镜头脚本设计与处理能力。 **ViMAX**：通过自动化从叙事输入到最终视频输出的整个视频创作流水线，消除了这些制作瓶颈。 ### 🔥 **为什么选择 ViMax？** | 🧠 **轻松制作** | 🚀 **完全的创作自由** | 🔊 **音视频绑定** | 🎨 **专业品质** | 🤩 **交互式视频** |:---:|:---:|:---:|:---:|:---:| | 单一提示到成片 | 从任何叙事到现实 | 同步故事讲述 | 电影级输出 | 制作您自己的客串视频 | 跳过技术复杂性——只需描述您的愿景，让 ViMax 处理脚本生成、分镜头脚本设计、镜头设计、参考管理和一致性验证 | 没有创意限制——无论是预告片、短篇故事、小说章节还是原创概念，ViMax 都能智能地构建叙事结构并设计电影摄影，将任何想法变为现实 | 将角色配音和音效与视觉内容无缝融合，创造音频和视频完美和谐的沉浸式体验 | 自动化的质量控制确保了视频每一帧的角色一致性、适当的场景构图和专业的视觉标准 | 通过上传您的照片在您自己的短篇故事中互动——ViMax 智能地将您整合为一个角色，在整个视频中保持一致的外观和自然的互动 ### ☄️ **即将推出** - 👨‍💻 **Google AI Studio API 配置 ✅** - 📹 **开发者模式分支** - 🤳 **集成 AutoCameo** - 📺 **更多演示** - 🎞️ **镜头规划** - 🤖 **新功能** ## 🏗️ 架构 ### 📊 **系统概述** **ViMax** 是一个多 Agent 视频框架，能够实现自动化的多镜头视频生成，同时确保角色和场景的一致性。我们的系统将您的想法无缝转化为相应的视频，让您可以专注于故事讲述而不是技术实现。 🎯 **技术能力**： 🧬 **智能长脚本生成** 基于 RAG 的长脚本设计引擎，智能分析冗长的、小说式的故事，并自动将其分割成多场景的脚本格式。该过程精心确保所有关键的情节发展和角色对话都能在新结构中准确保留。 🪄 **富有表现力的分镜头脚本设计** 镜头级别的分镜头脚本设计系统，根据用户需求和目标受众，运用电影摄影语言创建富有表现力的分镜头脚本，为后续的视频生成确立叙事节奏。 🔮 **多机位拍摄模拟** 模拟多机位拍摄以提供沉浸式观看体验，同时在同一场景中保持一致的角色定位和背景。 🧸 **智能参考图像选择** 智能选择当前视频第一帧所需的参考图像，包括之前时间线中发生的故事板，以确保随着视频变长，多个角色和环境元素的准确性。 ⚙️ **自动化图像生成** 基于所选的参考图像和先前时间线上的视觉逻辑顺序，自动生成图像生成器的提示词，以合理安排角色与环境之间的空间交互位置。 ✅ **自动化图像生成一致性检查** 并行生成多张图像，并通过 MLLM/VLM 选择最佳的一致性图像作为第一帧，以模仿人类创作者的工作流。 ⚡ **高效的并行镜头生成** 对从同一摄像机捕获的连续镜头进行并行处理，实现高效的视频制作。 ### 🤖 多 Agent 视频生成流水线

🧠 INPUT LAYER (输入层) 📝 想法与脚本与小说 • 💭 自然语言提示词 • 🖼️ 参考图像 • 🎨 风格指令 • 🧩 配置

🧭 CENTRALCHESTRATION (中央编排) Agent 调度 • 阶段转换 • 资源管理 • 重试/回退逻辑

🧾 SCRIPT UNDERSTANDING (脚本理解) 角色/环境提取 • 场景边界 • 风格意图		🎥 SCENE & SHOT PLANNING (场景与镜头规划) 分镜头步骤 • 镜头列表 • 关键帧与节拍

🧪 VISUAL ASSET PLANNING (视觉资产规划) 参考图像选择 • 外观/风格指导 • 提示词条件设定

🗂️ ASSET INDEXING (资产索引) 帧/参考目录 • 嵌入 • 检索与复用		♻️ CONSISTENCY & CONTINUITY (一致性与连续性) 角色/环境追踪 • 参考匹配 • 时序连贯性

✂️ VISUAL SYNTHESIS & ASSEMBLY (视觉合成与组装) 图像生成 • 最佳帧选择 • 首帧/尾帧→视频 • 剪辑与时间线组装

🚀 OUTPUT LAYER (输出层) 🖼️ 帧 • 🎞️ 片段与最终视频 • 📜 日志 • 📦 工作目录制品

## 🚀快速入门 ### 🖥️ **环境** ``` OS: Linux, Windows ``` ### 📥 **克隆并安装** 我们使用 uv 来管理环境。关于 uv 的安装，请参考 https://docs.astral.sh/uv/getting-started/installation/。 ``` git clone https://github.com/HKUDS/ViMax.git cd ViMax uv sync ``` ### 🎯 **使用** main_idea2video.py 用于将您的想法转换为视频。您需要在 configs/idea2video.yaml 文件中配置模型和 API 密钥信息，包括三个部分——聊天模型、图像生成器和视频生成器，如下所示 ``` chat_model: init_args: model: google/gemini-2.5-flash-lite-preview-09-2025 model_provider: openai api_key: base_url: https://openrouter.ai/api/v1 image_generator: class_path: tools.ImageGeneratorNanobananaGoogleAPI init_args: api_key: video_generator: class_path: tools.VideoGeneratorVeoGoogleAPI init_args: api_key: working_dir: .working_dir/idea2video ``` 然后，在 main_idea2video.py 中提供一个简单而有深度的想法以及相应的创作要求。 ``` idea = \ """ If a cat and a dog are best friends, what would happen when they meet a new cat? """ user_requirement = \ """ For children, do not exceed 3 scenes. """ style = "Cartoon" ``` #### 使用 MiniMax 作为 Chat Model 提供商 [MiniMax](https://www.minimaxi.com/) 模型可用作备选的聊天模型提供商。MiniMax 提供与 OpenAI 兼容的 API 访问，支持的模型包括 **MiniMax-M2.7**（1M 上下文窗口）和 **MiniMax-M2.5**（204K 上下文）。只需在配置中设置 `model_provider: minimax`，base URL 将自动解析： ``` chat_model: init_args: model: MiniMax-M2.7 model_provider: minimax api_key: ``` 或者将 API 密钥导出为环境变量，并将 `api_key` 留空： ``` export MINIMAX_API_KEY= ``` 有关完整示例，请参阅 `configs/idea2video_minimax.yaml` 和 `configs/script2video_minimax.yaml`。 | 模型 | 上下文 | 备注 | |---|---|---| | MiniMax-M2.7 | 1M tokens | 最新版本，推荐使用 | | MiniMax-M2.7-highspeed | 1M tokens | 快速变体 | | MiniMax-M2.5 | 204K tokens | 稳定版本 | | MiniMax-M2.5-highspeed | 204K tokens | 快速变体 | main_script2video.py 用于根据特定脚本生成视频。您同样需要在 configs/script2video.yaml 文件中设置 API 配置。然后，在 main_script2video.py 中提供场景脚本和相应的创作要求，如下所示。 ``` script = \ """ EXT. SCHOOL GYM - DAY A group of students are practicing basketball in the gym. The gym is large and open, with a basketball hoop at one end and a large crowd of spectators at the other end. John (18, male, tall, athletic) is the star player, and he is practicing his dribble and shot. Jane (17, female, short, athletic) is the assistant coach, and she is helping John with his practice. The other students are watching the practice and cheering for John. John: (dribbling the ball) I'm going to score a basket! Jane: (smiling) Good job, John! John: (shooting the ball) Yes! ... """ user_requirement = \ """ Fast-paced with no more than 20 shots. """ style = "Animate Style" ``` **🌟 如果这个项目对您有帮助，请给我们点一个 Star！**

❤️ 感谢您的访问 ✨ ViMax！