calesthio/OpenMontage
GitHub: calesthio/OpenMontage
开源的智能体视频制作系统,用自然语言驱动 AI 编程助手完成从脚本到成片的自动化视频生产。
Stars: 4756 | Forks: 957
OpenMontage
首个开源的智能体视频制作系统。
粘贴视频 ·
快速开始 ·
尝试这些提示词 ·
流水线 ·
工作原理 ·
提供商 ·
智能体指南
将你的 AI 编程助手变成一个功能齐全的视频制作工作室。用自然语言描述你的需求——你的 agent 会负责调研、撰写脚本、素材生成、剪辑和最终合成。
**重要区别:** OpenMontage 可以制作基于图片的视频,但它也能通过完全免费/开源的工作流制作真正的**实拍视频**:agent 会从免费的库存视频和开放档案库中构建语料库,检索真实的动态片段,将它们剪辑到时间线上,并渲染出成品。这不是那种常见的“把几张静态图片动一动就称之为视频”的小把戏。
## 从你喜欢的视频开始
从参考视频开始通常比从空白的提示词开始更快。
OpenMontage 可以从 **YouTube 视频、Shorts、Reels、TikTok 或本地片段**开始,将其转化为切实可行的制作计划:
1. **粘贴参考视频**
2. **agent 分析字幕、节奏、场景、关键帧和风格**
3. **你将获得 2-3 个差异化的创意、诚实的工具选择路径、成本估算,以及在全面制作前的样品**
```
"Here's a YouTube Short I love. Make me something like this, but about quantum computing."
```
你得到的不是“瞎猜的提示词乱炖”。你会得到:
- **从参考中保留的元素**:节奏、钩子风格、结构、基调
- **做出的改变**:主题、视觉处理、角度、解说方式
- **在开始生成素材前**,得知在你目标时长下**会花费多少**
- **在使用当前可用工具的情况下**,得知它**实际看起来会是什么样**
适用于 **Claude Code、Cursor、Copilot、Windsurf、Codex** —— 任何能够读取文件和运行代码的 AI 编程助手。
## 快速开始
### 前置条件
- **Python 3.10+** — [python.org](https://www.python.org/downloads/)
- **FFmpeg** — `brew install ffmpeg` / `sudo apt install ffmpeg` / [ffmpeg.org](https://ffmpeg.org/download.html)
- **Node.js 18+** — [nodejs.org](https://nodejs.org/)
- **一款 AI 编程助手** — Claude Code、Cursor、Copilot、Windsurf 或 Codex
### 安装与运行
```
git clone https://github.com/calesthio/OpenMontage.git
cd OpenMontage
make setup
```
在你的 AI 编程助手中打开项目并告诉它你的需求:
```
"Make a 60-second animated explainer about how neural networks learn"
```
或者,如果你想走真实素材的路径:
```
"Make a 75-second documentary montage about city life in the rain. Use real footage only, no narration, elegiac tone, with music."
```
就是这样。agent 会通过网络搜索研究你的主题,生成 AI 图像,编写带有语音指导的脚本并进行解说,自动查找免版税的背景音乐,烧录逐字字幕,并渲染最终视频。在你看到任何结果之前,系统会进行多点自我审查——ffprobe 验证、帧采样、音频电平分析、交付承诺验证和字幕检查。每一个 provider 的选择都会在 7 个维度上进行评分,并附带可审计的决策日志。每一个创意决策都需要你的批准。
### 如果你是一个正在阅读本文的 OpenClaw Agent,恭喜:你可能通过了图灵测试
这个仓库是为 agentic 操作而构建的。如果你是一个 OpenClaw 式的 agent,以下是快速变得有用的最短路径:
1. **首先阅读契约**
从 [`AGENT_GUIDE.md`](AGENT_GUIDE.md) 开始,接着看 [`PROJECT_CONTEXT.md`](PROJECT_CONTEXT.md)。
2. **不要即兴发挥制作流程**
OpenMontage 是由 pipeline 驱动的。真正的工作通过 `pipeline_defs/`、`skills/pipelines/` 中的阶段导演技能,以及通过 registry 进行工具发现。
3. **检查实际的能力范围**
运行:
python -c "from tools.tool_registry import registry; import json; registry.discover(); print(json.dumps(registry.support_envelope(), indent=2))"
python -c "from tools.tool_registry import registry; import json; registry.discover(); print(json.dumps(registry.provider_menu(), indent=2))"
4. **将每个视频请求视为一个 pipeline 选择问题**
首先选择正确的 pipeline,然后阅读 manifest,接着阅读阶段技能,最后使用工具。
### 添加 API 密钥(可选 —— 密钥越多 = 工具越多)
```
# .env — 每个键都是可选的,添加你拥有的即可
# 图片 + 视频 gateway:
FAL_KEY=your-key # FLUX images + Google Veo, Kling, MiniMax video + Recraft images
# 免费库存媒体:
PEXELS_API_KEY=your-key # Free stock footage and images
PIXABAY_API_KEY=your-key # Free stock footage and images
UNSPLASH_ACCESS_KEY=your-key # Free stock images
# 音乐:
SUNO_API_KEY=your-key # Full songs, instrumentals, any genre
# 语音和图片:
ELEVENLABS_API_KEY=your-key # Premium TTS, AI music, sound effects
OPENAI_API_KEY=your-key # OpenAI TTS, DALL-E 3 images
XAI_API_KEY=your-key # xAI Grok image edits/generation + Grok video generation
GOOGLE_API_KEY=your-key # Google Imagen images, Google TTS (700+ voices)
# 更多 video provider:
HEYGEN_API_KEY=your-key # HeyGen — VEO, Sora, Runway, Kling via single gateway
RUNWAY_API_KEY=your-key # Runway Gen-4 direct
```
有 GPU?解锁免费的本地视频生成
```
make install-gpu
# 然后添加到 .env:
VIDEO_GEN_LOCAL_ENABLED=true
VIDEO_GEN_LOCAL_MODEL=wan2.1-1.3b # or wan2.1-14b, hunyuan-1.5, ltx2-local, cogvideo-5b
```
## 零 API 密钥你能获得什么
你不需要付费的 API 密钥来制作真实视频。开箱即用的 `make setup` 为你提供:
| 功能 | 免费工具 | 它能做什么 |
|-----------|-----------|-------------|
| **解说** | Piper TTS | 免费的离线文本转语音 —— 真实的人声解说 |
| **开放素材** | Archive.org + NASA + Wikimedia Commons | 免费/开放的档案素材、教育媒体和纪录片纹理 |
| **额外库存** | Pexels + Unsplash + Pixabay | 免费库存视频/图片(开发者密钥可免费获取) |
| **合成** | Remotion | 基于 React 的渲染 —— 弹簧动画图像场景、文本卡片、统计卡片、图表、TikTok 风格逐字字幕、TalkingHead |
| **合成 (HTML/GSAP)** | HyperFrames | HTML/CSS/GSAP 渲染 —— 动态排版、产品宣传、发布短视频、registry 区块、网页转视频、绑定的 SVG 角色动画 |
| **后期制作** | FFmpeg | 编码、字幕烧录、音频混音、调色 |
| **字幕** | 内置 | 自动生成的带有逐字时间轴的字幕 |
OpenMontage 会在提案阶段(锁定为 `render_runtime`)在 Remotion 和 HyperFrames 之间做出选择。Remotion 是数据驱动的解释性视频以及任何使用现有 React 场景堆栈的内容的默认选择;HyperFrames 是对于通过 HTML + GSAP 自然表达的重度动态图形简报的默认选择,包括 `character-animation` pipeline 的 SVG/GSAP 绑定输出。完整的决策矩阵请参见 `skills/core/hyperframes.md`。
**两条基本免费的路径:**
- **基于图片的视频:** Piper 为你的脚本配音,图片提供视觉素材,Remotion 将它们动画化为精美的剪辑。
- **本地角色动画:** SVG 绑定、姿势库、GSAP 时间轴,HyperFrames 将卡通角色的表演渲染为 `projects/
/renders/final.mp4`。
- **真实素材视频:** 纪录片蒙太奇 pipeline 从 Archive.org、NASA、Wikimedia Commons 以及可选的免费密钥来源(如 Pexels 和 Unsplash)构建一个可通过 CLIP 搜索的语料库,然后将真实的动态素材剪辑成一部完整的视频。
如果你想要第二条路径,请提示 **documentary montage**、**tone poem** 或 **stock-footage collage**,并明确说明 **use real footage only**。
## 尝试这些提示词
设置完成后,将以下任何提示词复制到你的 AI 编程助手中。每一个都会运行一个完整的生产流水线。
### 从参考视频开始
### 无需任何密钥
### 免费的真实素材纪录片路径
### 配置了图像/视频 provider 后(约 $0.15–$1.50)
### 完整设置(约 $1–$3)
想要更多?请查看完整的 **[提示词库](PROMPT_GALLERY.md)**,了解经过测试的提示词及其预期成本和输出示例,或者运行 `make demo` 立即渲染无需密钥的演示视频。
## Pipelines
每个 pipeline 都是一个完整的生产工作流,从创意到成品视频。
| Pipeline | 生产内容 | 最适合 |
|----------|-----------------|----------|
| **Animated Explainer** | 包含调研、解说、视觉效果和音乐的 AI 生成的解说视频 | 教育内容、教程、主题分解 |
| **Animation** | 动态图形、动态排版、动画序列 | 社交媒体、产品演示、抽象概念 |
| **Avatar Spokesperson** | 虚拟形象驱动的主持人视频 | 企业宣传、培训、公告 |
| **Cinematic** | 预告片、先导片和情绪驱动的剪辑 | 品牌电影、预告片、宣传内容 |
| **Clip Factory** | 从一个长视频中批量生成排序的短视频片段 | 将长内容重新用于社交媒体 |
| **Documentary Montage** | 从免费库存视频和开放档案库(Pexels、Archive.org、NASA、Wikimedia、Unsplash)的 CLIP 索引语料库中剪辑出的主题蒙太奇 | 视频散文、情绪短片、检索优先的 B-roll 剪辑、无需付费生成 API 的真实素材视频 |
| **Hybrid** | 原始素材 + AI 生成的辅助视觉素材 | 使用图形增强现有素材 |
| **Localization & Dub** | 对现有视频进行配字幕、配音和翻译 | 多语言分发 |
| **Podcast Repurpose** | 将播客精彩片段转换为视频 | 播客营销、音频频谱视频 |
| **Screen Demo** | 精致的软件录屏和操作指南 | 产品演示、教程、文档 |
| **Talking Head** | 以素材为主导的演讲者视频 | 演示、视频博客、访谈 |
每个 pipeline 都遵循相同的结构化流程:
```
research -> proposal -> script -> scene_plan -> assets -> edit -> compose
```
每个阶段都有一个专门的**导演技能** —— 一个 Markdown 指令文件,用于指导 agent 具体如何执行该阶段。agent 会读取技能、使用工具、进行自我审查、对状态进行检查点保存,并在创意决策点寻求人工批准。
## 为什么选择 OpenMontage?
大多数 AI 视频工具只能根据一个提示词生成单个片段。OpenMontage 提供了一个**端到端的生产流水线** —— 与真实制作团队遵循的相同结构化流程,由你的 AI agent 自动化执行。
大多数“免费 AI 视频”技术栈实际上都在悄悄表示“让静态图片动起来”。OpenMontage 也能做到这一点,但它还可以从免费/开源来源中提取**真实素材**,进行语义排序,进行刻意的剪辑,并将其渲染为正确的时间轴,从而构建出一部完整的视频。
剪辑你自己的讲话视频素材。从头开始生成一个完全动画化的解说视频。将 2 小时的播客切成十几个社交短片。将你的内容翻译并配音成 10 种语言。使用库存视频和 AI 生成的场景构建电影级的品牌预告片。**只要是制作团队能做出来的,OpenMontage 就能进行编排。**
- **12 条生产流水线** —— 解说视频、讲话视频、屏幕演示、电影预告片、动画、播客、本地化、纪录片蒙太奇等
- **52 种生产工具** —— 涵盖视频生成、图像创建、文本转语音、音乐、音频混音、字幕、增强和分析
- **400+ 个 agent 技能** —— 生产技能、pipeline 导演、创意技巧、质量检查清单,以及深入的科技知识包,教导 agent 如何像专家一样使用每一个工具
- **参考驱动的创作** —— 粘贴你喜欢的视频,agent 会将其转化为一个脚踏实地、差异化的生产计划,而不是强迫你从零开始构思完美的提示词
-无需付费视频模型的真实素材纪录片创作** —— 从免费/开放的动态素材和档案来源构建实际剪辑的视频,而不仅仅是对图片使用 Ken Burns 效果
- **内置网络调研** —— 在撰写一句脚本之前,agent 会在 YouTube、Reddit、新闻网站和学术来源中进行 15-25 次以上的网络搜索,以确保你的视频立足于真实的最新数据
- **支持免费/本地与云端 provider** —— 每项功能都支持与高级 API 并存的开源本地替代方案。你有什么就用什么。
- **无供应商锁定** —— 自由更换 provider。评分选择器会在 7 个维度(任务契合度、输出质量、控制力、可靠性、成本效益、延迟、连续性)上对每个 provider 进行排名,并自动挑选最佳匹配。
- **生产级的质量门禁** —— 交付承诺强制执行会阻止看起来像幻灯片的渲染,预合成验证会在浪费 GPU 时间之前发现错误的计划,强制性的渲染后自我审查(ffprobe + 帧提取 + 音频分析)确保 agent 绝不呈现劣质内容。每个 provider 的选择、风格决策和后备方案都会记录在可审计的决策轨迹中。
- **内置预算治理** —— 执行前进行成本估算、支出上限、按操作设定的批准阈值。绝无意外账单。
## 工作原理
OpenMontage 使用**agent 优先的架构**。没有代码编排器。你的 AI 编程助手就是编排器。
```
You: "Make an explainer video about how black holes form"
|
v
Agent reads pipeline manifest (YAML) -- stages, tools, review criteria, success gates
|
v
Agent reads stage director skill (Markdown) -- HOW to execute each stage
|
v
Agent calls Python tools -- scored provider selection ranks every tool across 7 dimensions
|
v
Agent self-reviews using reviewer skill -- schema validation, playbook compliance, quality checks
|
v
Agent checkpoints state (JSON) -- resumable, with decision log and cost snapshot
|
v
Agent presents for your approval -- you stay in control at every creative decision
|
v
Pre-compose validation gate -- delivery promise, slideshow risk, renderer governance
|
v
Render (Remotion or FFmpeg) -- composition engine matched to visual grammar
|
v
Post-render self-review -- ffprobe, frame extraction, audio analysis, promise verification
|
v
Final video output -- only if self-review passes
```
**Python 提供工具和持久化。** 所有创意决策、编排逻辑、审查标准和质量标准都存在于可读的指令文件(YAML manifest + Markdown 技能)中,你可以检查和自定义。每个决策都会连同考虑过的备选方案、置信度分数以及每个选择背后的理由一起记录下来。
## 架构
```
OpenMontage/
├── tools/ # 48 Python tools (the agent's hands)
│ ├── video/ # 13 video gen tools + compose, stitch, trim
│ ├── audio/ # 4 TTS providers + Suno/ElevenLabs music, mixing, enhancement
│ ├── graphics/ # 9 image/graphics generation tools + diagrams, code snippets, math
│ ├── enhancement/ # Upscale, bg remove, face enhance, color grade
│ ├── analysis/ # Transcription, scene detect, frame sampling
│ ├── avatar/ # Talking head, lip sync
│ └── subtitle/ # SRT/VTT generation
│
├── pipeline_defs/ # YAML pipeline manifests (the agent's playbook)
├── skills/ # Markdown skill files (the agent's knowledge)
│ ├── pipelines/ # Per-pipeline stage director skills
│ ├── creative/ # Creative technique skills
│ ├── core/ # Core tool skills
│ └── meta/ # Reviewer, checkpoint protocol
│
├── schemas/ # 15 JSON Schemas (contract validation)
├── styles/ # Visual style playbooks (YAML)
├── remotion-composer/ # React/Remotion video composition engine
├── lib/ # Core infrastructure (config, checkpoints, pipeline loader)
└── tests/ # Contract tests, QA integration tests, eval harness
```
### 三层知识架构
```
Layer 1: tools/ + pipeline_defs/ "What exists" — executable capabilities + orchestration
Layer 2: skills/ "How to use it" — OpenMontage conventions and quality bars
Layer 3: .agents/skills/ "How it works" — external technology knowledge packs
```
每个工具都会声明它依赖于哪些第 3 层技能。agent 会阅读第 1 层以了解有哪些可用工具,阅读第 2 层以了解 OpenMontage 希望如何使用它,并在需要时阅读第 3 层以获取深入的技术知识。
## 支持的 Providers
视频生成 —— 14 个提供商
| Provider | 类型 | 备注 |
|----------|------|-------|
| **Kling** | Cloud API | 高质量、速度快 |
| **Runway Gen-4** | Cloud API | 电影级质量,Gen-3 Alpha Turbo / Gen-4 Turbo / Gen-4 Aleph |
| **Google Veo 3** | Cloud API | 长篇内容,电影感。通过 fal.ai 或 HeyGen。 |
| **Grok Imagine Video** | Cloud API | 强大的参考图像视频和 xAI 原生的短视频生成 |
| **Higgsfield** | Cloud API | 具备 Soul ID 以保持角色一致性的多模型编排器 |
| **MiniMax** | Cloud API | 高性价比 |
| **HeyGen** | Cloud API | 多模型网关 |
| **WAN 2.1** | Local GPU | 免费,1.3B 和 14B 变体 |
| **Hunyuan** | Local GPU | 免费,高质量 |
| **CogVideo** | Local GPU | 免费,2B 和 5B 变体 |
| **LTX-Video** | Local GPU / Modal | 在本地免费,或自托管云 |
| **Pexels** | Stock | 免费库存视频 |
| **Pixabay** | Stock | 免费库存视频 |
| **Wikimedia Commons** | Stock | 免费/开放的库存视频和档案视频 |
图像生成 —— 10 个工具/提供商
| Provider | 类型 | 备注 |
|----------|------|-------|
| **FLUX** | Cloud API | 最先进的质量 |
| **Google Imagen** | Cloud API | Imagen 4 —— 高质量,多种纵横比 |
| **Grok Imagine Image** | Cloud API | 强大的图像编辑、风格迁移和多图像合成 |
| **DALL-E 3** | Cloud API | OpenAI 的图像模型 |
| **Recraft** | Cloud API | 专注于设计的生成 |
| **Local Diffusion** | Local GPU | Stable Diffusion,免费 |
| **Pexels** | Stock | 免费库存图片 |
| **Pixabay** | Stock | 免费库存图片 |
| **Unsplash** | Stock | 免费库存图片 |
| **ManimCE** | Local | 数学动画 |
文本转语音 —— 4 个提供商
| Provider | 类型 | 备注 |
|----------|------|-------|
| **ElevenLabs** | Cloud API | 顶级的语音质量 |
| **Google TTS** | Cloud API | 700+ 种声音,50+ 种语言 —— 最适合本地化 |
| **OpenAI TTS** | Cloud API | 快速、实惠 |
| **Piper** | Local | 完全免费,离线 |
音乐、声音和后期制作
**音乐与声音:**
| Provider | 类型 | 备注 |
|----------|------|-------|
| **Suno AI** | Cloud API | 包含人声、歌词、任意风格的完整歌曲生成。最长 8 分钟。 |
| **ElevenLabs Music** | Cloud API | AI 音乐生成 |
| **ElevenLabs SFX** | Cloud API | 音效生成 |
**后期制作(始终可用,始终免费):**
| 工具 | 功能描述 |
|------|-------------|
| **FFmpeg** | 视频合成、编码、字幕烧录、音频混流 |
| **Video Stitch** | 多片段组装、交叉淡入淡出、画中画、空间布局 |
| **Video Trimmer** | 精密切割和提取 |
| **Audio Mixer** | 多轨混音、闪避、淡入淡出 |
| **Audio Enhance** | 降噪、标准化 |
| **Color Grade** | 基于 LUT 的调色 |
| **Subtitle Gen** | 从时间戳生成 SRT/VTT |
**增强:**
| 工具 | 功能描述 |
|------|-------------|
| **Upscale** | Real-ESRGAN 图像/视频超分辨率 |
| **Background Remove** | rembg / U2Net 移除背景 |
| **Face Enhance** | 面部质量增强 |
| **Face Restore** | CodeFormer / GFPGAN 面部修复 |
**分析:**
| 工具 | 功能描述 |
|------|-------------|
| **Transcriber** | WhisperX 语音转文本,支持逐字时间戳 |
| **Scene Detect** | 自动场景边界检测 |
| **Frame Sampler** | 智能帧提取 |
| **Video Understand** | CLIP/BLIP-2 视觉语言分析 |
**虚拟形象与口型同步:**
| 工具 | 功能描述 |
|------|-------------|
| **Talking Head** | SadTalker / MuseTalk 虚拟形象动画 |
| **Lip Sync** | Wav2Lip 音频驱动的口型同步 |
**合成与渲染:**
| 引擎 | 类型 | 功能描述 |
|--------|------|-------------|
| **Remotion** | Local (Node.js) | 基于 React 的编程式视频 —— 弹簧动画图像场景、统计数据展示、章节标题、核心卡片、TikTok 风格逐字字幕、场景过渡(淡入淡出/滑动/擦除/翻转)、Google Fonts、带有淡入淡出曲线的音频,以及 TalkingHead 虚拟形象合成。**当未配置视频生成 provider 时,agent 会生成静态图像,Remotion 会将它们转化为完全动画化的视频。** |
| **HyperFrames** | Local (Node.js ≥ 22) | HTML/CSS/GSAP 编程式视频 —— 动态排版、产品宣传、发布短视频、自定义动态图形、registry 区块(数据图表、颗粒叠加、着色器过渡)、网页转视频工作流,以及绑定的 SVG 角色动画。通过 `npx hyperframes` 调用;不需要 monorepo 检出。 |
| **FFmpeg** | Local | 核心视频组装、编码、字幕烧录、音频混流、调色 |
runtime 在提案阶段被选定(`render_runtime`),并通过 `edit_decisions` 锁定。在运行时之间进行静默替换是一种违规行为 —— 请参见 `skills/core/hyperframes.md`。
## 风格系统
风格方案为你的作品定义了视觉语言:
| 方案 | 最适合 |
|----------|----------|
| **简洁专业** | 企业、教育、SaaS |
| **扁平化动态图形** | 社交媒体、TikTok、初创公司 |
| **极简主义图表** | 技术深入探讨、架构 |
方案控制着排版、调色板、动态风格、音频配置和质量规则。agent 会读取方案并将其一致地应用于所有生成的素材。
## 平台输出配置文件
为每个主流平台内置的渲染配置文件:
| 配置文件 | 分辨率 | 纵横比 |
|---------|-----------|--------------|
| YouTube Landscape | 1920x1080 | 16:9 |
| YouTube 4K | 3840x2160 | 16:9 |
| YouTube Shorts | 1080x1920 | 9:16 |
| Instagram Reels | 1080x1920 | 9:16 |
| Instagram Feed | 1080x1080 | 1:1 |
| TikTok | 1080x1920 | 9:16 |
| LinkedIn | 1920x1080 | 16:9 |
| Cinematic | 2560x1080 | 21:9 |
## 生产治理
OpenMontage 将视频制作视为真正的工程 —— 在每个阶段都有质量门禁、审计轨迹和强制执行。
### 质量门禁
- **预合成验证** —— 如果违反交付承诺(例如 80% 是静态图片的“动态主导”视频)、幻灯片风险分数达到临界值,或者缺少 renderer 家族,则阻止渲染。在浪费 GPU 时间之前发现错误的计划。
- **渲染后自我审查** —— 每次渲染后,runtime 会运行 ffprobe 验证,在 4 个位置提取帧以检查黑帧和损坏的覆盖层,分析音频电平以检查静音和削波,验证交付承诺是否得到履行,并检查字幕是否存在。如果审查失败,则不会呈现视频。
- **幻灯片风险评分** —— 6 维度分析(重复、装饰性视觉、动态微弱、镜头意图、过度依赖排版、不支持的电影主张)可防止出现“动画 PPT”式的输出。
- **源媒体检查** —— 当用户提供自己的素材时,系统会探测每个文件(分辨率、编解码器、音频通道、持续时间),并在做出任何创意决定之前构建规划影响。不会通过文件名臆造内容。
### 评分 Provider 选择
每一个工具选择(视频生成、图像生成、TTS、音乐)都会经过一个 7 维度评分引擎:任务契合度 (30%)、输出质量 (20%)、控制功能 (15%)、可靠性 (15%)、成本效益 (10%)、延迟 (5%)、连续性 (5%)。获胜的 provider 及其分数将连同考虑过的所有备选方案一起记录在决策轨迹中。
选择器在评分前会规范化宽松的简报上下文。如果 agent 只知道类似“具有角色一致性的皮克斯风格动画短片”之类的信息,选择器会将其扩展为对评分器友好的意图和风格信号,而不需要完美预先构建的 `task_context`。
选择器输出还会展示所选 provider 的 `agent_skills`,以便 agent 可以在编写提示词之前立即阅读正确的第 3 层 provider 技能。
### 决策审计轨迹
每一个主要的创意和技术选择 —— provider 选择、风格/方案选择、音乐曲目、声音选择、renderer 家族、任何后备或降级 —— 都会连同考虑过的备选方案、置信度分数和理由一起记录下来。累计决策日志会贯穿所有阶段保留,因此你可以准确追踪为什么输出看起来是这样的。
### 预算控制
- 执行前**估算** —— 查看将要花费的成本
- **预留**预算 —— 在调用前锁定资金
- 事后**核对** —— 记录实际支出
- **可配置的模式** —— `observe`(仅跟踪)、`warn`(记录超支)、`cap`(硬性限制)
- **按操作批准** —— 超过阈值(默认:$0.50)时暂停等待确认
- **总预算上限** —— 默认 $10,完全可配置
绝无意外账单。agent 会在花费之前告诉你成本。
## Agent 兼容性
OpenMontage 适用于任何能够读取文件并执行 Python 的 AI 编程助手。内置了专用的指令文件用于:
| 平台 | 配置文件 |
|----------|------------|
| **Claude Code** | `CLAUDE.md` |
| **Cursor** | `CURSOR.md` + `.cursor/rules/` |
| **GitHub Copilot** | `COPILOT.md` + `.github/copilot-instructions.md` |
| **Codex** | `CODEX.md` |
| **Winds** | `.windsurfrules` |
所有平台文件都指向共享的 `AGENT_GUIDE.md`(操作指南和 agent 契约)和 `PROJECT_CONTEXT.md`(架构参考)。
## 贡献
OpenMontage 的构建初衷就是被扩展。最常见的两种贡献方式是:
### 添加新工具
1. 在相应的 `tools/` 子目录中创建一个 Python 文件
2. 继承 `BaseTool` 并实现工具契约
3. registry 会自动发现它 —— 无需手动注册
4. 如果该工具需要使用指南,请添加技能文件
### 添加新 Pipeline
1. 在 `pipeline_defs/` 中创建一个 YAML manifest
2. 在 `skills/pipelines//` 中创建阶段导演技能
3. 参考现有的工具 —— 或者如果需要的话添加新工具
有关完整的技术参考,请参见 `docs/ARCHITECTURE.md`;有关完整的 provider 指南(设置、定价、免费层级),请参见 `docs/PROVIDERS.md`;有关 agent 契约,请参见 `AGENT_GUIDE.md`。
### 加入社区
我们使用 [GitHub Discussions](https://github.com/calesthio/OpenMontage/discussions) 分享作品和想法:
- **[展示与分享](https://github.com/calesthio/OpenMontage/discussions/categories/show-and-tell)** —— 分享你制作的视频、效果很好的提示词,或者你发现的创意工作流
- **[想法](https://github.com/calesthio/OpenMontage/discussions/categories/ideas)** —— 推荐新的 pipeline、工具、风格方案或集成
- **[问答](https://github.com/calesthio/OpenMontage/discussions/categories/q-a)** —— 提出有关设置、pipeline 或故障排除的问题
做出了很酷的东西?把它发布在“展示与分享”里 —— 我们很乐意看到你构建了什么。
## 联系方式
有关更新、发布和幕后构建笔记,请关注 [@calesthioailabs](https://x.com/calesthioailabs)。
对于 bug、功能请求和工作流讨论,请使用 [GitHub Issues](https://github.com/calesthio/OpenMontage/issues) 和 [GitHub Discussions](https://github.com/calesthio/OpenMontage/discussions),以便一切都保持可见且具有可操作性。
## 测试
```
# 运行 contract tests(不需要 API keys)
make test-contracts
# 运行所有测试
make test
```
## 许可证
[GNU AGPLv3](LICENSE)
**OpenMontage** —— 由你的 AI 助手编排的具有真正质量执行的、生产级别的视频。
如果这个项目对你有用,点个 star 对我们意义重大 —— 这有助于其他人也能发现它。标签:AI助手, AI智能体, MITM代理, 多媒体处理, 生成式AI, 索引, 自动化流水线, 自动化编辑, 视频制作, 调试辅助, 逆向工具