calesthio/OpenMontage

GitHub: calesthio/OpenMontage

开源的智能体视频制作系统，用自然语言驱动 AI 编程助手完成从脚本到成片的自动化视频生产。

Stars: 44129 | Forks: 5330

OpenMontage

首个开源的智能体视频制作系统。

粘贴视频 · 快速开始 · 尝试这些提示词 · 流水线 · 工作原理 · 提供商 · 智能体指南

将你的 AI 编程助手变成一个功能齐全的视频制作工作室。用自然语言描述你的需求——你的 agent 会负责调研、撰写脚本、素材生成、剪辑和最终合成。 **重要区别：** OpenMontage 可以制作基于图片的视频，但它也能通过完全免费/开源的工作流制作真正的**实拍视频**：agent 会从免费的库存视频和开放档案库中构建语料库，检索真实的动态片段，将它们剪辑到时间线上，并渲染出成品。这不是那种常见的“把几张静态图片动一动就称之为视频”的小把戏。

## 从你喜欢的视频开始从参考视频开始通常比从空白的提示词开始更快。 OpenMontage 可以从 **YouTube 视频、Shorts、Reels、TikTok 或本地片段**开始，将其转化为切实可行的制作计划： 1. **粘贴参考视频** 2. **agent 分析字幕、节奏、场景、关键帧和风格** 3. **你将获得 2-3 个差异化的创意、诚实的工具选择路径、成本估算，以及在全面制作前的样品** ``` "Here's a YouTube Short I love. Make me something like this, but about quantum computing." ``` 你得到的不是“瞎猜的提示词乱炖”。你会得到： - **从参考中保留的元素**：节奏、钩子风格、结构、基调 - **做出的改变**：主题、视觉处理、角度、解说方式 - **在开始生成素材前**，得知在你目标时长下**会花费多少** - **在使用当前可用工具的情况下**，得知它**实际看起来会是什么样** 适用于 **Claude Code、Cursor、Copilot、Windsurf、Codex** —— 任何能够读取文件和运行代码的 AI 编程助手。 ## 快速开始 ### 前置条件 - **Python 3.10+** — [python.org](https://www.python.org/downloads/) - **FFmpeg** — `brew install ffmpeg` / `sudo apt install ffmpeg` / [ffmpeg.org](https://ffmpeg.org/download.html) - **Node.js 18+** — [nodejs.org](https://nodejs.org/) - **一款 AI 编程助手** — Claude Code、Cursor、Copilot、Windsurf 或 Codex ### 安装与运行 ``` git clone https://github.com/calesthio/OpenMontage.git cd OpenMontage make setup ``` 在你的 AI 编程助手中打开项目并告诉它你的需求： ``` "Make a 60-second animated explainer about how neural networks learn" ``` 或者，如果你想走真实素材的路径： ``` "Make a 75-second documentary montage about city life in the rain. Use real footage only, no narration, elegiac tone, with music." ``` 就是这样。agent 会通过网络搜索研究你的主题，生成 AI 图像，编写带有语音指导的脚本并进行解说，自动查找免版税的背景音乐，烧录逐字字幕，并渲染最终视频。在你看到任何结果之前，系统会进行多点自我审查——ffprobe 验证、帧采样、音频电平分析、交付承诺验证和字幕检查。每一个 provider 的选择都会在 7 个维度上进行评分，并附带可审计的决策日志。每一个创意决策都需要你的批准。 ### 如果你是一个正在阅读本文的 OpenClaw Agent，恭喜：你可能通过了图灵测试这个仓库是为 agentic 操作而构建的。如果你是一个 OpenClaw 式的 agent，以下是快速变得有用的最短路径： 1. **首先阅读契约** 从 [`AGENT_GUIDE.md`](AGENT_GUIDE.md) 开始，接着看 [`PROJECT_CONTEXT.md`](PROJECT_CONTEXT.md)。 2. **不要即兴发挥制作流程** OpenMontage 是由 pipeline 驱动的。真正的工作通过 `pipeline_defs/`、`skills/pipelines/` 中的阶段导演技能，以及通过 registry 进行工具发现。 3. **检查实际的能力范围** 运行： python -c "from tools.tool_registry import registry; import json; registry.discover(); print(json.dumps(registry.support_envelope(), indent=2))" python -c "from tools.tool_registry import registry; import json; registry.discover(); print(json.dumps(registry.provider_menu(), indent=2))" 4. **将每个视频请求视为一个 pipeline 选择问题** 首先选择正确的 pipeline，然后阅读 manifest，接着阅读阶段技能，最后使用工具。 ### 添加 API 密钥（可选 —— 密钥越多 = 工具越多） ``` # .env — 每个键都是可选的，添加你拥有的即可 # 图片 + 视频 gateway： FAL_KEY=your-key # FLUX images + Google Veo, Kling, MiniMax video + Recraft images # 免费库存媒体： PEXELS_API_KEY=your-key # Free stock footage and images PIXABAY_API_KEY=your-key # Free stock footage and images UNSPLASH_ACCESS_KEY=your-key # Free stock images # 音乐： SUNO_API_KEY=your-key # Full songs, instrumentals, any genre # 语音和图片： ELEVENLABS_API_KEY=your-key # Premium TTS, AI music, sound effects OPENAI_API_KEY=your-key # OpenAI TTS, DALL-E 3 images XAI_API_KEY=your-key # xAI Grok image edits/generation + Grok video generation GOOGLE_API_KEY=your-key # Google Imagen images, Google TTS (700+ voices) # 更多 video provider： HEYGEN_API_KEY=your-key # HeyGen — VEO, Sora, Runway, Kling via single gateway RUNWAY_API_KEY=your-key # Runway Gen-4 direct ```

有 GPU？解锁免费的本地视频生成

``` make install-gpu # 然后添加到 .env： VIDEO_GEN_LOCAL_ENABLED=true VIDEO_GEN_LOCAL_MODEL=wan2.1-1.3b # or wan2.1-14b, hunyuan-1.5, ltx2-local, cogvideo-5b ```

## 零 API 密钥你能获得什么你不需要付费的 API 密钥来制作真实视频。开箱即用的 `make setup` 为你提供： | 功能 | 免费工具 | 它能做什么 | |-----------|-----------|-------------| | **解说** | Piper TTS | 免费的离线文本转语音 —— 真实的人声解说 | | **开放素材** | Archive.org + NASA + Wikimedia Commons | 免费/开放的档案素材、教育媒体和纪录片纹理 | | **额外库存** | Pexels + Unsplash + Pixabay | 免费库存视频/图片（开发者密钥可免费获取） | | **合成** | Remotion | 基于 React 的渲染 —— 弹簧动画图像场景、文本卡片、统计卡片、图表、TikTok 风格逐字字幕、TalkingHead | | **合成 (HTML/GSAP)** | HyperFrames | HTML/CSS/GSAP 渲染 —— 动态排版、产品宣传、发布短视频、registry 区块、网页转视频、绑定的 SVG 角色动画 | | **后期制作** | FFmpeg | 编码、字幕烧录、音频混音、调色 | | **字幕** | 内置 | 自动生成的带有逐字时间轴的字幕 | OpenMontage 会在提案阶段（锁定为 `render_runtime`）在 Remotion 和 HyperFrames 之间做出选择。Remotion 是数据驱动的解释性视频以及任何使用现有 React 场景堆栈的内容的默认选择；HyperFrames 是对于通过 HTML + GSAP 自然表达的重度动态图形简报的默认选择，包括 `character-animation` pipeline 的 SVG/GSAP 绑定输出。完整的决策矩阵请参见 `skills/core/hyperframes.md`。 **两条基本免费的路径：** - **基于图片的视频：** Piper 为你的脚本配音，图片提供视觉素材，Remotion 将它们动画化为精美的剪辑。 - **本地角色动画：** SVG 绑定、姿势库、GSAP 时间轴，HyperFrames 将卡通角色的表演渲染为 `projects//renders/final.mp4`。 - **真实素材视频：** 纪录片蒙太奇 pipeline 从 Archive.org、NASA、Wikimedia Commons 以及可选的免费密钥来源（如 Pexels 和 Unsplash）构建一个可通过 CLIP 搜索的语料库，然后将真实的动态素材剪辑成一部完整的视频。如果你想要第二条路径，请提示 **documentary montage**、**tone poem** 或 **stock-footage collage**，并明确说明 **use real footage only**。 ## 尝试这些提示词设置完成后，将以下任何提示词复制到你的 AI 编程助手中。每一个都会运行一个完整的生产流水线。 ### 从参考视频开始 ### 无需任何密钥 ### 免费的真实素材纪录片路径 ### 配置了图像/视频 provider 后（约 $0.15–$1.50） ### 完整设置（约 $1–$3）想要更多？请查看完整的 **[提示词库](PROMPT_GALLERY.md)**，了解经过测试的提示词及其预期成本和输出示例，或者运行 `make demo` 立即渲染无需密钥的演示视频。 ## Pipelines 每个 pipeline 都是一个完整的生产工作流，从创意到成品视频。 | Pipeline | 生产内容 | 最适合 | |----------|-----------------|----------| | **Animated Explainer** | 包含调研、解说、视觉效果和音乐的 AI 生成的解说视频 | 教育内容、教程、主题分解 | | **Animation** | 动态图形、动态排版、动画序列 | 社交媒体、产品演示、抽象概念 | | **Avatar Spokesperson** | 虚拟形象驱动的主持人视频 | 企业宣传、培训、公告 | | **Cinematic** | 预告片、先导片和情绪驱动的剪辑 | 品牌电影、预告片、宣传内容 | | **Clip Factory** | 从一个长视频中批量生成排序的短视频片段 | 将长内容重新用于社交媒体 | | **Documentary Montage** | 从免费库存视频和开放档案库（Pexels、Archive.org、NASA、Wikimedia、Unsplash）的 CLIP 索引语料库中剪辑出的主题蒙太奇 | 视频散文、情绪短片、检索优先的 B-roll 剪辑、无需付费生成 API 的真实素材视频 | | **Hybrid** | 原始素材 + AI 生成的辅助视觉素材 | 使用图形增强现有素材 | | **Localization & Dub** | 对现有视频进行配字幕、配音和翻译 | 多语言分发 | | **Podcast Repurpose** | 将播客精彩片段转换为视频 | 播客营销、音频频谱视频 | | **Screen Demo** | 精致的软件录屏和操作指南 | 产品演示、教程、文档 | | **Talking Head** | 以素材为主导的演讲者视频 | 演示、视频博客、访谈 | 每个 pipeline 都遵循相同的结构化流程： ``` research -> proposal -> script -> scene_plan -> assets -> edit -> compose ``` 每个阶段都有一个专门的**导演技能** —— 一个 Markdown 指令文件，用于指导 agent 具体如何执行该阶段。agent 会读取技能、使用工具、进行自我审查、对状态进行检查点保存，并在创意决策点寻求人工批准。 ## 为什么选择 OpenMontage？大多数 AI 视频工具只能根据一个提示词生成单个片段。OpenMontage 提供了一个**端到端的生产流水线** —— 与真实制作团队遵循的相同结构化流程，由你的 AI agent 自动化执行。大多数“免费 AI 视频”技术栈实际上都在悄悄表示“让静态图片动起来”。OpenMontage 也能做到这一点，但它还可以从免费/开源来源中提取**真实素材**，进行语义排序，进行刻意的剪辑，并将其渲染为正确的时间轴，从而构建出一部完整的视频。剪辑你自己的讲话视频素材。从头开始生成一个完全动画化的解说视频。将 2 小时的播客切成十几个社交短片。将你的内容翻译并配音成 10 种语言。使用库存视频和 AI 生成的场景构建电影级的品牌预告片。**只要是制作团队能做出来的，OpenMontage 就能进行编排。** - **12 条生产流水线** —— 解说视频、讲话视频、屏幕演示、电影预告片、动画、播客、本地化、纪录片蒙太奇等 - **52 种生产工具** —— 涵盖视频生成、图像创建、文本转语音、音乐、音频混音、字幕、增强和分析 - **400+ 个 agent 技能** —— 生产技能、pipeline 导演、创意技巧、质量检查清单，以及深入的科技知识包，教导 agent 如何像专家一样使用每一个工具 - **参考驱动的创作** —— 粘贴你喜欢的视频，agent 会将其转化为一个脚踏实地、差异化的生产计划，而不是强迫你从零开始构思完美的提示词 -无需付费视频模型的真实素材纪录片创作** —— 从免费/开放的动态素材和档案来源构建实际剪辑的视频，而不仅仅是对图片使用 Ken Burns 效果 - **内置网络调研** —— 在撰写一句脚本之前，agent 会在 YouTube、Reddit、新闻网站和学术来源中进行 15-25 次以上的网络搜索，以确保你的视频立足于真实的最新数据 - **支持免费/本地与云端 provider** —— 每项功能都支持与高级 API 并存的开源本地替代方案。你有什么就用什么。 - **无供应商锁定** —— 自由更换 provider。评分选择器会在 7 个维度（任务契合度、输出质量、控制力、可靠性、成本效益、延迟、连续性）上对每个 provider 进行排名，并自动挑选最佳匹配。 - **生产级的质量门禁** —— 交付承诺强制执行会阻止看起来像幻灯片的渲染，预合成验证会在浪费 GPU 时间之前发现错误的计划，强制性的渲染后自我审查（ffprobe + 帧提取 + 音频分析）确保 agent 绝不呈现劣质内容。每个 provider 的选择、风格决策和后备方案都会记录在可审计的决策轨迹中。 - **内置预算治理** —— 执行前进行成本估算、支出上限、按操作设定的批准阈值。绝无意外账单。 ## 工作原理 OpenMontage 使用**agent 优先的架构**。没有代码编排器。你的 AI 编程助手就是编排器。 ``` You: "Make an explainer video about how black holes form" | v Agent reads pipeline manifest (YAML) -- stages, tools, review criteria, success gates | v Agent reads stage director skill (Markdown) -- HOW to execute each stage | v Agent calls Python tools -- scored provider selection ranks every tool across 7 dimensions | v Agent self-reviews using reviewer skill -- schema validation, playbook compliance, quality checks | v Agent checkpoints state (JSON) -- resumable, with decision log and cost snapshot | v Agent presents for your approval -- you stay in control at every creative decision | v Pre-compose validation gate -- delivery promise, slideshow risk, renderer governance | v Render (Remotion or FFmpeg) -- composition engine matched to visual grammar | v Post-render self-review -- ffprobe, frame extraction, audio analysis, promise verification | v Final video output -- only if self-review passes ``` **Python 提供工具和持久化。** 所有创意决策、编排逻辑、审查标准和质量标准都存在于可读的指令文件（YAML manifest + Markdown 技能）中，你可以检查和自定义。每个决策都会连同考虑过的备选方案、置信度分数以及每个选择背后的理由一起记录下来。 ## 架构 ``` OpenMontage/ ├── tools/ # 48 Python tools (the agent's hands) │ ├── video/ # 13 video gen tools + compose, stitch, trim │ ├── audio/ # 4 TTS providers + Suno/ElevenLabs music, mixing, enhancement │ ├── graphics/ # 9 image/graphics generation tools + diagrams, code snippets, math │ ├── enhancement/ # Upscale, bg remove, face enhance, color grade │ ├── analysis/ # Transcription, scene detect, frame sampling │ ├── avatar/ # Talking head, lip sync │ └── subtitle/ # SRT/VTT generation │ ├── pipeline_defs/ # YAML pipeline manifests (the agent's playbook) ├── skills/ # Markdown skill files (the agent's knowledge) │ ├── pipelines/ # Per-pipeline stage director skills │ ├── creative/ # Creative technique skills │ ├── core/ # Core tool skills │ └── meta/ # Reviewer, checkpoint protocol │ ├── schemas/ # 15 JSON Schemas (contract validation) ├── styles/ # Visual style playbooks (YAML) ├── remotion-composer/ # React/Remotion video composition engine ├── lib/ # Core infrastructure (config, checkpoints, pipeline loader) └── tests/ # Contract tests, QA integration tests, eval harness ``` ### 三层知识架构 ``` Layer 1: tools/ + pipeline_defs/ "What exists" — executable capabilities + orchestration Layer 2: skills/ "How to use it" — OpenMontage conventions and quality bars Layer 3: .agents/skills/ "How it works" — external technology knowledge packs ``` 每个工具都会声明它依赖于哪些第 3 层技能。agent 会阅读第 1 层以了解有哪些可用工具，阅读第 2 层以了解 OpenMontage 希望如何使用它，并在需要时阅读第 3 层以获取深入的技术知识。 ## 支持的 Providers

视频生成 —— 14 个提供商

| Provider | 类型 | 备注 | |----------|------|-------| | **Kling** | Cloud API | 高质量、速度快 | | **Runway Gen-4** | Cloud API | 电影级质量，Gen-3 Alpha Turbo / Gen-4 Turbo / Gen-4 Aleph | | **Google Veo 3** | Cloud API | 长篇内容，电影感。通过 fal.ai 或 HeyGen。 | | **Grok Imagine Video** | Cloud API | 强大的参考图像视频和 xAI 原生的短视频生成 | | **Higgsfield** | Cloud API | 具备 Soul ID 以保持角色一致性的多模型编排器 | | **MiniMax** | Cloud API | 高性价比 | | **HeyGen** | Cloud API | 多模型网关 | | **WAN 2.1** | Local GPU | 免费，1.3B 和 14B 变体 | | **Hunyuan** | Local GPU | 免费，高质量 | | **CogVideo** | Local GPU | 免费，2B 和 5B 变体 | | **LTX-Video** | Local GPU / Modal | 在本地免费，或自托管云 | | **Pexels** | Stock | 免费库存视频 | | **Pixabay** | Stock | 免费库存视频 | | **Wikimedia Commons** | Stock | 免费/开放的库存视频和档案视频 |

图像生成 —— 10 个工具/提供商

| Provider | 类型 | 备注 | |----------|------|-------| | **FLUX** | Cloud API | 最先进的质量 | | **Google Imagen** | Cloud API | Imagen 4 —— 高质量，多种纵横比 | | **Grok Imagine Image** | Cloud API | 强大的图像编辑、风格迁移和多图像合成 | | **DALL-E 3** | Cloud API | OpenAI 的图像模型 | | **Recraft** | Cloud API | 专注于设计的生成 | | **Local Diffusion** | Local GPU | Stable Diffusion，免费 | | **Pexels** | Stock | 免费库存图片 | | **Pixabay** | Stock | 免费库存图片 | | **Unsplash** | Stock | 免费库存图片 | | **ManimCE** | Local | 数学动画 |

文本转语音 —— 4 个提供商

| Provider | 类型 | 备注 | |----------|------|-------| | **ElevenLabs** | Cloud API | 顶级的语音质量 | | **Google TTS** | Cloud API | 700+ 种声音，50+ 种语言 —— 最适合本地化 | | **OpenAI TTS** | Cloud API | 快速、实惠 | | **Piper** | Local | 完全免费，离线 |

音乐、声音和后期制作

**音乐与声音：** | Provider | 类型 | 备注 | |----------|------|-------| | **Suno AI** | Cloud API | 包含人声、歌词、任意风格的完整歌曲生成。最长 8 分钟。 | | **ElevenLabs Music** | Cloud API | AI 音乐生成 | | **ElevenLabs SFX** | Cloud API | 音效生成 | **后期制作（始终可用，始终免费）：** | 工具 | 功能描述 | |------|-------------| | **FFmpeg** | 视频合成、编码、字幕烧录、音频混流 | | **Video Stitch** | 多片段组装、交叉淡入淡出、画中画、空间布局 | | **Video Trimmer** | 精密切割和提取 | | **Audio Mixer** | 多轨混音、闪避、淡入淡出 | | **Audio Enhance** | 降噪、标准化 | | **Color Grade** | 基于 LUT 的调色 | | **Subtitle Gen** | 从时间戳生成 SRT/VTT | **增强：** | 工具 | 功能描述 | |------|-------------| | **Upscale** | Real-ESRGAN 图像/视频超分辨率 | | **Background Remove** | rembg / U2Net 移除背景 | | **Face Enhance** | 面部质量增强 | | **Face Restore** | CodeFormer / GFPGAN 面部修复 | **分析：** | 工具 | 功能描述 | |------|-------------| | **Transcriber** | WhisperX 语音转文本，支持逐字时间戳 | | **Scene Detect** | 自动场景边界检测 | | **Frame Sampler** | 智能帧提取 | | **Video Understand** | CLIP/BLIP-2 视觉语言分析 | **虚拟形象与口型同步：** | 工具 | 功能描述 | |------|-------------| | **Talking Head** | SadTalker / MuseTalk 虚拟形象动画 | | **Lip Sync** | Wav2Lip 音频驱动的口型同步 | **合成与渲染：** | 引擎 | 类型 | 功能描述 | |--------|------|-------------| | **Remotion** | Local (Node.js) | 基于 React 的编程式视频 —— 弹簧动画图像场景、统计数据展示、章节标题、核心卡片、TikTok 风格逐字字幕、场景过渡（淡入淡出/滑动/擦除/翻转）、Google Fonts、带有淡入淡出曲线的音频，以及 TalkingHead 虚拟形象合成。**当未配置视频生成 provider 时，agent 会生成静态图像，Remotion 会将它们转化为完全动画化的视频。** | | **HyperFrames** | Local (Node.js ≥ 22) | HTML/CSS/GSAP 编程式视频 —— 动态排版、产品宣传、发布短视频、自定义动态图形、registry 区块（数据图表、颗粒叠加、着色器过渡）、网页转视频工作流，以及绑定的 SVG 角色动画。通过 `npx hyperframes` 调用；不需要 monorepo 检出。 | | **FFmpeg** | Local | 核心视频组装、编码、字幕烧录、音频混流、调色 | runtime 在提案阶段被选定（`render_runtime`），并通过 `edit_decisions` 锁定。在运行时之间进行静默替换是一种违规行为 —— 请参见 `skills/core/hyperframes.md`。

## 风格系统风格方案为你的作品定义了视觉语言： | 方案 | 最适合 | |----------|----------| | **简洁专业** | 企业、教育、SaaS | | **扁平化动态图形** | 社交媒体、TikTok、初创公司 | | **极简主义图表** | 技术深入探讨、架构 | 方案控制着排版、调色板、动态风格、音频配置和质量规则。agent 会读取方案并将其一致地应用于所有生成的素材。 ## 平台输出配置文件为每个主流平台内置的渲染配置文件： | 配置文件 | 分辨率 | 纵横比 | |---------|-----------|--------------| | YouTube Landscape | 1920x1080 | 16:9 | | YouTube 4K | 3840x2160 | 16:9 | | YouTube Shorts | 1080x1920 | 9:16 | | Instagram Reels | 1080x1920 | 9:16 | | Instagram Feed | 1080x1080 | 1:1 | | TikTok | 1080x1920 | 9:16 | | LinkedIn | 1920x1080 | 16:9 | | Cinematic | 2560x1080 | 21:9 | ## 生产治理 OpenMontage 将视频制作视为真正的工程 —— 在每个阶段都有质量门禁、审计轨迹和强制执行。 ### 质量门禁 - **预合成验证** —— 如果违反交付承诺（例如 80% 是静态图片的“动态主导”视频）、幻灯片风险分数达到临界值，或者缺少 renderer 家族，则阻止渲染。在浪费 GPU 时间之前发现错误的计划。 - **渲染后自我审查** —— 每次渲染后，runtime 会运行 ffprobe 验证，在 4 个位置提取帧以检查黑帧和损坏的覆盖层，分析音频电平以检查静音和削波，验证交付承诺是否得到履行，并检查字幕是否存在。如果审查失败，则不会呈现视频。 - **幻灯片风险评分** —— 6 维度分析（重复、装饰性视觉、动态微弱、镜头意图、过度依赖排版、不支持的电影主张）可防止出现“动画 PPT”式的输出。 - **源媒体检查** —— 当用户提供自己的素材时，系统会探测每个文件（分辨率、编解码器、音频通道、持续时间），并在做出任何创意决定之前构建规划影响。不会通过文件名臆造内容。 ### 评分 Provider 选择每一个工具选择（视频生成、图像生成、TTS、音乐）都会经过一个 7 维度评分引擎：任务契合度 (30%)、输出质量 (20%)、控制功能 (15%)、可靠性 (15%)、成本效益 (10%)、延迟 (5%)、连续性 (5%)。获胜的 provider 及其分数将连同考虑过的所有备选方案一起记录在决策轨迹中。选择器在评分前会规范化宽松的简报上下文。如果 agent 只知道类似“具有角色一致性的皮克斯风格动画短片”之类的信息，选择器会将其扩展为对评分器友好的意图和风格信号，而不需要完美预先构建的 `task_context`。选择器输出还会展示所选 provider 的 `agent_skills`，以便 agent 可以在编写提示词之前立即阅读正确的第 3 层 provider 技能。 ### 决策审计轨迹每一个主要的创意和技术选择 —— provider 选择、风格/方案选择、音乐曲目、声音选择、renderer 家族、任何后备或降级 —— 都会连同考虑过的备选方案、置信度分数和理由一起记录下来。累计决策日志会贯穿所有阶段保留，因此你可以准确追踪为什么输出看起来是这样的。 ### 预算控制 - 执行前**估算** —— 查看将要花费的成本 - **预留**预算 —— 在调用前锁定资金 - 事后**核对** —— 记录实际支出 - **可配置的模式** —— `observe`（仅跟踪）、`warn`（记录超支）、`cap`（硬性限制） - **按操作批准** —— 超过阈值（默认：$0.50）时暂停等待确认 - **总预算上限** —— 默认 $10，完全可配置绝无意外账单。agent 会在花费之前告诉你成本。 ## Agent 兼容性 OpenMontage 适用于任何能够读取文件并执行 Python 的 AI 编程助手。内置了专用的指令文件用于： | 平台 | 配置文件 | |----------|------------| | **Claude Code** | `CLAUDE.md` | | **Cursor** | `CURSOR.md` + `.cursor/rules/` | | **GitHub Copilot** | `COPILOT.md` + `.github/copilot-instructions.md` | | **Codex** | `CODEX.md` | | **Winds** | `.windsurfrules` | 所有平台文件都指向共享的 `AGENT_GUIDE.md`（操作指南和 agent 契约）和 `PROJECT_CONTEXT.md`（架构参考）。 ## 贡献 OpenMontage 的构建初衷就是被扩展。最常见的两种贡献方式是： ### 添加新工具 1. 在相应的 `tools/` 子目录中创建一个 Python 文件 2. 继承 `BaseTool` 并实现工具契约 3. registry 会自动发现它 —— 无需手动注册 4. 如果该工具需要使用指南，请添加技能文件 ### 添加新 Pipeline 1. 在 `pipeline_defs/` 中创建一个 YAML manifest 2. 在 `skills/pipelines//` 中创建阶段导演技能 3. 参考现有的工具 —— 或者如果需要的话添加新工具有关完整的技术参考，请参见 `docs/ARCHITECTURE.md`；有关完整的 provider 指南（设置、定价、免费层级），请参见 `docs/PROVIDERS.md`；有关 agent 契约，请参见 `AGENT_GUIDE.md`。 ### 加入社区我们使用 [GitHub Discussions](https://github.com/calesthio/OpenMontage/discussions) 分享作品和想法： - **[展示与分享](https://github.com/calesthio/OpenMontage/discussions/categories/show-and-tell)** —— 分享你制作的视频、效果很好的提示词，或者你发现的创意工作流 - **[想法](https://github.com/calesthio/OpenMontage/discussions/categories/ideas)** —— 推荐新的 pipeline、工具、风格方案或集成 - **[问答](https://github.com/calesthio/OpenMontage/discussions/categories/q-a)** —— 提出有关设置、pipeline 或故障排除的问题做出了很酷的东西？把它发布在“展示与分享”里 —— 我们很乐意看到你构建了什么。 ## 联系方式有关更新、发布和幕后构建笔记，请关注 [@calesthioailabs](https://x.com/calesthioailabs)。对于 bug、功能请求和工作流讨论，请使用 [GitHub Issues](https://github.com/calesthio/OpenMontage/issues) 和 [GitHub Discussions](https://github.com/calesthio/OpenMontage/discussions)，以便一切都保持可见且具有可操作性。 ## 测试 ``` # 运行 contract tests（不需要 API keys） make test-contracts # 运行所有测试 make test ``` ## 许可证 [GNU AGPLv3](LICENSE) **OpenMontage** —— 由你的 AI 助手编排的具有真正质量执行的、生产级别的视频。如果这个项目对你有用，点个 star 对我们意义重大 —— 这有助于其他人也能发现它。

标签：AI助手, AI智能体, MITM代理, 多媒体处理, 生成式AI, 索引, 自动化流水线, 自动化编辑, 视频制作, 调试辅助, 逆向工具